[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20230091749A - 데이터맵 생성 방법 및 장치 - Google Patents

데이터맵 생성 방법 및 장치 Download PDF

Info

Publication number
KR20230091749A
KR20230091749A KR1020220054565A KR20220054565A KR20230091749A KR 20230091749 A KR20230091749 A KR 20230091749A KR 1020220054565 A KR1020220054565 A KR 1020220054565A KR 20220054565 A KR20220054565 A KR 20220054565A KR 20230091749 A KR20230091749 A KR 20230091749A
Authority
KR
South Korea
Prior art keywords
data map
data
relational
metadata
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
KR1020220054565A
Other languages
English (en)
Inventor
우예린
원희선
민 차우 응웬
손시운
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20230091749A publication Critical patent/KR20230091749A/ko
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터맵 생성 방법 및 장치가 개시된다.
상기 데이터맵 생성 방법은, 관계형 DB용 데이터맵 생성 모듈에 의해, 분류 체계와 카테고리에 따라 분류된 카탈로그의 자산 관련 메타데이터에 대해 기 설정의 규격으로 기술한 관계형 데이터맵을 생성하고, 표준 어휘를 이용하여 상기 관계형 데이터맵을 RDF 트리플 구조로 변환하는 단계; 및 그래프형 DB용 데이터맵 생성 모듈에 의해, 상기 관계형 데이터맵에서의 변경 이벤트와 관련된 변경 데이터를 메시지큐로 전달하며, 상기 메시지큐로 입력된 상기 변경 데이터에 대해 표준 어휘를 사용하여 노드, 노드 속성 및 노드간 관계를 맵핑하는 그래프형 데이터맵을 생성하는 단계를 포함한다.

Description

데이터맵 생성 방법 및 장치{MEHTOD AND DEVICE FOR GENERATING DATAMAP}
본 개시는 데이터맵 생성 방법 및 장치에 관한 것이며, 보다 구체적으로 공공 및 민간 분야 등의 다양한 영역에서 생성되는 각종 데이터셋의 상호 공유와 활용 지원을 위해 데이터셋에 대한 다양한 메타데이터 정보를 기술하는 데이터맵 생성 방법 및 장치에 관한 것이다.
국내외 여러 분야에서 데이터 기반의 융합 비즈니스 모델과 새로운 데이터의 출현 빈도가 급증하고 공공, 민간 등 상호 간의 데이터 공유에 대한 요구가 커지고 있다. 이에 따라 공공, 민간 등에서 보유하고 있는 데이터셋에 대한 정보를 기술한 데이터맵의 공유가 확산 추세에 있으나, 서로 다른 형식으로 상호간 정확한 해석과 활용이 원활하지 못한 문제점이 있다.
기존에도 업무와 관련하여 데이터셋이 관리되고 공유되고 있으나, 최근 데이터 개방 확산과 신산업 개척에 대한 기대로 상호간 데이터 공유의 필요성이 더욱 증대되고 있다. 이에 따라, 데이터 산업환경의 변화에 대응할 수 있는 데이터맵의 구조 및 생성 방안이 필요한 실정이다.
본 개시의 기술적 과제는 공공 및 민간 분야 등의 다양한 영역에서 생성되는 각종 데이터셋의 상호 공유와 활용 지원을 위해 데이터셋에 대한 다양한 메타데이터 정보를 기술하는 데이터맵 생성 방법 및 장치를 제공하는데 그 목적이 있다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 양상에 따르면, 데이터맵 생성 방법이 제공된다. 상기 데이터맵 생성 방법은, 관계형 DB용 데이터맵 생성 모듈에 의해, 분류 체계와 카테고리에 따라 분류된 카탈로그의 자산 관련 메타데이터에 대해 기 설정의 규격으로 기술한 관계형 데이터맵을 생성하고, 표준 어휘를 이용하여 상기 관계형 데이터맵을 RDF 트리플 구조로 변환하는 단계; 및 그래프형 DB용 데이터맵 생성 모듈에 의해, 상기 관계형 데이터맵에서의 변경 이벤트와 관련된 변경 데이터를 메시지큐로 전달하며, 상기 메시지큐로 입력된 상기 변경 데이터에 대해 표준 어휘를 사용하여 노드, 노드 속성 및 노드간 관계를 맵핑하는 그래프형 데이터맵을 생성하는 단계를 포함한다.
본 개시의 다른 실시예에 따르면, 상기 그래프형 데이터맵은 상기 자산을 상기 노드로 할당하고, 상기 자산 관련 메타데이터의 용어의 범위에 따라, 상기 자산 관련 메타데이터를 상기 노드 속성 및 상기 노드간 관계 중 어느 하나로 할당하도록 생성될 수 있다.
상기 실시예에 추가하여, 상기 노드 속성은 상기 자산 관련 메타데이터가 상기 표준 어휘의 용어의 범위에 속하는 경우에 생성되고, 상기 노드간 관계는 상기 자산 관련 메타데이터가 상기 표준 어휘의 용어의 범위에 속하지 않는 경우에 생성될 수 있다.
상기 실시예에 추가하여, 상기 그래프형 데이터맵은 상기 노드간 관계와 관련된 속성값을 신규 노드에 할당하도록 생성될 수 있다.
본 개시의 또 다른 실시예에 따르면, 상기 자산 관련 메타데이터는 데이터셋, 데이터서비스 및 분석모델 중 적어도 하나와 함께, 각 자산에 대한 사용방법, 표준 어휘, 품질지표 중 적어도 하나를 포함할 수 있다.
본 개시의 다른 양상에 따르면, 데이터맵 생성 장치가 제공된다. 상기 데이터맵 생성 장치는, 분류 체계와 카테고리에 따라 분류된 카탈로그의 자산 관련 메타데이터에 대해 기 설정의 규격으로 기술한 관계형 데이터맵을 생성하고, 표준 어휘를 이용하여 상기 관계형 데이터맵을 RDF 트리플 구조로 변환하는 관계형 DB용 데이터맵 생성 모듈; 및 상기 관계형 데이터맵에서의 변경 이벤트와 관련된 변경 데이터를 메시지큐로 전달하며, 상기 메시지큐로 입력된 상기 변경 데이터에 대해 표준 어휘를 사용하여 노드, 노드 속성 및 노드간 관계를 맵핑하는 그래프형 데이터맵을 생성하는 그래프형 DB용 데이터맵 생성 모듈을 포함한다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 공공 및 민간 분야 등의 다양한 영역에서 생성되는 각종 데이터셋의 상호 공유와 활용 지원을 위해 데이터셋에 대한 다양한 메타데이터 정보를 기술하는 데이터맵 생성 방법 및 장치를 제공할 수 있다.
본 개시에 따르면, 데이터의 소재, 형식, 내용 등 데이터에 대한 다양한 정보인 메타데이터 정보를 표준 형식으로 배포하여 상호간 데이터 검색과 공유가 원활히 이루어질 수 있다.
본 개시에 따르면, 다양한 분야에 산재되어 있는 데이터를 효율적으로 공유하고, 검색 정확도를 향상시킬 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시예에 따른 데이터맵 생성 장치의 개략 블록도이다.
도 2는 데이터맵의 구조를 도시한 도면이다.
도 3은 분류 체계 및 카테고리에 따라 자산을 분류한 카탈로그가 관리되는 것을 예시한 도면이다.
도 4는 자산의 메타데이터를 설명하기 위한 RDF 트리플 구조를 예시한 도면이다.
도 5는 관계형 DB용 데이터맵 생성 모듈의 블록도이다.
도 6은 그래프형 DB용 데이터맵 생성 모듈의 블록도이다.
도 7은 그래프형 데이터베이스에서 노드의 추가를 예시하는 도면이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결 관계 뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들 간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제 1 구성요소는 다른 실시 예에서 제 2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제 2 구성요소를 다른 실시 예에서 제 1 구성요소라고 칭할 수도 있다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함 이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
이하에서는, 본 명세서의 도면을 참조하여 본 개시에 따른 실시예들을 설명한다.
도 1은 본 개시의 일 실시예에 따른 데이터맵 생성 장치의 개략 블록도이다.
데이터맵 생성 시스템은 데이터맵 생성 장치(100), 데이터 거버넌스 시스템(200) 및 데이터 포털 시스템(300)을 포함한다.
데이터맵 생성 장치(100)는 관계형 DB용 데이터맵 생성 모듈(110) 및 그래프형 DB용 데이터맵 생성 모듈(120)을 포함할 수 있다.
관계형 DB용 데이터맵 생성 모듈(110)은 분류 체계와 카테고리에 따라 분류된 카탈로그의 자산과 관련된 메타데이터에 대해 기 설정의 규격으로 기술한 관계형 데이터맵을 생성하고, 표준 어휘를 이용하여 관계형 데이터맵을 RDF(Resource Description Framework) 트리플 구조로 변환할 수 있다. RDF 트리플 구조는 검색 결과를 통합함으로써, RDF 파일이 생성될 수 있다.
그래프형 DB용 데이터맵 생성 모듈(120)은 관계형 데이터맵에서의 변경 이벤트와 관련된 변경 데이터를 메시지큐로 전달하며, 메시지큐로 입력된 변경 데이터에 대해 표준 어휘를 사용하여 노드, 노드 속성 및 노드간 관계를 맵핑하는 그래프형 데이터맵을 생성할 수 있다.
데이터맵 생성 장치(100)는 관계형 데이터베이스와 그래프 데이터베이스를 병행하여 사용하며, 관계형 데이터베이스에 저장된 관계형 데이터맵을 그래프 데이터베이스에 적합한 그래프형 데이터맵으로 변환할 수 있다.
자산의 데이터 속성과 자산간 관계 정보를 포함한 메타데이터를 기 설정된 규격(즉, 표준)에 의거하여 데이터맵으로 기술함으로써, 사용자의 질의에 대해, 데이터의 다양한 메타데이터를 바탕으로 의미론적 탐색이 가능하다. 또한, 관계형 데이터베이스에서 그래프 데이터베이스로 전환됨으로써, 탐색 과정에서 보다 향상된 검색 성능을 지원할 수 있다.
데이터 거버넌스 시스템(200)은 데이터맵의 분류 체계 및 카테고리를 관리함과 아울러서, 각 카테고리 별 표준 어휘 및 품질 지표 등을 관리할 수 있다.
데이터 포털 시스템(300)은 데이터맵 생성 장치(100)와 통신하면서, 다양한 데이터셋을 수집하여 데이터맵 생성 장치(100)으로 전달하고, 데이터맵 생성 장치(100)에서 생성된 RDF 트리플 구조로 제공된 RDF 파일에 기초하여, 사용자 검색 요청에 따른 검색 결과를 제공할 수 있다.
도 2는 데이터맵의 구조를 도시한 도면이다. 도 2는 관계형 DB용 데이터맵 생성 모듈(110)에서 생성되는 관계형 데이터맵에 관한 것이다.
데이터맵은 데이터셋 간의 융합, 활용, 탐색 등을 위해 다양한 메타데이터 정보로 표현된 자료 구조일 수 있다. 각 기관에서 운영하는 이종 플랫폼 간에 표준 규격의 메타데이터로 기술된 데이터맵을 교환하면, 플랫폼 상호 간의 운용성이 증대되어 필요한 데이터를 정확하게 검색할 수 있다.
데이터맵은 적어도 하나의 자산을 갖는 카탈로그가 각 분야별로 구분된 분류 체계에 지정되도록 구성되고, 카탈로그를 구성하는 각 자산은 분류 체계의 하위 레벨인 카테고리에 속하도록 구성될 수 있다. 데이터맵은 카탈로그 및 자산 관련 메타데이터 정보를 기술할 수 있다. 각 카테고리에는 자산에 대한 사용방법, 어휘, 품질지표 등이 추가될 수 있다.
카탈로그는 데이터 카탈로그로서, 자산들을 목록화 하도록 구성될 수 있다. 자산은 웹 상에 존재하는 모든 데이터를 총칭할 수 있다. 자산은 도 2에 예시된 바와 같이, 데이터들의 집합인 데이터셋, 데이터에 접근 가능한 서비스 또는 엔드 포인트들의 집합인 데이터서비스 및 분석모델 중 적어도 하나일 수 있다. 분석 모델은 예를 들어, 데이터를 분석하는 알고리즘 및 솔루션의 집합으로 구성될 수 있다. 데이터셋 또는 데이터서비스, 분석모델 등을 목록화하면서 자산에 대한 메타데이터, 자산 간의 관계, 또는 자산이 속한 카테고리와 관리되는 분류체계 등의 정보를 포함하는 자산 관련 메타데이터를 수록하는 데이터맵으로 정의될 수 있다. 데이터맵은 W3C에서 정의하는 데이터 카탈로그의 일종이라고 할 수 있다.
데이터맵의 정보는 관계형 데이터베이스 또는 그래프 데이터베이스 등에 저장되어 RDF, JONS LD 등의 통상적인 표준 형식의 자료구조로 생성되어 배포될 수 있다.
도 3은 분류 체계 및 카테고리에 따라 자산을 분류한 카탈로그가 관리되는 것을 예시한 도면이다.
예를 들어, 헬스케어 카탈로그(예컨대, catalog 001)가 질병 데이터셋, 처방 데이터셋(예컨대, dataset 001, dataset 002), 데이터셋에 접근 가능한 API 서비스를 포함한다면, 데이터맵은 헬스케어 카탈로그에 대한 메타데이터를 서술할 수 있다. 헬스케어 카탈로그의 메타데이터는 예컨대, 자산의 작성일, 자산의 작성자, 카탈로그에 포함된 자산들, 자산 관리에서 사용되는 분류체계 등을 포함할 수 있다. 이에 더하여, 상기 데이터맵은 예를 들어, 각 데이터셋에 대한 메타데이터와 데이터서비스인 API(Application Program Interface)에 대한 메타데이터 등의 정보를 포함할 수도 있다. 이에 따라, 사용자가 데이터를 검색할 때 데이터맵을 기반으로 검색하면, 데이터맵에서 내포하고 있는 다양한 메타데이터와 자산 간의 상호 연관성으로 인하여, 사용자의 의도에 따른 보다 정확한 검색이 가능하다.
분류 체계는 도 3에 예시된 바와 같이, 카테고리가 계층적인 구조로 구성될 수 있다. 카탈로그는 분류 체계를 선택하여 카탈로그가 포함하고 있는 자산들을 분류 체계의 카테고리에 따라 관리될 수 있다.
도 4는 자산의 메타데이터를 설명하기 위한 RDF 트리플 구조를 예시한 도면이다.
우선, RDF는 웹에 있는 자원의 정보를 표현하기 위한 표준 규격일 수 있다. 자원의 메타데이터를 보다 명확하게 표현하기 위해, 정해진 형식의 한 종류이며 자원 및 자원의 메타데이터를 RDF라는 공통된 형식으로 서술함으로써, 자원(또는 데이터)의 탐색과 관리가 용이하며, 이종 플랫폼 또는 응용 프로그램 간 데이터 교환이 원활하게 구현될 수 있다. 자원이 RDF 형식에 따르면, 트리플(triples) 구조로 설명될 수 있다. 트리플 구조는 자원을 설명하는 3요소, 즉 <subject>, <predicate>, <object>로 표현될 수 있다. <predicate>가 <subject>와 <object>의 관계를 설명하는 구조일 수 있다. <subject>는 설명하고자 하는 자원(데이터)에 해당하며, <object>는 <subject>와 연관된 자원일 수 있다. <predicate>는 <subject>와 <object> 간 관계, 특성을 표현할 수 있다. <predicate>는 W3C의 DCAT과 본 개시에 따른 데이터맵에서 사용하는 '속성 Property'와 동일한 의미일 수 있다. 본 개시에 따른 데이터맵은 설명하고자 하는 자산의 메타데이터를 표현하기 위해 RDF 트리플 구조를 사용하여, 자산을 subject로 서술하고, 자산의 메타데이터 즉 속성과 관계 등을 object와 property로 표현하여 서술할 수 있다.
도 4는 RDF 트리플 구조의 일례를 보여주고 있으며, 데이터셋 001의 제목이 '혈압 수집 데이터'인 경우, 데이터셋은 도 4에 예시된 RDF로 서술될 수 있다. 여기서, 이종 플랫폼 중 한쪽 플랫폼은 메타데이터를 '제목'으로 기술하고, 다른쪽 플랫폼은 '"이름'으로 서술됨으로써, 메타데이터가 서로 상이하게 표현될 수 있다. 이 경우, 데이터셋의 제목을 나타내는 메타데이터가 상이하여, 데이터의 공유, 유통 또는 탐색에 어려움이 발생할 수도 있다. 이를 해결하기 위해, 표준 어휘를 사용하여 메타데이터가 서술될 수 있다. 도 4에서 사용한 어휘는 Dublin Core 어휘이며, 'title'이라는 용어가 Dublin Core 어휘에 정의된 용어라는 표시를 하기 위해, 'dcterms'라는 prefix(접두사)를 가미하면서, 'dcterms:title'라고 서술될 수 있다. 어휘(vocabulary)는 용어(term)들의 집합으로서, 해당 용어가 속한 어휘를 특정하여 표시함으로써 구별될 수 있다. 이외에도 어휘는 SKOS(Simple Knowledge Organization System)어휘, FOAF(Friend Of A Friend)어휘, DCAT(Data CATalog vocabulary)어휘 등 다양한 어휘가 있으며, 본 개시에서는 데이터맵을 표현할 때. 이러한 표준 어휘들을 사용하여 메타데이터를 서술할 수 있다.
메타데이터를 표현함에 있어서, 표준 어휘의 정확한 사용 여부, 메타데이터 별로 제약 조건이 정의되어 있는 경우, 해당 메타데이터 및 트리플 구조가 제약 조건에 부합되어 작성된지 여부와 관련된 유효성 검사 등이 수반될 수 있다. 이 경우, 유효성 검사에 적용되는 메타데이터의 품질 판단 지표 내지 기준이 품질 지표일 수 있다. 데이터맵의 분류 체계 및 카테고리를 관리하는 데이터 거버넌스 시스템(SODAS+ Data Governance System; 도 5의 200 참조)이 표준 어휘와 함께, 품질 지표를 관리할 수 있다.
도 5는 관계형 DB용 데이터맵 생성 모듈의 블록도이다.
관계형 DB용 데이터맵 생성 모듈(110)은 관계형 DB에 저장되는 관계형 데이터맵을 생성하는 관계형 데이터맵 생성부(111) 및 배포부(112)를 포함할 수 있다.
관계형 데이터맵 생성부(111)는 자산에 대한 메타데이터 정보에 관한 관계형 데이터맵을 생성하고, 관계형 데이터맵은 관계형 데이터맵 생성부(111)의 관계형 데이터베이스에 저장될 수 있다. 배포부(112)는 표준 어휘를 적용하여, 관계형 데이터맵을 RDF 트리플 구조로 변환하고, 검색 결과를 통합한 RDF 파일을 생성할 수 있다.
관계형 데이터맵은 도 2에 설명한 바와 같이, 적어도 하나의 자산을 갖는 카탈로그가 각 분야별로 구분된 분류 체계에 지정되도록 구성될 수 있다. 관계형 카탈로그를 구성하는 각 자산은 분류 체계의 하위 레벨인 카테고리에 속하도록 구성될 수 있다. 데이터맵은 카탈로그 및 자산 관련 메타데이터 정보를 기술할 수 있다. 각 카테고리에는 자산에 대한 사용방법, 어휘, 품질지표 등이 추가될 수 있다. 전술한 점과 관련된 상세한 설명은 도 2를 통해 서술되어 있어 생략하기로 한다.
도 6은 그래프형 DB용 데이터맵 생성 모듈의 블록도이다.
그래프형 DB용 데이터맵 생성 모듈(120)은 관계형 DB(121), 그래프 DB 처리부(123), 그래프형 데이터맵 생성부(124) 및 배포부(125)를 포함할 수 있다.
관계형 DB용 데이터맵 생성 모듈(110)과 연계되는 관계형 DB(121)는 관계형 데이터베이스에서의 데이터 저장 및 수정, 삭제 등의 변경 이벤트를 인식할 수 있다. 관계형 DB(121)는 CDC(Change Data Capture; 122)에 의해, 관계형 데이터베이스(또는 관계형 데이터맵 생성부(111))에서 변경된 데이터를 식별 및 추적하여, 변경 데이터를 메세지큐에 입력할 수 있다. 관계형 데이터베이스에서 생성되는 데이터맵과 그래프 데이터베이스에서 생성되는 데이터맵은 내용 및 구조적으로 차이가 없도록, 메시지큐는 양 데이터베이스 시스템을 상호 동기화할 수 있다. 메시지큐는 CDC(122) 기술에 포함된 요소이며, CDC(122)는 소스 데이터베이스의 테이블에 발생하거나 적용되는 삽입, 업데이트 및 삭제 작업, 변경 이벤트에 따른 처리를 타겟 데이터베이스에 적용할 수 있도록 기록하는 기술일 수 있다. CDC 기술을 사용한 통상적인 소스 시스템은 예컨대, Debezium일 수 있다. Debezium은 소스 데이터베이스에서 발생하는 변경 사항을 메시지큐 스트림에 기록하여 타겟 데이터베이스에서 해당 변경이벤트를 순차적으로 적용할 수 있도록 한다. 이러한 방식으로 관계형 데이터베이스에서 발생하는 변경 이벤트를 메시지큐를 통하여 그래프 데이터베이스에 적용해 두 데이터베이스 간 동기화가 가능하다.
그래프 DB 처리부(123)는 메시지큐에서 대기하는 데이터에 대해, 표준 어휘를 사용하여, 그래프형 데이터베이스(또는 그래프형 데이터맵)를 구성하는 요소, 즉 노드, 노드 속성, 노드간 관계로 맵핑하여 상술한 요소들을 생성할 수 있다. 각 데이터 자산은 하나의 노드로 생성되며. 각 노드의 속성은 자산의 메타데이터와 맵핑될 수 있다. 이 경우, 표준 어휘에서 각 메타데이터의 범위는 그래프 노드의 속성으로 맵핑되거나, 신규 노드를 생성하여 노드간 관계로 맵핑될 수 있다.
그래프형 데이터맵 생성부(124)는 그래프 데이터베이스의 각 요소로 매칭된 자산과 자산의 메타데이터를 데이터맵의 구조에 따라, 그래프 형태를 갖는 그래프 데이터베이스로 저장할 수 있다.
배포부(125)는 관계형 DB용 데이터맵 생성 모듈(110)과 마찬가지로, 그래프 형태로 구축된 데이터맵을 RDF 파일로 생성할 수 있다. RDF 파일은 예컨대, Turtle, N-Triples, JSON-LD(my: 연결된 데이터를 위한 JavaScript 개체 표기법), TriG, RDF/XML 형태로 구성될 수 있다.
도 7은 그래프형 데이터베이스에서 노드의 추가를 예시하는 도면이다.
그래프 데이터베이스는 도 7에서와 같이, 노드, 노드 속성, 노드간 관계에 상응하는 관계선으로 구성될 수 있다. 각 노드는 노드 속성을 가지며, 노드 간에는 관계선으로 관계를 형성할 수 있다.
하나의 자산(예컨대, dataset 001)에 하나의 노드가 생성될 수 있다. 메타데이터 종류에 따라, 자산의 메타데이터가 일부는 그래프 데이터베이스 노드 속성(예컨대, dataset 001의 노드 내의 디스크립션)으로 생성되며, 다른 일부는 관계선으로 할당될 수 있다. 노드 속성 및 관계선으로 결정되는 기준은 메타데이터를 서술하는 표준 어휘의 용어에 따를 수 있다. 용어는 해당 용어를 적용할 수 있는 범위(Range)가 설정되어 있다.
도 7을 예로 들어 설명하면, 'dcterms:title' 속성의 범위(Range)는 'rdfs:Literal'이다. 텍스트 형태의 문자열 또는 숫자와 같은 리터럴(literal) 값들이 'rdfs:Literal'에 속한다. 따라서 'dataset 001'의 제목이라는 메타데이터를 서술할 때에, 'dcterms:title' 용어를 사용한다면 텍스트 문자열 또는 숫자와 같은 리터럴 값만 그 값으로 작성할 수 있다. 다른 예로, 'dcat:mediaType'은 DCAT 어휘에 속한 용어이며, 해당 배포 파일이 자산이 속하는 미디어 타입을 나타내는 메타데이터 속성이다. 'dcat:mediaType'의 범위(Range)는 'dcterms:MediaType'으로 IANA에서 정의하고 있는 미디어 형식들만 'dcat:mediaType'의 값이 될 수 있다.
도 7의 예시에 따르면, 자산은 하나의 노드로 생성되고, 자산의 메타데이터(속성)를 나타내는 용어의 범위(Range)가 'rdfs:Literal', 'xsd:duration', 'xsd:decimal'인 경우, 자산의 속성은 해당 노드의 노드 속성으로 설정될 수 있다.
용어의 범위가 3가지 이외에 해당하는 속성은 'dcterms:license'에서 같이, 관계선으로 생성될 수 있다. 아울러, 해당 속성의 값인 'https://creativecommons.org/licenses/by/4.0'은 신규 노드에 할당되어, 해당 노드와 관계성을 가지는 형태로 구성될 수 있다.
본 개시에 따르면, 관계형 데이터맵은 데이터셋들 간의 연관 관계들이 기술되어 있으며, 연관 관계들을 포함하는 정보들을 그래프 데이터베이스에 저장하면, RDF 등의 트리플 구조의 파일 생성과 연관검색 성능을 향상시킬 수 있다.
상세하게는, 카탈로그 및 자산 관련 메타데이터를 관리하는 관계형 데이터베이스가 그래프 데이터베이스로 전환되면, 그래프 데이터베이스가 검색 성능 측면에서 관계형 데이터베이스보다 더 우수하다. 따라서, 그래프 데이터베이스 기반으로 데이터맵을 생성하여 관리함으로써, 데이터 탐색 및 검색 정확성이 향상될 수 있다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

Claims (1)

  1. 관계형 DB용 데이터맵 생성 모듈에 의해, 분류 체계와 카테고리에 따라 분류된 카탈로그의 자산 관련 메타데이터에 대해 기 설정의 규격으로 기술한 관계형 데이터맵을 생성하고, 표준 어휘를 이용하여 상기 관계형 데이터맵을 RDF 트리플 구조로 변환하는 단계; 및
    그래프형 DB용 데이터맵 생성 모듈에 의해, 상기 관계형 데이터맵에서의 변경 이벤트와 관련된 변경 데이터를 메시지큐로 전달하며, 상기 메시지큐로 입력된 상기 변경 데이터에 대해 표준 어휘를 사용하여 노드, 노드 속성 및 노드간 관계를 맵핑하는 그래프형 데이터맵을 생성하는 단계를 포함하는, 데이터맵 생성 방법.
KR1020220054565A 2021-12-16 2022-05-03 데이터맵 생성 방법 및 장치 Pending KR20230091749A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210181026 2021-12-16
KR1020210181026 2021-12-16

Publications (1)

Publication Number Publication Date
KR20230091749A true KR20230091749A (ko) 2023-06-23

Family

ID=86993672

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220054565A Pending KR20230091749A (ko) 2021-12-16 2022-05-03 데이터맵 생성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230091749A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120031674A (zh) * 2025-04-18 2025-05-23 国网浙江省电力有限公司 税务数据处理方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120031674A (zh) * 2025-04-18 2025-05-23 国网浙江省电力有限公司 税务数据处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US11907247B2 (en) Metadata hub for metadata models of database objects
Hartig et al. Publishing and consuming provenance metadata on the web of linked data
US8037108B1 (en) Conversion of relational databases into triplestores
US8380645B2 (en) Method and system to enable inferencing for natural language queries of configuration management databases
CN106547809B (zh) 将复合关系表示在图数据库中
JP6434960B2 (ja) フローベースのetlおよびエンティティリレーションシップベースのetlの組合せのサポート
US9684699B2 (en) System to convert semantic layer metadata to support database conversion
US10180984B2 (en) Pivot facets for text mining and search
Wylot et al. Tripleprov: Efficient processing of lineage queries in a native rdf store
US9785725B2 (en) Method and system for visualizing relational data as RDF graphs with interactive response time
US8713041B2 (en) Peer to peer (P2P) missing fields and field valuation feedback
US20140279839A1 (en) Integration of transactional and analytical capabilities of a database management system
US20080005197A1 (en) Dynamic report mapping apparatus to physical data source when creating report definitions for information technology service management reporting for peruse of report definition transparency and reuse
US11561976B1 (en) System and method for facilitating metadata identification and import
De Virgilio et al. R2G: a Tool for Migrating Relations to Graphs.
US9171051B2 (en) Data definition language (DDL) expression annotation
US11341142B2 (en) Framework and metadata artefacts for updating data artefacts
US20140136511A1 (en) Discovery and use of navigational relationships in tabular data
US20230091845A1 (en) Centralized metadata repository with relevancy identifiers
US10360232B2 (en) Semantic mapping of data from an entity-relationship model to a graph-based data format to facilitate simplified querying
US20200097615A1 (en) Difference-based comparisons in log-structured graph databases
Alva Principe et al. ABSTAT-HD: a scalable tool for profiling very large knowledge graphs
WO2024239782A1 (zh) 查询计划构建方法、装置、电子设备和存储介质
Dimou High-quality knowledge graphs generation: R2RML and RML comparison, rules validation and inconsistency resolution
KR20230091749A (ko) 데이터맵 생성 방법 및 장치

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20220503

PG1501 Laying open of application