[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

KR20230129933A - 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측 방법 및 장치 - Google Patents

다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측 방법 및 장치 Download PDF

Info

Publication number
KR20230129933A
KR20230129933A KR1020230027438A KR20230027438A KR20230129933A KR 20230129933 A KR20230129933 A KR 20230129933A KR 1020230027438 A KR1020230027438 A KR 1020230027438A KR 20230027438 A KR20230027438 A KR 20230027438A KR 20230129933 A KR20230129933 A KR 20230129933A
Authority
KR
South Korea
Prior art keywords
data
diabetic nephropathy
electronic device
omics
target
Prior art date
Application number
KR1020230027438A
Other languages
English (en)
Inventor
홍정한
Original Assignee
에이치앤비지노믹스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에이치앤비지노믹스 주식회사 filed Critical 에이치앤비지노믹스 주식회사
Publication of KR20230129933A publication Critical patent/KR20230129933A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Zoology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시는 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도를 예측하는 방법 및 이를 수행하는 전자 장치에 관한 것이다. 일 실시 예에 의하면, 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법은 상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하는 단계; 기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터 들을 선별하는 단계; 및 상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하는 단계; 를 포함하고, 상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 mi RNA 데이터를 포함하며, 상기 당뇨병성 신증 발병에 관련된 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영할 수 있다.

Description

다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측 방법 및 장치 {METHOD AND APPARATUS FOR RISK PREDICTION OF DIABETIC NEPHROPATHY BASED ON INTEGRATION OF POLYGENIC AND CLINICAL INFORMATION}
본 개시는 당뇨병성 신증의 발병 위험도를 지능형으로 예측하는 방법 및 이를 수행하는 전자 장치에 관한 것이다. 보다 상세하게는 딥러닝 네트워크에 기반하여 당뇨병성 신증의 발병 위험도를 지능형으로 예측하는 방법 및 이를 수행하는 전자 장치에 관한 것이다.
대한당뇨병학회의 2020년 발표에 따르면, 2018년 기준 국내 30세 이상 성인 인구의 당뇨병 유병률이 13.8%로 추계 인구를 적용할 경우 494만명으로 집계되었다. 동반 질환의 경우 당뇨병 유병자 중 53.2%가 비만에 해당되고, 61.3%가 고혈압을 동반했고, 72%는 고콜레스테롤혈증을 보였으며, 당뇨병 유병자 중 고혈압과 고콜레스테롤혈증을 모두 동반한 유병률은 43.7%였다.
당뇨병이란 '소면으로 당이 나온다'는 어원에서 알 수 있듯이 신장(콩팥)과 밀접한 관계를 가지고 있다. 당뇨병은 전 세계적으로 질병 발생 및 사망의 다섯 번째로 흔한 원인 질환인데 그 이유는 당뇨병 자체 보다는 당뇨로 인한 합병증 발생 때문이라고 할 수 있다. 당뇨병성 신증(diabetic nephropathy)은 당뇨병성 망막증, 당뇨병성 신경병증과 함께 당뇨병의 주요 미세혈관 합병증에 해당되며 관상동맥질환, 뇌경색 및 말초 혈관 질환은 당뇨병의 대혈관 합병증에 해당된다.
당뇨병성 신증은 고혈당 등에 의해 지속적으로 신장 내부의 사구체가 손상되어 신장 기능이 저하되는 질환으로, 당뇨병은 10~15년에 걸쳐 천천히 신장질환을 진행시키므로 당뇨 초기에 잘 치료하지 않으면 어느새 신장 기능이 망가지게 되고 심할 경우에는 투석과 이식을 필요로 하는 말기 신부전이 초래될 수 있다.
지난 수년간 신장질환에 대한 원인규명, 진단방법 및 치료방법에 대한 집중적인 연구가 이루어졌음에도 불구하고 아직까지 당뇨병성 신증을 효과적으로 치료할 수 있는 확실한 치료제가 개발되지 못하고 있다.
현재까지 알부민뇨가 조기 당뇨병성 신증의 바이오마커로 가장 많이 사용되고 있다. 그러나 알부민뇨가 당뇨병성 신증에만 특이적인 마커가 아니라 다른 신장질환에서도 관찰된다는 점, 사구체에서 여과되지만 세뇨관에서 다시 분비된다는 점, 미세알부민뇨를 보이는 당뇨 환자가 모두 현성 단백뇨로 진행하지는 않는다는 점, 그리고 알부민뇨 없이도 당뇨병성 신증이 발생하기도 한다는 점에서 바이오마커로서 한계를 가지고 있다. 이런 이유로 당뇨병성 신증을 조기에 정확하게 진단할 수 있도록, 딥러닝 네트워크를 이용하여 진단 대상자의 당뇨병성 신증 여부를 지능형으로 판독하기 위한 기술 개발이 요구되고 있다.
한국등록특허 제10-18176650000호
일 실시 예에 따르면, 인공지능 모델을 이용한 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도를 예측하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
또한, 일 실시 예에 의하면, 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측을 위한 인공지능 모델의 결과를 분석하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 본 개시의 일 실시 예에 따라, 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법은 상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하는 단계; 기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터 들을 선별하는 단계; 및 상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하는 단계; 를 포함하고, 상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 mi RNA 데이터를 포함하고, 상기 당뇨병성 신증 발병에 관련된 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영할 수 있다.
일 실시 예에 의하면, 상기 방법은 상기 임상 샘플의 유전체 데이터와 함께 상기 임상 샘플의 유전체 데이터에 대응되는 사용자의 사용자 식별 정보를 더 획득하는 단계; 상기 사용자 식별 정보에 기초하여 상기 사용자의 개인 특성 정보를 상기 외부 디바이스로부터 획득하는 단계; 및 상기 사용자의 개인 특성 정보에 기초하여 상기 임상 샘플에 대응되는 사용자의 사용자 유형을 식별하는 단계; 를 포함할 수 있다.
일 실시 예에 의하면, 상기 방법은 상기 전자 장치와 연결된 외부 디바이스로부터 예측 모델 학습을 위해, 당뇨병성 신증 발병 위험도에 관련된 오믹스 학습 데이터를 획득하는 단계; 상기 획득된 오믹스 학습 데이터를 미리 설정된 사용자 개인의 특성에 기초하여 서브 그룹핑하는 단계; 및 상기 서브 그룹핑된 오믹스 데이터에 대해 K-fold 교차 검증을 수행함으로써 상기 사용자 개인의 특성 별 복수의 예측 모델을 생성하는 단계; 를 더 포함할 수 있다.
일 실시 예에 의하면, 상기 방법은 상기 외부 디바이스로부터 획득된 임상 샘플의 유전체 데이터를 상기 사용자의 개인의 특성에 기초하여 서브 그룹핑하는 단계; 를 더 포함하고, 상기 위험도 점수를 산출하는 단계는, 상기 서브 그룹핑된, 유전체 데이터로부터 선별된 복수의 타깃 오믹스 데이터를, 상기 사용자 개인의 특성 별 복수의 예측 모델들에 입력함으로써, 상기 복수의 예측 모델들 각각으로부터 출력 값들을 획득하는 단계; 및 상기 식별된 사용자 유형에 따라, 상기 복수의 예측 모델의 출력 값들에 대해 적용되는 서로 다른 가중치를, 상기 복수의 예측 모델들 각각의 출력 값에 적용함으로써, 상기 위험도 점수를 산출하는 단계; 를 포함할 수 있다.
일 실시 예에 의하면, 상기 방법은 상기 서브 그룹핑된, 상기 유전체 데이터로부터 선별된 복수의 타깃 오믹스 데이터 및 상기 복수의 예측 모델들 각각의 출력 값을 미리 학습된 Cox 비례 위험 생존 분석 모델에 입력함으로써, 상기 Cox 비례 위험 생존 분석 모델로부터 상기 사용자 유형 및 소정의 기간 별로 상기 임상 샘플에 대한 상기 위험도 점수를 산출하는 단계; 를 더 포함할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 또 다른 실시 예에 의하면, 당뇨병성 신증 발병 위험도를 예측하는 전자 장치는 네트워크 인터페이스; 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하고, 기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터들을 선별하고, 상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하고, 상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하고, 상기 당뇨병성 신증 발병에 관련된 레퍼런스 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영할 수 있다.
또한, 상기 기술적 과제를 해결하기 위한 또 다른 실시 예에 의하면, 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법에 있어서, 상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하는 단계; 기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터 들을 선별하는 단계; 및 상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하는 단계; 를 포함하고, 상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 mi RNA 데이터를 포함하고, 상기 당뇨병성 신증 발병에 관련된 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영하는 것을 특징으로 하는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
도 1은 당뇨병성 신증 위험도를 평가하는 시스템의 동작 과정을 개략적으로 나타내는 도면이다.
도 2는 일 실시 예에 따른 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법의 흐름도이다.
도 3은 일 실시 예에 따른 전자 장치가 위험도 점수를 산출하는 방법의 구체적인 과정을 설명하기 위한 도면이다.
도 4는 전자 장치가 GWAS 및 TWAS 데이터 베이스로부터 획득된 SNP 데이터들 및 miRNA 데이터들에 기초하여 예측 모델을 생성하는 과정을 나타내는 도면이다.
도 5는 전자 장치가 개인의 특성에 따라 서브 그룹핑된 유전체 데이터들에 기초하여 예측 모델을 생성하는 과정과 예측 모델의 생성 결과에 기초하여 기간 별 질병 발병 확률을 생성하는 Cox 비례 위험 생존 분석 모델을 활용하는 과정을 나타내는 도면이다.
도 6은 전자 장치가 레퍼런스 SNP 데이터들을 포함하는 레퍼런스 오믹스 데이터를 선별한 결과를 나타내는 도면이다.
도 7은 전자 장치가 이용하는 당뇨병성 신증 위험도분석모델을 검증한 ROC커브에 대한 실시 예를 나타내는 도면이다.
도 8은 일 실시 예에 따른 당뇨병성 신증 위험도를 분석하는 전자 장치 및 이를 포함하는 시스템의 구조를 설명하기 위한 도면이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 당뇨병성 신증 위험도를 평가하는 시스템의 동작 과정을 개략적으로 나타내는 도면이다.
일 실시 예에 따른 당뇨병성 신증 위험도를 평가하는 시스템(10)은 레퍼런스 데이터 베이스(120) 및 전자 장치(1000)를 포함할 수 있다. 일 실시 예에 따른 당뇨병성 신증 위험도를 평가하는 시스템(10)은 독립된 연구집단에서 수행한 GWAS 결과가 없거나 연구집단의 특이성 등을 고려하여 한국인 인구집단에 적용이 제한되는 상황에서도 10-fold LOGO(Leave One Group Out) 메타분석을 수행하여 1~9번 집단의 연관성 분석 및 통합 메타분석을 수행하고 메타분석결과 Summary Statistics를 이용해 유전적 위험도 예측 모형 모델을 구축할 수 있다.
구축된 예측 모형 모델을 이용해 10번 집단의 유전적 위험도를 추정하고 독립된 집단의 연관성 분석 결과를 이용하여 10개 집단 모두의 유전적 위험도를 계산할 수 있다. 또한, 본 개시에 따른 당뇨병성 신증 위험도를 평가하는 시스템(10)은 임상샘플의 역학 및 임상 데이터를 공변량으로 추가하여 Cox 비례위험 생존 모형을 적용함으로써 대상자의 특정 연령에서의 당뇨병성 신증 발병 위험 예측 정확도가 향상된 딥러닝 기반 발병위험도 예측모델을 완성할 수 있다.
일 실시 예에 의하면, 당뇨병성 신증 위험도를 평가하는 시스템(10)은 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 저장하는 레퍼런스 데이터 베이스(120), 당뇨병성 신증 위험도를 에측하는 제1 서버(150), Meta-GWAS 분석을 수행하는 제2 서버(110), 대상 임상 샘플의 유전체 데이터를 획득하고, 획득된 유전체 데이터를 서버들로 전송하는 전자 장치(1000)를 포함할 수 있다.
제1 서버(150)는 제2 서버(110)의 Meta-GWAS 분석 결과에 기초하여, 임상 샘플의 유전체 데이터로부터 복수의 타깃 오믹스 데이터들 또는 복수의 타깃 SNP 데이터들을 선별하고, 선별된 복수의 타깃 오믹스 데이터들 또는 복수의 타깃 SNP 데이터들로부터 결정되는 저차원 임베딩을 기 설정된 예측 모형 모델에 입력함으로써 당뇨병성 신증 위험도 점수를 결정할 수 있다.
일 실시 예에 의하면, 제1 서버(150)는 특정 사용자에 대한 샘플 유전체 데이터를 획득하고, 획득된 유전체 데이터에 대한 당뇨병성 신증 발병 위험도를 결정하는 분석 장치 또는 컴퓨팅 장치일 수 있다. 예를 들어, 제1 서버(150)는 제2 서버(또는 유전체 정보 생성장치)(110), 전자 장치(1000) 또는 별도의 데이터 베이스로부터 특정 샘플의 유전체 데이터를 수신할 수 있다. 일 실시 예에 의하면, 특정 샘플의 유전체 데이터는 개체에 대한 식별정보를 포함할 수 있다.
제1 서버(150)는 샘플의 유전체 데이터를 기준으로 해당 샘플의 당뇨병 위험도를 생성한다. 제1 서버(150)는 임상샘플의 유전체 데이터에 대한 GWAS을 하여 당뇨병 위험도를 생성할 수 있다. 제1 서버(150)는 샘플에 대한 분석결과를 서비스 사용자(A)에게 제공할 수 있다. 예컨대, 제1 서버(150)는 개인 단말(50)에 분석 결과를 전송할 수도 있다.
한편, 제1 서버(150)는 레퍼런스 데이터베이스(120)로부터 당뇨병에 연관된 SNP를 식별하기 위한 레퍼런스 SNP 정보를 수신할 수 있다. 또 다른 실시 예에 의하면, 제1 서버(150)는 레퍼런스 데이터 베이스(120)로부터 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 획득할 수도 있다. 레퍼런스 데이터베이스(120)는 사전에 구축된 것으로, 레퍼런스 SNP 데이터들 및 복수의 miRNA 데이터를 저장한다.
제1 서버(150)는 레퍼런스 SNP 데이터 또는 레퍼런스 오믹스 데이터를 이용하여 샘플의 유전체 데이터에서 복수의 타깃 오믹스 데이터들을 선별할 수 있다. 또 다른 실시 예에 의하면, 제1 서버(150)는 레퍼런스 SNP 데이터를 이용하여 샘플의 유전체 데이터에서 복수의 타깃 SNP 데이터들을 선별할 수도 있다. 제1 서버(150)는 복수의 타깃 오믹스 데이터들 또는 복수의 타깃 SNP 데이터들을 이용하여 샘플의 유전체 데이터에 대한 당뇨병성 신증 발병 위험도를 결정할 수 있다.
일 실시 예에 의하면, 제1 서버(150)가 이용하는 복수의 레퍼런스 SNP 데이터들은 rs12531478-A, rs17373728-C, rs5750250-G, rs11107616-C, rs136161-G, rs4879670-G, rs13259109-G, rs1298908-G, rs304029-G, rs9510795-A, rs10952362-C, rs4667466-T, rs10778560-C, rs7975752-G, rs731565-T, rs4849965-C, rs6910061-A, rs1424609-G, rs2596230-G, rs1677894-G, rs5750250-G, rs136161-G를 포함하는 SNP 데이터 그룹 중 하나 이상의 SNP 데이터들을 포함할 수 있다.
제2 서버(110)는 유전체 상에서 DNA 염기 서열의 다양성을 분석하여 특정 질병에 대한 개인의 위험도나 감수성을 예측하는 Meta-GWAS 기법을 수행함으로써 특정 한국인 집단의 연관성 분석 및 통합 메타 분석을 수행하고, 메타 분석 결과 요약 통계(Summary Statistics)를 이용해 제1 서버(150)가 유전적 위험도 예측 모형 모델을 생성하도록 할 수 있다.
예를 들어, 제2 서버(110) 는 샘플에 대한 유전체 데이터를 생성하는 유전체 정보 생성을 위한 컴퓨팅 장치 또는 서버일 수 있다. 일 실시 예에 의하면, 제2 서버(110)는 도 1에 도시되지는 않았지만 생성한 유전체 정보를 별도의 데이터 베이스에 저장할 수도 있다.
상술한 당뇨병성 신증 발병 위험도를 평가하는 시스템(10) 또는 제1 서버(150) 및 제2 서버(110)의 동작 과정은 전자 장치(1000)에 의해서도 수행될 수 있다. 예를 들어, 전자 장치(1000)는 전자 장치(1000)와 연결된 레퍼런스 데이터 베이스로부터 레퍼런스 SNP 데이터들 또는 상기 레퍼런스 SNP 데이터들 및 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 획득할 수 있다. 또한, 전자 장치(1000)는 전자 장치(1000)와 연결된 외부 디바이스로부터 대상 사용자 또는 특정 임상 샘플의 유전체 데이터를 획득할 수도 있다. 전자 장치(1000)는 획득된 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터들을 임상 샘플의 유전체 데이터로부터 식별할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 획득된 레퍼런스 SNP 데이터들을 기준으로, 임상 샘플의 유전체 데이터로부터 레퍼런스 SNP 데이터들과 동일한 복수의 타깃 SNP 데이터들을 식별할 수 있다.
전자 장치(1000)는 식별된 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출할 수 있다. 일 실시 예에 의하면 전자 장치(1000)가 레퍼런스 데이터 베이스로부터 획득하는 레퍼런스 오믹스 데이터는 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함할 수 있다. 또한, 일 실시 예에 의하면 복수의 레퍼런스 SNP 데이터는 당뇨병성 신증 발병에 관련된 SNP 데이터를 포함하며, 관련된 SNP 데이터의 연관 불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영할 수 있다.
도 2는 일 실시 예에 따른 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법의 흐름도이다.
S210에서, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득할 수 있다. 예를 들어, 전자 장치(1000)는 임상 샘플의 유전체 데이터를 저장하는 서버, 데이터 베이스로부터 임상 샘플의 유전체 데이터를 획득할 수 있다.
S220에서, 전자 장치(1000)는 기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터들을 선별할 수 있다.
S230에서, 전자 장치(1000)는 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출할 수 있다. 전자 장치(1000)가 위험도 점수를 산출하는 구체적인 방법은 후술하는 도 3을 참조하여 구체적으로 설명하기로 한다.
또한, 도 2에는 도시되지 않았지만, S210에서, 전자 장치(1000)는 임상 샘플의 유전체 데이터와 함께 임상 샘플의 유전체 데이터에 대응되는 사용자의 사용자 식별 정보를 더 획득할 수 있다. 전자 장치(1000)는 사용자 식별 정보에 기초하여 전자 장치와 연결된 외부 디바이스로부터 사용자의 개인 특성 정보를 획득할 수 있다. 전자 장치(1000)는 사용자의 개인 특성 정보에 기초하여 임상 샘플에 대응되는 사용자의 사용자 유형을 식별할 수 있다. 일 실시 예에 의하면 사용자의 사용자 유형은 해당 사용자의 신체 정보 또는 질환 유무에 따라 달라질 수 있는 개인의 특성이 반영된 정보일 수 있다. 전자 장치(1000)는 상기 식별된 사용자의 개인의 특성 또는 상기 사용자의 개인의 특성이 반영된 임상 샘플의 유전체 데이터를 분류함으로써 서브 그룹핑하는데 사용할 수 있다.
또한, 도 2에는 도시되지 않았지만, 전자 장치(1000)는 위험도 점수를 산출하기 위해 적어도 하나의 예측 모델을 이용할 수 있다. 또한, 전자 장치(1000)는 외부 디바이스로부터 예측 모델 학습을 위해 당뇨병성 신증 발병에 관련된 SNP 데이터들 또는 miRNA 데이터 중 적어도 하나를 포함하는 오빅스 학습 데이터를 획득할 수 있다. 전자 장치(1000)는 획득된 오믹스 학습 데이터를 미리 설정된 사용자 개인의 특성에 기초하여 서브 그룹핑하고, 서브 그룹핑된 오믹스 학습 데이터에 대해 K-fold 교차 검증을 수행함으로써 사용자 개인의 특성 별 복수의 예측 모델들을 생성할 수도 있다.
일 실시 예에 의하면, 전자 장치(1000)는 상술한 방법으로 생성된 복수의 예측 모델들을 이용하여 위험도 점수를 산출할 수 있다.
예를 들어, 전자 장치(1000)는 외부 디바이스로부터 획득된 임상 샘플의 유전체 데이터를 상기 사용자 개인의 특성에 기초하여 서브 그룹핑하고, 서브 그룹핑된, 유전체 데이터로부터, 미리 설정된 레퍼런스 오믹스 데이터와 동일한, 복수의 타깃 오믹스 데이터를 선별할 수 있다. 전자 장치(1000)는 서브 그룹핑된, 유전체 데이터로부터 선별된 상기 복수의 타깃 오믹스 데이터를, 상기 사용자 개인의 특성 별 복수의 예측 모델들에 입력함으로써, 상기 복수의 예측 모델들 각각으로부터 출력 값들을 획득할 수 있다.
전자 장치(1000)는 식별된 사용자의 유형(예컨대 흡연 유무, 질환 유무, 키, 몸무게, BMI 지수 범위에 따라 서로 다른 의학적 건강 특성을 나타내는 타입)에 따라 복수의 예측 모델의 출력 값들에 대해 적용되는 서로 다른 가중치를 결정하고, 상기 결정된 서로 다른 가중치를 복수의 예측 모델들 각각의 출력 값에 적용함으로써 위험도 점수를 산출할 수 있다.
또한, 도 2에 도시되지 않았지만, 전자 장치(1000)는 개인에 대한 위험도 점수를 산출하는 과정에 더하여, 개인이 속할 수 있는 사용자 유형 별 및 특정 기간 별로 당뇨병성 신증 발병의 위험 점수를 산출할 수도 있다. 이를 위해 일 실시 예에 따른 전자 장치(1000)는 서브 그룹핑된, 유전체 데이터로부터 선별된 복수의 타깃 오믹스 데이터 및 상기 복수의 예측 모델들 각각의 출력 값을 미리 학습된 Cox 비례 위험 생존 분석 모델에 입력함으로써, 상기 Cox 비례 위험 생존 분석 모델로부터 상기 사용자 유형 및 소정의 기간 별 임상 샘플에 대한, 당뇨병성 신증 발병 위험도 점수를 산출할 수도 있다. 본 개시에 따른 전자 장치(1000)는 특정 임상 샘플에 대한 사용자 개인의 사용자 유형 및 특정 기간 별 당뇨병성 신증 발병 위험도를 점수화함으로써, 사용자의 당뇨병성 신증 발병에 대한 위험도 정보를 효과적으로 제공할 수 있다.
도 3은 일 실시 예에 따른 전자 장치가 위험도 점수를 산출하는 방법의 구체적인 과정을 설명하기 위한 도면이다.
S310에서, 전자 장치(1000)는 전자 장치와 연결된, 게놈 전체 연관 분석 데이터를 저장하는 GWAS(Genome Wide Association Study) 데이터 베이스로부터 SNP 데이터들에 대한 사례 및 대조군 간 연관성 테스트에서 파생된 효과 크기(Effect Size)를 추출하고, 전사체 전체 연관 분석 데이터를 저장하는 TWAS(Transcriptome-based Genome-Wide Association Study) 데이터 베이스로부터 유전자 발현 결과가 동일한 SNP에 의해 영향을 받는지 여부에 대한 코로컬라이제이션(Colocalization) 연관성 테스트에서 파생된 효과 크기를 추출한다.
S320에서, 전자 장치(1000)는 당뇨병성 신증 발병 위험도에 연관된 m개의 SNP 데이터에 대하여 각 위험 대립 유전자(Risk Allele)의 효과 크기로 가중된 주효과 및 공동 조절 miRNA 데이터의 효과 크기로 가중된 상호 작용 효과를 결정할 수 있다.
S330에서, 전자 장치(1000)는 상기 결정된 상호 작용 효과를 L_1 정규화를 사용하는 변분 오토 인코더(Variational Auto Encoder)에 입력함으로써, 상기 변분 오토 인코더로부터 출력되는 분포로부터 랜덤 샘플링된 값을 디코더로 복원함으로써 비선형 저차원 임베딩을 생성할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 변분 오토 인코더 및 디코더는 신경망 기반의 비선형 저차원 임베딩을 생성하는 네트워크 모델일 수 있다.
S340에서, 전자 장치(1000)는 저차원 임베딩을 기 설정된 예측 모형 모델에 입력함으로써 상기 예측 모형 모델로부터, 추정된 베타_j의 다중 조건 사후 확률 분포의 기대 값으로 정의되는 PRS(Polygenic Risk Score)를 상기 위험도 점수로 산출할 수 있다.
도 3에 도시된 전자 장치(1000)가 복수의 타깃 오믹스 데이터들 또는 상기 복수의 타깃 오믹스 데이터들 내 복수의 타깃 SNP들 각각의 유전자형과 가중치에 기초하여 위험도 점수를 산출하는 과정은 하기의 수학식 1에 기초하여 수행될 수 있다.
상기 수학식 1에서, PRSi는 개인 i의 유전적 위험도 점수를 나타내고, i는 개인의 유전체 데이터를 구분하는 식별 번호, j는 상기 타깃 오믹스 데이터 또는 상기 타깃 오믹스 데이터의 SNP 데이터를 구분하기 위한 식별 번호, Gij의 사전확률분포 프레임 워크로 대립유전자 종류 SNPj에 대한 효과 크기(effect size)를 나타내며, 은 비선형 저차원 공간으로 정의된 의 확률 분포, 의 사전확률과 역학 정보를 포함한 다중조건부의 사후확률분포의 기대값, 의 사전확률 추정량, D는 역학 정보, N은 가우시안 분포, 는 유전적 측면에서 공유하는 전역적 스케일링 매개변수(shrinkage parameter)로 모델의 희박성(sparseness) 수준을 표시하고 제어하며, 는 상기 타깃 오믹스 데이터 또는 상기 타깃 오믹스 데이터의 SNP 데이터에 대한 L_1 정규화 축소 추정 파라미터를 나타낼 수 있다.
보다 구체적으로, 본 개시에 따른 모델링 프레임 워크는 상술한 변수 Gij를 통해 SNP 데이터의 효과 크기 의 사전 분포를 도입하도록 설계되며, 대립 유전자 종류 SNPj에 대한 LOCAL Shrinkage parameter 는 적응적으로 큰 시그널(signal)은 유지함과 동시에 상대적으로 0에 가까운 노이즈(noise)에 강한 수축(shrinkage)을 부과하여 모델의 희박성 수준을 제어하는데 사용될 수 있다.
도 4는 전자 장치가 GWAS 및 TWAS 데이터 베이스로부터 획득된 SNP 데이터들 및 miRNA 데이터들에 기초하여 예측 모델을 생성하는 과정을 나타내는 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스로부터 레퍼런스 데이터들(424) 또는 다양한 오믹스 데이터들을 획득할 수 있다. 예를 들어, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스(예컨대 서버)로부터 GWAS 데이터 베이스에 저장된 복수의 레퍼런스 SNP 데이터들을 획득하고, 획득된 SNP 데이터들을 디스커버리 셋(410)으로 설정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 획득한 디스커버리 셋(410)은 UK Biobank로부터 코호트 조사(Cohort study)에 따라 356000명에 대한 SNP 데이터들 및 일부 miRNA 데이터들을 포함할 수 있다. 일 실시 예에 의하면 디스커버리 셋(410)은 코호트 조사 결과에 따른, 당뇨병성 신증 발병위험과 관련된 SNP 데이터들을 포함할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스로부터 miRNA 데이터들을 획득할 수 있다. 예를 들어, 전자 장치(1000)는 전자 장치와 연결된 외부 디바이스로부터 TWAS 데이터 베이스에 저장된 복수의 miRNA 데이터들을 획득하고, 획득된 miRNA 데이터들을 트레이닝 셋(420)으로 설정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 획득한 트레이닝 셋(420)은 다양한 miRNA 데이터들을 저장하고 있는 데이터 베이스들(예컨대 GTEx EUR, MESA EUR, MESA AA+ Hispanics)로부터 획득되는 복수의 miRNA 데이터들을 포함할 수 있다. 또한, 일 실시 예에 의하면, 트레이닝 셋(420)은 코호트 조사 결과에 따라 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터들을 포함할 수 있다.
전자 장치(1000)는 외부 디바이스로부터 획득한, 당뇨병성 신증 발병에 관련된 SNP 데이터들 및 miRNA 데이터들 중 일부를 학습 데이터셋(예컨대 트레이닝 데이터셋)으로 설정하고, 나머지 일부를 테스트 데이터 셋(예컨대 검증 셋)으로 설정할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 학습 데이터 셋 및 테스트 데이터 셋의 비율은 7:3 일 수 있으나, 이에 한정되는 것은 아니며, 전자 장치가 최종적으로 생성한 예측 모델의 검증 결과에 기초하여 재설정될 수 있다.
전자 장치(1000)는 외부 디바이스로부터 획득한 SNP 데이터들 및 miRNA 데이터들을 포함하는 오믹스 데이터에서 미리 설정된 레퍼런스 오믹스 데이터와 동일한 것으로 식별되는 타깃 오믹스 데이터를 포함하는 타깃 데이터 셋(430)을 결정할 수 있다. 일 실시 예에 의하면 타깃 오믹스 데이터는 타깃 SNP 데이터들 및 타깃 miRNA 데이터들을 포함할 수 있다.
전자 장치(1000)는 외부 디바이스로부터 획득된 SNP 데이터들의 일부를 학습 데이터 셋으로 설정하고, 설정된 학습 데이터 셋에 기초하여 예측 모델(462, 464)을 생성할 수 있다. 예를 들어, S440에서, 전자 장치(1000)는 SNP 데이터들을 포함하는 학습 데이터 셋에 기초하여 당뇨병성 신증 발병 위험도에 관한 PRS 점수를 출력하는 예측 모델(462)을 생성할 수 있다. 또한, S450에서, 전자 장치(1000)는 외부 디바이스로부터 획득된 miRNA 데이터들의 일부를 학습 데이터 셋으로 설정하고, 설정된 학습 데이터 셋에 기초하여, 당뇨병성 신증 발병 위험도에 관한 PRS 점수를 출력하는 예측 모델(464)을 생성할 수 있다.
도 4에는 전자 장치(1000)가, 당뇨병성 신증 발병과 관련된 SNP 데이터들을 포함하는 학습 데이터 셋 및 당뇨병성 신증 발병과 관련된 miRNA 데이터들을 포함하는 학습 데이터 각각에 기초하여 예측 모델(462) 및 예측 모델(464)을 각각 생성하는 것으로 도시되었으나, 또 다른 실시 예에 의하면, 전자 장치(1000)는 SNP 데이터들 및 miRNA 데이터를 포함하는 오믹스 데이터들에 기초하여 PRS 점수를 출력하는 하나의 예측 모델을 생성할 수 있음은 물론이다.
또한, 일 실시 예에 의하면, 전자 장치(1000)는 SNP 데이터들 중 일부로 마련되는 테스트 데이터 셋(예컨데 검증 데이터 셋)에 기초하여 예측 모델(462)을 검증한 결과와, miRNA 데이터들 중 일부로 마련되는 테스트 데이터셋(예컨대 검증 데이터 셋)에 기초하여 예측 모델(464)을 검증한 결과에 기초하여, 더 높은 성능을 나타내는 예측 모델의 출력 값에 더 높은 가중치를 적용하고, 검증 결과 상대적으로 낮은 성능을 나타내는 예측 모델의 출력 값에 상대적으로 낮은 가중치를 적용하는 가중합 방식으로, 예측 모델(462) 및 예측 모델(464)의 출력 값을 가중합하고, 가중합 결과에 따른 PRS 점수를 위험도 점수로 식별할 수도 있다.
도 5는 전자 장치가 개인의 특성에 따라 서브 그룹핑된 유전체 데이터들에 기초하여 예측 모델을 생성하는 과정과 예측 모델의 생성 결과에 기초하여 기간 별 질병 발병 확률을 생성하는 Cox 비례 위험 생존 분석 모델을 활용하는 과정을 나타내는 도면이다.
본 개시에 따른 전자 장치(1000)는 임상 샘플 획득 대상이 되는 개인의 사용자 특성 별로 오믹스 데이터를 서브 그룹핑 할 수 있다. 일 실시 예에 의하면 사용자 특성 정보는 사용자 키, 몸무게, BMI 지수, 소변 검사 결과에 따른 질환 유무, 성별, 흡연 유무, 기타 질환 유무에 대한 정보를 포함할 수 있다. 사용자 특성 정보는 사용자 유형을 결정하는 기준이 될 수 있다. 전자 장치(1000)는 임상 샘플 획득 대상이 되는 개인의 사용자 특성 정보 별로 유전체 데이터를 서브 그룹핑 하고, 서브 그룹핑된 유전체 데이터들을, 서브 그룹 별로 생성되는 예측 모델에 입력함으로써, 사용자 특성 정보 별로 학습된 예측 모델 각각으로부터 PRS 점수를 획득할 수 있다.
보다 상세하게는, 전자 장치(1000)는 임상 샘플의 유전체 데이터와 함께 해당 사용자 식별 정보를 획득할 수 있다. 전자 장치(1000)는 사용자 식별 정보에 기초하여, 임상 샘플에 대응되는 개인의 의료 데이터상에 존재하는 임상 샘플에 대응되는 사용자의 개인 특성 정보(예컨대 흡연 유무, 성별 정보, 키 정보, 몸무게 정보, BMI 지수 등)식별할 수 있다. 일 실시 예에 의하면 전자 장치(1000)는 사용자 식별 정보에 기초하여, 사용자 특성 정보에 따른 사용자 유형을 구분할 수도 있다.
전자 장치(1000)는 사용자 특성 정보가 식별되면, 사용자 특성 정보에 따라, 임상 샘플의 유전체 데이터를 서브 그룹핑할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 사용자 특성 정보가 식별되면, 사용자 특성 별로, 임상 샘플의 유전체 데이터로부터 식별되는 복수의 타깃 오믹스 데이터들을 분류(예컨대 서브 그룹핑)할 수 있다.
전자 장치(1000)는 서브 그룹핑된 유전체 데이터(예컨대 서브 그룹핑된 타깃 오믹스 데이터들)를, 서브 그룹 별로 생성되는 예측 모델에 입력함으로써, 사용자 특성 정보 별로 학습된 예측 모델 각각으로부터 획득되는 PRS 점수를 종합하고, 종합 결과에 기초하여 사용자의 당뇨병성 신증 발병 위험도를 정확하게 예측할 수 있다.
전자 장치(1000)는 현재 획득된 임상 샘플의 유전체 데이터 및 이에 대응되는 사용자 식별 정보에 기초하여 결정되는 사용자 유형에 기초하여, 사용자의 다양한 개인 특성에 특화 학습된 예측 모델의 결과 값들에 서로 다른 가중치를 적용할 수 있고, 서로 다른 가중치에 따라 예측 모델들의 결과를 가중합함으로써 최종적으로 사용자에 대한 당뇨병성 신증 발병 위험도를 결정할 수도 있다. 즉, 본 개시에 따른 전자 장치(1000)는 사용자의 다양한 개인 특성에 특화 학습된 예측 모델들을 함께 이용함으로써 보다 정확한 당뇨병성 신증 발병 위험을 효과적으로 진단할 수 있다.
이하에서는, 상술한 사용자 개인의 특성 별 특화된 예측 모델을 생성하기 위해, 전자 장치(1000)가 각 예측 모델을 학습 또는 생성하는 과정을 설명하기로 한다. 예를 들어, 전자 장치(1000)는 외부 디바이스로부터 당뇨병성 신증 발병 위험도에 관련된 SNP 데이터들 및 miRNA 데이터들을 포함하는 오믹스 데이터들(예컨대 오믹스 학습 데이터)을 획득할 수 있다. S510에서, 전자 장치(1000)는 획득된 오믹스 데이터들을 사용자 개인의 특성에 기초하여 서브 그룹핑할 수 있다.
S520에서, 전자 장치(1000)는 획득된 오믹스 데이터에 대한 메타 분석을 수행함으로써 복수의 예측 모델을 생성할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 획득된 오믹스 데이터들에 대해 K-fold 교차 검증을 수행함으로써 복수의 예측 모델을 생성할 수 있다. 예를 들어, S522에서, 전자 장치(1000)는 K=1로 설정하고, 서브 그룹핑된 오믹스 데이터 중 1번째 사용자 특성 항목에 따른 오믹스 데이터에 기초하여, 당뇨병성 신증 발병 위험도를 예측하는 제1 예측 모델을 생성할 수 있다.
마찬가지 방법으로, S524에서, 전자 장치(1000)는 서브 그룹핑된 오믹스 데이터 중 2번째 사용자 특성 항목에 따른 오믹스 데이터에 기초하여 당뇨병성 신증 발병 위험도를 예측하는 제2 예측 모델을 생성할 수 있다. 상술한 방식을 반복함으로써 전자 장치(1000)는 사용자 개인 특성에 특화 학습됨으로써, 당뇨병성 신증 발병 위험도 점수를 출력하는 복수의 예측 모델들을 생성할 수 있다. 전자 장치(1000)는 생성된 복수의 예측 모델에, 진단 대상이 되는 개인의 임상 샘플의 유전체 데이터로부터 타깃 오믹스 데이터들을 입력함으로써, 진단 대상이 되는 개인의 당뇨병성 신증 발병 위험도를 판단한다.
상술한 과정에 따라 전자 장치(1000)가 사용자 개인의 특성을 반영함으로써 당뇨병성 신증 발병 위험도를 산정하더라도, 해당 위험도 점수는 개인의 특성에 따른 당뇨병성 신증 발병 위험확률에 대한 정보만을 나타낼 뿐, 특정 기간 또는 시기에 따른 당뇨병성 신증 발병 위험률을 나타내지 못하는 한계가 있다.
따라서, 본 개시에 따른 전자 장치(1000)는 Cox 비례 위험 생존 분석 모델에 서브 그룹핑된 유전체 데이터(예컨대 서브 그룹핑된 오믹스 데이터) 및 상기 개인의 특성 별로 특화 학습된 예측 모델들의 결과 값을 입력함으로써, 사용자 개인 특성에 따른 사용자 유형(532) 별 및 특정 기간(534)별 당뇨병성 신증 발병 위험도를 결정할 수도 있다.
예를 들어, 본 개시에 따른 전자 장치(1000)는 외부 디바이스로부터 당뇨병성 신증 발병 위험도에 관련된 SNP 데이터들 및 miRNA 데이터들을 포함하는 오믹스 데이터들을 사용자 개인 특성 별로 서브 그룹핑함으로써, 서브 그룹 별 예측 모델 생성을 위한 학습 데이터 셋 및 검증 데이터 셋을 생성할 수 있다. 전자 장치(1000)는 서브 그룹 별 학습 데이터 셋 및 검증 데이터셋과, 상기 개인의 특성 별로 특화 학습된 예측 모델의 결과 값에 기초하여, 서브 그룹핑된 유전체 데이터가 입력되면 사용자 유형(532) 별 및 특정 기간(534) 별 당뇨병성 신증 발병 위험도를 출력하는 Cox 비례 위험 생존 분석 모델을 학습시킬 수 있다.
전자 장치(1000)는 임상 샘플의 유전체 데이터가 획득되면, 획득된 임상 샘플의 유전체 데이터를 서브 그룹핑함으로써, 서브 그룹핑된 유전체 데이터를 개인 특성 별로 특화 학습된 예측 모델들에 입력하고, 학습된 예측 모델의 출력 값과 상기 서브 그룹핑된 유전체 데이터를 상기 학습된 Cox 비례 위험 생존 분석 모델에 입력함으로써, 사용자 유형별(532) 및 특정 기간(534) 별 당뇨병성 신증 발병 위험도 점수를 획득할 수 있다. 따라서, 본 개시에 따른 전자 장치(1000)는 대상 임상 샘플의 유전체 데이터에 대해 사용자 개인 특성에 따른 사용자 유형(532) 정도를 식별할 수 있을 뿐만 아니라, 사용자 개인 특성에 따른 사용자 유형 및 특정 기간에 따른 당뇨병성 신증 발병 위험도를 효과적으로 진단할 수 있다.
도 6은 전자 장치가 레퍼런스 SNP 데이터들을 포함하는 레퍼런스 오믹스 데이터를 선별한 결과를 나타내는 도면이다.
도 6의 그림 (620)을 참조하면 전자 장치(1000)가 당뇨병성 신증 발병과 관련하여 선별한 레퍼런스 데이터들이 도시된다. 예를 들어, 전자 장치(1000)는 GWAS 데이터 베이스를 통해 SNP 데이터를 획득하고, TWAS 데이터 베이스를 통해 miRNA 데이터들을 획득할 수 있다. 전자 장치(1000)는 SNP 데이터들, miRNA 데이터들 또는 SNP 데이터들 및 miRNA 데이터들을 포함하는 오믹스 데이터에 대한 위험도 점수를 산출하는 모델을 다양한 방식으로 생성할 수 있다.
일 실시 예에 의하면, 유전적 위험도 점수의 정확도는 SNP의 효과 정도를 예측하는데 사용한 샘플 집단의 크기에 영향을 많이 받는다. 전자 장치는 GWAS 결과를 활용하기 위해 공공 데이터베이스로부터 Summary statistics 자료를 확보하고 아래의 필수 정보 포함 여부를 확인할 수 있다. 상기 필수 정보는 chromosome, position, allele 정보(effect, other allele), effect(beta), standard error, sample size 및 p-value 를 포함할 수 있다.
일 실시 예에 의하면, 전자 장치는 독립된 연구 집단에서 수행한 GWAS 결과가 없거나, 연구 집단의 특이성 등을 고려하여 한국인 인구 집단에의 적용이 제한되는 경우 10-fold LOGO(Leave One Group Out) 메타분석을 수행할 수 있다. 이때 전자 장치는 여러 집단으로 나누어 분석함으로써 가상의 독립된 연구집단 GWAS 결과를 활용하는 효과를 적용할 수 있다.
이하에서는, 전자 장치에 대한 연구자의 입력에 기초하여, 전자 장치가 선정한 SNP를 이용한 유전적 위험도 모델 구축을 위한 구체적인 마커 선정 과정을 설명하기로 한다.
공공 데이터베이스로 GWAS catalog (https://www.ebi.ac.uk/gwas/) 데이터베이스를 활용하되, 연구 집단의 크기가 5000명 이상인 논문에서 발굴된 SNP를 1차적으로 소스 SNP 정보로 선발하였다. 또는, 소스 SNP 정보 선별을 위한 연구 집단 크기의 기준값(cut-off)은 다른 값이 사용될 수도 있다. 컴퓨터 장치를 이용하여 1차 발굴된 소스 SNP 정보에서 연관 불균형(Linkage Disequilibrium; LD) 값 및 shrinkage factor(예컨대 parameter)를 이용하여 보정된 effect size 기준으로 SNP들을 필터링한다. 상기 필터링 과정은 상기 수학식 1에 의해 수행될 수 있다.
도 6의 그림 (620)에 도시된 항목을 구체적으로 설명하면, SNP(단일 뉴클레오티드 다형성)(602)는 DNA 염기서열에서 하나의 염기서열(A,T,G,C)의 차이를 보이는 유전적 변이 항목을 의미하고, Risk Allele(위험대립유전자)(603)은 주어진 인구집단에서 발병 위험을 증가시키는 대립인자의 DNA서열을 의미하며, Non-risk Allele(주요대립유전자)항목(604)은 주어진 인구집단에서 발병 위험을 증가시키지 않는 대립인자의 DNA서열을 의미하고, Effect size(효과 크기)항목(605)은, 형질의 유전적 변이에 대한 SNP의 기여도를 나타내며, P-value 항목(606)은 주요 대립유전자와 부 대립유전자가 위험 대립 유전자 일 때의 연관성 검정의 통계적 유의확률을 나타내고, Major Allele(주요 대립유전자)항목(607)은 주어진 인구 모집단에서 가장 흔한 대립인자의 DNA서열을 의미하고, Minor Allele(부 대립유전자)항목(608)은, 주어진 인구 모집단에서 두 번째로 흔한 대립인자의 DNA서열을 의미하며, Minor Allele Frequency(부 대립유전자 빈도) 항목(609)은, 주어진 모집단에서 두 번째로 흔한 대립 유전자가 발생하는 빈도를 의미하고, Mapped Gene 항목(610)은, 염색체의 상대적 위치에 식별된 유전자를 의미할 수 있다.
도 7은 전자 장치가 이용하는 당뇨병성 신증 위험도분석모델을 검증한 ROC커브에 대한 실시 예를 나타내는 도면이다.
도 7에 도시된 바와 같이, 전자 장치는 ROC 커브를 이용하여 전자 장치(1000)가 당뇨병성 신증 발병의 위험도를 분석하기 위해 이용한 예측 모델의 성능을 검증할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용한 베이지안 뉴럴 네트워크 모델의 성능 검증 결과, 민감도(sensitivity) 및 특이도(specificity)에 대한 0.797의 AUC 값을 달성하였고, 전자 장치(1000)가 이용한 회귀 모델의 경우 0.656의 AUC 값을 달성하였다.
본 개시에 따른 전자 장치(1000)는 당뇨병성 신증 발병 위험도를 예측하기 위해 이용하는 모델의 성능을 검증하고, 검증 결과에 기초하여 모델로부터 출력된 데이터 활용 여부를 결정할 수도 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)는 전자 장치가 학습한 당뇨병성 신증 위험도 분석 모델의 검증 결과에 기초하여, 당뇨병성 신증 위험도 분석 모델을 수정 및 갱신함으로써 재 학습시킬 수도 있다.
도 8은 일 실시 예에 따른 당뇨병성 신증 위험도를 분석하는 전자 장치 및 이를 포함하는 시스템의 구조를 설명하기 위한 도면이다.
일 실시 예에 의하면, 당뇨병성 신증 발병 위험도를 평가하는 시스템(10)은 제어 장치(200), 입력 장치(210, 230), 메모리(220), 연산 장치(240) 및 네트워크 인터페이스(250)를 포함할 수 있다. 그러나 상술한 예에 한정되는 것은 아니며, 시스템은 도 8에 도시된 구성 보다 많은 구성들을 포함할 수도 있고, 더 적은 구성 요소로 마련될 수 있다. 또한, 일 실시 예에 의하면, 도 8에 도시된 당뇨병성 신증 발병 위험도를 평가하는 시스템(10)의 구성은 본 개시에 따른 전자 장치(1000)의 구성에 대응될 수도 있다.
일 실시 예에 의하면, 당뇨병성 신증 발병 위험도를 평가하는 시스템(10) 및 전자 장치(1000)는 도 8에 도시된 구성에 더하여, 메모리(220)에 저장된, 당뇨병성 신증 위험도를 분석하는데 사용되는 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 더 포함할 수도 있다. 일 실시 예에 의하면, 프로세서는 도 8에 도시된 제어 장치(200)의 구성에 포함될 수도 있다.
입력 장치(210, 230)는 임상 샘플의 유전체 데이터를 입력받을 수 있다. 일 실시 예에 의하면, 입력 장치(210, 230)는 사용자 인터페이스 또는 입력 인터페이스에 대응될 수 있다. 일 실시 예에 따른 당뇨병성 신증 발병 위험도를 평가하는 시스템(10)은 입력 장치(210, 230)를 이용하여 특정 임상 샘플의 유전체 데이터를 획득한다.
보다 상세하게는, 입력 장치(210, 230)는 사용자가 시스템 또는 전자 장치를 제어하기 위한 시퀀스를 입력하는 수단을 의미할 수도 있다. 예를 들어, 사용자 입력 인터페이스(미도시)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
또한, 일 실시 예에 의하면, 사용자 입력 인터페이스(미도시)는 전자 장치 또는 시스템이 디스플레이 상에 출력한 화면에 대한 사용자의 입력 시퀀스를 수신할 수 있다. 또한, 사용자 입력 인터페이스(미도시)는 디스플레이를 터치하는 사용자의 터치 입력 또는 디스플레이상 그래픽 사용자 인터페이스를 통한 키 입력을 수신할 수도 있다.
메모리(220)는 하나 이상의 인스트럭션을 저장할 수 있다. 예를 들어, 메모리(220)에 저장된 하나 이상의 인스트럭션은 제어 장치(200)에 의해 수행됨으로써 당뇨병성 신증 발병 위험도를 예측하는 방법을 수행하는데 사용될 수 있다. 또한, 메모리(220)는, 프로세서의 처리 및 제어를 위한 프로그램 외에, 시스템 또는 전자 장치로 입력되거나 전자 장치로부터 출력되는 데이터를 저장할 수도 있다.
또한, 일 실시 예에 의하면, 메모리(220)는 레퍼런스 오믹스 데이터, 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터, 임상 샘플의 유전체 데이터, 복수의 타깃 오믹스 데이터 또는 복수의 타깃 SNP 데이터들을 저장할 수도 있다. 또한, 메모리(220)는 전자 장치 또는 시스템이 이용하는 인공 지능 모델에 대한 정보를 저장할 수도 있다. 일 실시 예에 의하면, 메모리(220)는 전자 장치가 인공 지능 모델을 학습시키는데 이용하는 학습 데이터 정보를 더 저장할 수도 있고, 인공 지능 모델에 대한 파라미터 정보를 더 저장할 수도 있다.
예를 들어, 메모리(220)는 학습된 신경망뿐만 아니라, 이미 생성된 신경망에 기초한 모델들이 수정되는 경우, 수정된 모델들의 레이어들, 레이어들 간의 가중치에 관한 정보를 더 저장할 수 있다.
메모리(220)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
연산 장치(240)는 임상 샘플의 유전체 데이터에서, 레퍼런스 SNP 데이터 또는 레퍼런스 오믹스 데이터를 기준으로 복수의 타깃 오믹스 데이터들 또는 복수의 타깃 SNP 데이터들을 선별하고, 메모리에 저장된 하나 이상의 인스트럭션들을 실행함으로써, 상기 복수의 타깃 오믹스 데이터들 또는 복수의 타깃 SNP데이터들 각각의 유전자형 및 각각에 대한 effect size를 이용하여 상기 임상 샘플에 대한 당뇨병성 신증 발병 위험도 점수를 산출할 수 있다. 또한, 연산 장치(240)는 환자의 역학정보나 기타 진단 정보 등의 공변량 데이터와의 연계분석 과정을 수행할 수 있다.
일 실시 예에 의하면, 메모리(220)는 전자 장치(1000)가 이용하는 인공 지능 모델, 기계 학습 모델, 뉴럴 네트워크 모델, 예측 모형 모델에 대한 정보를 더 저장할 수도 있다. 일 실시 예에 의하면, 전자 장치 또는 시스템이 이용하는 인공 지능 모델은 인공 지능 학습 알고리즘에 기초하여 학습될 수 있는 모델일 수 있다. 일 실시 예에 의하면, 인공 지능 모델은 신경망 모델을 포함할 수 있다. 예를 들어, 신경망 모델은 인공 신경망(Artificial Neural Network)으로써, 생물학적 신경망에 착안된 컴퓨팅 시스템을 지칭할 수 있다. 인공 신경망 모델은 미리 정의된 조건에 따라 작업을 수행하는 고전적인 알고리즘과 달리, 다수의 샘플들을 고려함으로써 작업을 수행하는 것을 학습할 수 있다.
일 실시 예에 의하면, 인공 신경망 모델은 인공 뉴런(neuron)들이 연결된 구조를 가질 수 있고, 뉴런들 간의 연결은 시냅스(synapse)로 지칭될 수 있다. 뉴런은 수신된 신호를 처리할 수 있고, 처리된 신호를 시냅스를 통해서 다른 뉴런에 전송할 수 있다. 뉴런의 출력은 액티베이션(activation)으로 지칭될 수 있고, 뉴런 및/또는 시냅스는 변동될 수 있는 가중치(weight)를 가질 수 있고, 가중치에 따라 뉴런에 의해 처리된 신호의 영향력이 증가하거나 감소할 수 있다.
예를 들어, 신경망 모델은 레이어들 및 상기 레이어들의 연결 강도에 관한 가중치들로 정의되는 복수의 블록들을 포함할 수 있다. 보다 상세하게는, 신경망 모델은 신경망 모델 내 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values, weights)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공 신경망의 학습 결과에 의해 최적화될 수 있다.
예를 들어, 학습 과정 동안 인공지능 모델(예컨대 신경망 모델)에서 획득한 손실(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 수정 및 갱신될 수 있다. 본 개시에 따른 전자 장치가 이용하는 인공 지능 모델은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), LSTM(Long Short-Term Memory) 모델 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
일 실시 예에 의하면, 본 개시에 따른 전자 장치는 AI 프로그램이 탑재되어 의료 데이터들을 분석할 수 있는 스마트폰, PC, 휴대폰, 랩톱, 미디어 플레이어, 서버, 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.
또한, 일 실시 예에 의하면 본 개시에 따른 시스템 내지 전자 장치는 서버와 같은 외부 디바이스에 통신 연결될 수 있다. 예를 들어, 서버는 네트워크를 통하여 전자 장치와 연결됨으로써, 전자 장치와 데이터를 송수신할 수 있는 기타 컴퓨팅 장치를 포함할 수 있다.
일 실시 예에 의하면, 제어 장치(200)는 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 하나 이상의 인스트럭션을 수행하는 적어도 하나의 프로세서를 포함할 수 있다. 제어 장치(200)는 연산 장치(240)와 연동함으로써 당뇨병성 신증 발병 위험도를 예측하는 방법 중 적어도 일부를 수행할 수 있다.
예를 들어, 제어 장치(200)의 프로세서(미도시)는 통상적으로 전자 장치 또는 시스템의 전반적인 동작을 제어한다. 예를 들어, 프로세서(미도시)는, 메모리(220)에 저장된 프로그램들을 실행함으로써, 사용자 입력 인터페이스(미도시), 네트워크 인터페이스, 입력 장치, 연산 장치 등을 전반적으로 제어할 수 있다.
일 실시 예에 의하면, 프로세서(미도시)는 상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하고, 기 설정된 복수의 레퍼런스 SNP 데이터들 또는 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터 및 상기 복수의 레퍼런스 SNP 데이터를 포함하는 복수의 레퍼런스 오믹스 데이터를 기준으로, 상기 유전체 데이터에서 복수의 타깃 오믹스 데이터들 또는 복수의 타깃 SNP 데이터들을 선별하고, 선별된 타깃 오믹스 데이터들 또는 타깃 SNP 데이터들 각각의 유전자형 및 각각에 대한 가중치를 이용하여 위험도 점수를 산출할 수 있다.
일 실시 예에 의하면, 네트워크 인터페이스(250)는 전자 장치 또는 시스템이 다른 장치(미도시) 및 서버와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 일 실시 예에 의하면, 전자 장치(1000) 또는 시스템(10)이 통신하는 서버는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 중 적어도 하나의 조합을 포함할 수 있다.
다른 장치(미도시)는 전자 장치(1000)와 같은 컴퓨팅 장치이거나, 센싱 장치일 수 있으나, 이에 제한되지 않는다. 일 실시 예에 의하면, 네트워크 인터페이스(250)는 근거리 통신부(미도시) 또는 원거리 통신부(미도시)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(미도시)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
원거리 통신부는 이동 통신부 또는 방송 수신부를 포함할 수 있다. 예를 들어, 이동 통신부는 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 방송 수신부는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치가 방송 수신부(미도시)를 포함하지 않을 수도 있음은 물론이다.
일 실시 예에 의하면 전자 장치 또는 시스템은 A/V(Audio/Video) 입력부(미도시)를 더 포함할 수도 있다. A/V 입력부는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라와 마이크로폰 등이 포함될 수 있다. 카메라는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해, 관련 의료 영상 또는 동영상 화상 프레임 데이터를 획득할 수 있고, 이미지 센서를 통해 캡쳐된 이미지는 프로세서 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
마이크로폰은, 외부 디바이스 또는 사용자로부터 음향 신호를 수신할 수 있다. 마이크로폰은 사용자의 음성 입력을 수신할 수 있다. 마이크로폰은 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 개시를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
또한, 상기 일 실시 예에 다른 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 장치가 제공될 수 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 개시의 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속한다.

Claims (6)

  1. 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법에 있어서,
    상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하는 단계;
    기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터 들을 선별하는 단계; 및
    상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하는 단계; 를 포함하고,
    상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 mi RNA 데이터를 포함하고,
    상기 당뇨병성 신증 발병에 관련된 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영하는 것을 특징으로 하는, 방법.
  2. 제1항에 있어서, 상기 위험도 점수를 산출하는 단계는
    상기 전자 장치와 연결된, 게놈 전체 연관 분석 데이터를 저장하는 GWAS 데이터 베이스로부터 SNP 데이터들에 대한 사례 및 대조군 간 연관성 테스트에서 파생된 효과 크기(Effect Size)를 추출하고, 전사체 전체 연관 분석 데이터를 저장하는 TWAS 데이터 베이스로부터 유전자 발현 결과가 동일한 SNP에 의해 영향을 받는지 여부에 대한 코로컬라이제이션(Colocalization) 연관성 테스트에서 파생된 효과 크기를 추출하는 단계;
    상기 당뇨병성 신증 발병 위험도에 연관된 m개의 SNP에 대하여 각 위험대립유전자(Risk Allele)의 효과 크기로 가중된 주효과 및 공동 조절 miRNA 데이터의 효과 크기로 가중된 상호 작용 효과를 결정하는 단계;
    상기 결정된 상호 작용 효과를 L_1 정규화를 사용하는 변분 오토 인코더(Variational Auto Encoder)에 입력함으로써, 상기 변분 오토 인코더로부터 출력되는 분포로부터 랜덤 샘플링된 값을 디코더로 복원함으로써 비선형 저차원 임베딩을 생성하는 단계; 및
    상기 저차원 임베딩을 기 설정된 예측 모형 모델에 입력함으로써 상기 예측 모형 모델로부터, 추정된 베타_j의 다중 조건 사후 확률 분포의 기대 값으로 정의되는 PRS(Polygenic Risk Score)를 상기 위험도 점수로 산출하는 단계; 를 포함하는, 방법.
  3. 제1항에 있어서, 상기 위험도 점수를 산출하는 단계는
    하기 수학식 1에 기초하여 상기 위험도 점수를 산출하는 단계; 를 포함하고,
    [수학식 1]

    상기 수학식 1에서, PRSi는 개인 i의 유전적 위험도 점수를 나타내고, i는 개인의 유전체 데이터를 구분하는 식별 번호, j는 상기 타깃 오믹스 데이터 또는 상기 타깃 오믹스 데이터의 SNP 데이터를 구분하기 위한 식별 번호, Gij의 사전확률분포 프레임 워크, 은 비선형 저차원 공간으로 정의된 의 확률 분포, 의 사전확률과 역학 정보를 포함한 다중조건부의 사후확률분포의 기대값, 의 사전확률 추정량, D는 역학 정보, N은 가우시안 분포, 는 전역적 스케일링 매개변수(shrinkage parameter), 는 상기 타깃 오믹스 데이터 또는 상기 타깃 오믹스 데이터의 SNP 데이터에 대한 L_1 정규화 축소 추정 파라미터인 것을 특징으로 하는, 방법.
  4. 제1항에 있어서, 상기 레퍼런스 오믹스 데이터의 복수의 레퍼런스 SNP 데이터는,
    rs12531478-A, rs17373728-C, rs5750250-G, rs11107616-C, rs136161-G, rs4879670-G, rs13259109-G, rs1298908-G, rs304029-G, rs9510795-A, rs10952362-C, rs4667466-T, rs10778560-C, rs7975752-G, rs731565-T, rs4849965-C, rs6910061-A, rs1424609-G, rs2596230-G, rs1677894-G, rs5750250-G, rs136161-G를 포함하는 SNP 데이터 그룹 중 하나 이상의 SNP 데이터들을 포함하는 것을 특징으로 하는, 방법.
  5. 당뇨병성 신증 발병 위험도를 예측하는 전자 장치에 있어서,
    네트워크 인터페이스;
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고,
    상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하고,
    기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터들을 선별하고,
    상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하고,
    상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하고,
    상기 당뇨병성 신증 발병에 관련된 레퍼런스 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영하는 것을 특징으로 하는, 전자 장치.
  6. 전자 장치가 당뇨병성 신증 발병 위험도를 예측하는 방법에 있어서,
    상기 전자 장치와 연결된 외부 디바이스로부터 임상 샘플의 유전체 데이터를 획득하는 단계;
    기 설정된 복수의 레퍼런스 SNP(Single Nucleotide Polymorphism) 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 miRNA 데이터를 포함하는 레퍼런스 오믹스 데이터를 기준으로 상기 유전체 데이터에서 상기 레퍼런스 오믹스 데이터와 동일한 복수의 타깃 오믹스 데이터 들을 선별하는 단계; 및
    상기 복수의 타깃 오믹스 데이터들 각각의 유전자형 및 상기 복수의 타깃 오믹스 데이터들 각각에 대한 가중치를 이용하여 위험도 점수를 산출하는 단계; 를 포함하고,
    상기 레퍼런스 오믹스 데이터는, 당뇨병성 신증 발병에 관련된 복수의 레퍼런스 SNP 데이터들 및 상기 당뇨병성 신증 발병에 관련된 복수의 mi RNA 데이터를 포함하고,
    상기 당뇨병성 신증 발병에 관련된 오믹스 데이터의 연관불균형 및 전역적 스케일링 매개변수(Shrinkage factor)를 이용하여 보정된 효과 크기(effect size)를 반영하는 것을 특징으로 하는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020230027438A 2022-03-02 2023-03-02 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측 방법 및 장치 KR20230129933A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220026506 2022-03-02
KR1020220026506 2022-03-02

Publications (1)

Publication Number Publication Date
KR20230129933A true KR20230129933A (ko) 2023-09-11

Family

ID=88020293

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230027438A KR20230129933A (ko) 2022-03-02 2023-03-02 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20230129933A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101817665B1 (ko) 2011-11-03 2018-01-16 주식회사 바이로메드 Hgf 이형체를 이용한 당뇨병성 신경병증의 유전자 치료

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101817665B1 (ko) 2011-11-03 2018-01-16 주식회사 바이로메드 Hgf 이형체를 이용한 당뇨병성 신경병증의 유전자 치료

Similar Documents

Publication Publication Date Title
US20230029915A1 (en) Multimodal machine learning based clinical predictor
US20160364522A1 (en) Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US20110301863A1 (en) Prediction method for the screening, prognosis, diagnosis or therapeutic response of prostate cancer, and device for implementing said method
KR102044094B1 (ko) 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치
CN114373547B (zh) 疾病患病风险的预测方法及系统
Khan et al. Unbiased data analytic strategies to improve biomarker discovery in precision medicine
WO2015026953A1 (en) Methods for predicting prognosis
US11954859B2 (en) Methods of assessing diseases using image classifiers
CN112735592A (zh) 肺癌预后模型的构建方法及应用方法、电子设备
Chandrashekar et al. DeepGAMI: deep biologically guided auxiliary learning for multimodal integration and imputation to improve genotype–phenotype prediction
JP7275334B2 (ja) 個人の生物学的ステータスを予測するためのシステム、方法および遺伝子シグネチャ
Di et al. Combining polygenic risk score and voice features to detect major depressive disorders
Cannarozzi et al. Inflammatory bowel disease genomics, transcriptomics, proteomics and metagenomics meet artificial intelligence
Nepomuceno-Chamorro et al. Prognostic transcriptional association networks: a new supervised approach based on regression trees
KR20230129933A (ko) 다유전자 및 임상 정보 융합 기반의 당뇨병성 신증 발병 위험도 예측 방법 및 장치
KR20230129932A (ko) 다유전자 및 임상 정보 융합 기반의 대사증후군 발병 위험도 예측 방법 및 장치
EP2701579A2 (en) Stratifying patient populations through characterization of disease-driving signaling
KR102659915B1 (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
Khater et al. Explainable Machine Learning Model for Alzheimer Detection Using Genetic Data: A Genome-Wide Association Study Approach
EP4143848B1 (en) Patient stratification using latent variables
US10438687B1 (en) Dynamic evaluation of polygenic models based on genetic loci for which input is received
EP4386767A1 (en) Characteristics of patient influencing disease progession
KR20220124483A (ko) 질병 예측 방법
CN118155853B (zh) 狼疮肾炎免疫治疗反应性预测模型的构建方法及系统
Pratapagiri et al. An optimal framework for intelligent machine learning-based early diagnosis of pre-diabetes and type 2 diabetes using genomic data