CN114822691B - 基于图卷积神经网络的临床事件预测装置 - Google Patents
基于图卷积神经网络的临床事件预测装置 Download PDFInfo
- Publication number
- CN114822691B CN114822691B CN202210397115.3A CN202210397115A CN114822691B CN 114822691 B CN114822691 B CN 114822691B CN 202210397115 A CN202210397115 A CN 202210397115A CN 114822691 B CN114822691 B CN 114822691B
- Authority
- CN
- China
- Prior art keywords
- biological pathway
- clinical
- graph
- target biological
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 53
- 201000010099 disease Diseases 0.000 claims abstract description 65
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 65
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 28
- 230000008236 biological pathway Effects 0.000 claims description 221
- 108090000623 proteins and genes Proteins 0.000 claims description 123
- 230000014509 gene expression Effects 0.000 claims description 104
- 239000013598 vector Substances 0.000 claims description 57
- 238000000034 method Methods 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004393 prognosis Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 3
- 230000003902 lesion Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 18
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000007321 biological mechanism Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 50
- 230000008569 process Effects 0.000 description 26
- 206010028980 Neoplasm Diseases 0.000 description 21
- 238000012549 training Methods 0.000 description 20
- 239000011159 matrix material Substances 0.000 description 19
- 210000004027 cell Anatomy 0.000 description 13
- 238000003860 storage Methods 0.000 description 11
- 206010061818 Disease progression Diseases 0.000 description 8
- 230000005750 disease progression Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000011176 pooling Methods 0.000 description 8
- 201000011510 cancer Diseases 0.000 description 7
- 238000011161 development Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000005096 rolling process Methods 0.000 description 5
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 4
- 241000700605 Viruses Species 0.000 description 4
- 201000005202 lung cancer Diseases 0.000 description 4
- 208000020816 lung neoplasm Diseases 0.000 description 4
- 102000004169 proteins and genes Human genes 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 2
- 206010038389 Renal cancer Diseases 0.000 description 2
- 229910008048 Si-S Inorganic materials 0.000 description 2
- 229910006336 Si—S Inorganic materials 0.000 description 2
- 101150010487 are gene Proteins 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 208000030381 cutaneous melanoma Diseases 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 201000005249 lung adenocarcinoma Diseases 0.000 description 2
- 238000002705 metabolomic analysis Methods 0.000 description 2
- 230000001431 metabolomic effect Effects 0.000 description 2
- 201000010174 renal carcinoma Diseases 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 201000003708 skin melanoma Diseases 0.000 description 2
- 230000006394 virus-host interaction Effects 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 208000032612 Glial tumor Diseases 0.000 description 1
- 206010018338 Glioma Diseases 0.000 description 1
- 101100462513 Homo sapiens TP53 gene Proteins 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 102000043136 MAP kinase family Human genes 0.000 description 1
- 108091054455 MAP kinase family Proteins 0.000 description 1
- 208000006265 Renal cell carcinoma Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 201000007983 brain glioma Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 210000005260 human cell Anatomy 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Genetics & Genomics (AREA)
- Public Health (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请适用于医疗设备技术领域,提供了一种基于图卷积神经网络的临床事件预测装置,首先获取患者的基因表达量信息,并将患者的基因表达量信息填入到基因的生物学通路图中形成目标生物学通路图,然后通过图卷积神经网络对目标生物学通路图进行特征提取,获取患者的多个目标生物学通路图中的特征,这些特征包括患者基因的生物学通路图拓扑结构信息和基因表达量信息,进而通过这些特征对患者的临床事件进行预测,能够提高对患者进行治疗时预测临床事件的准确率,有助于提高医疗水平。本发明还能通过人工智能可解释性算法计算与临床事件存在关联的生物学通路和临床特征,有助于疾病的生物学机制研究。
Description
技术领域
本申请属于医疗设备技术领域,尤其涉及基于图卷积神经网络的临床事件预测装置。
背景技术
对与疾病存在关联的基因或生物学通路进行研究,能够促进对疾病潜在机制的理解和临床治疗效果。生物学通路(biological pathway)是细胞中一系列基因、蛋白质以及化合物等通过各种相互作用来完成某一具体的生物学功能的总称。实践表明,研究中获取的基因序列往往不稳定,即不同研究获取到的基因序列存在重现率低的问题,因此通过基因序列对疾病的进程进行预测难度也较大。而相比于基因,生物学通路与疾病本身具有更稳定的关联性。因此,近年来关于挖掘与疾病关联的生物学通路的研究受到广泛关注。
发明内容
本申请实施例提供了一种基于图卷积神经网络的临床事件预测装置,解决了现有的预测模型不能利用生物学通路图的拓扑结构信息进行预测的问题,能够提高对生物学通路图的信息利用效果,提高预测临床事件的准确度。
第一方面,本申请实施例提供了一种基于图卷积神经网络的临床事件预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:将每个基因的表达量信息填入到一个或多个生物学通路图的基因上,得到一个或多个目标生物学通路图,每个目标生物学通路图用于指示不同基因之间的相互作用关系和基因的表达量;利用图卷积神经网络对每个目标生物学通路图提取特征得到基因表达特征,基因表达特征包括目标生物学通路图的拓扑结构特征和基因表达量特征;利用基因表达特征预测临床事件,临床事件包括与疾病发生、发展和预后相关的事件。
在第一方面提供的临床事件预测装置中,通过将每个基因的表达量信息填入生物学通路图的基因上中得到目标生物学通路图,目标生物学通路图中包括了基因在生物学通路图中的拓扑结构信息和基因表达量信息,通过图卷积神经网络对目标生物学通路图的拓扑结构信息和基因表达量信息进行提取,获得基因表达特征,通过基因表达特征对临床事件预测,能够利用基因之间的具体相互作用关系对临床事件进行预测,提高了对临床事件预测的准确度。
在第一方面一种可能的实现方式中,利用图卷积神经网络对每个目标生物学通路图提取特征得到基因表达特征,包括利用图卷积神经网络对每个目标生物学通路图提取特征分别得到一个特征标量;将一个或多个目标生物学通路图对应的特征标量作为基因表达特征。在该实现方式中,能够对每个目标生物学通路图提取特征分别得到一个特征标量,进而从多个特征标量得到用于预测临床事件的基因表达特征,使得本装置能够同时利用多个生物学通路图预测临床事件,一方面提高了本装置对临床事件的预测能力,另一方面也提高了本装置对临床事件预测的准确度。
在第一方面另一种可能的实现方式中,利用图卷积神经网络对每个目标生物学通路图提取特征分别得到一个特征标量,包括利用多个图卷积神经网络单元对每个目标生物学通路图进行特征提取,得到多个中间特征向量;将多个中间特征向量输入到全连接层进行处理,得到每个目标生物学通路图对应的特征标量;其中,每一个图卷积神经网络单元输出一个中间特征向量,第i个图卷积神经网络单元输出的特征向量为第i+1个图卷积神经网络单元的输入。在该可能的实现方式中,通过多个图卷积神经网络单元对每个目标生物学通路图提取不同层次的特征,然后利用全连接层对包含不同层次特征的中间特征向量处理,得到每个目标生物学通路图对应的特征标量,能够获取每个目标生物学通路图不同层次的特征,进而预测临床事件,提高了对临床事件的预测准确率。
在第一方面另一种可能的实现方式中,图卷积神经网络单元的数量为三个。在该实现方式中,通过三个图卷积神经网络单元提取特征对临床事件进行预测,能够达到最高的临床事件预测准确度。
在第一方面一种可能的实现方式中,利用基因表达特征预测临床事件,包括将医学临床特征和基因表达特征拼接为综合特征向量;利用综合特征向量预测临床事件。在该实现方式中,通过将医学临床特征结合到利用基因表达特征对临床事件预测的过程中,提高了对临床事件预测的科学性和准确度。
在第一方面另一种可能的实现方式中,处理器还用于执行以下步骤:对临床事件进行解释,得到临床事件与一个或多个目标生物学通路图之间的相关度。在该实现方式中,通过对临床事件进行解释,能够获取临床事件与一个或多个目标生物学通路图之间的相关度,直观地展示与临床事件预测结果相关的目标生物学通路图的顺序,有助于提高医疗水平。
在第一方面一种可能的实现方式中,处理器还用于执行以下步骤:对临床事件进行解释,得到临床事件分别与一个或多个目标生物学通路图之间的相关度、与医学临床特征之间的相关度。在该实现方式中,通过对临床事件进行解释,能够直观地展示临床事件预测结果与目标生物学通路图之间的相关度和与医学临床特征之间的相关度,有助于提高医疗水平。
在第一方面另一种可能的实现方式中,利用如下公式对得到的临床事件进行解释:其中,IG scorei表示临床事件与第i个目标生物学通路图或者第i个医学临床特征之间的相关度;Si表示对第i个目标生物学通路图的进行特征提取得到的特征标量或者第i个医学临床特征,S′i表示对第i个目标生物学通路图或者第i个医学临床特征计算的基准;/>表示积分,f表示积分梯度算法中构建的人工智能模型。再该实现方式中,通过对临床事件预测结果与目标生物学通路图、医学临床特征之间的关系进行解释,能够直观地展示临床事件与目标生物学通路图、医学临床特征之间的相关性,有助于提高医疗水平。
在第一方面一种可能的实现方式中,每个基因的表达量信息通过对患者病灶处的细胞进行基因测序获得。在该实现方式中,通过对患者病灶细胞进行测序,即可在实际临床中对患者的临床事件进行预测,有助于提高临床医学水平。
第二方面,提供了一种临床事件预测设备,包括用于执行第一方面或第一方面的任一可能的实现方式中的装置执行的步骤的单元。
第三方面,提供了一种计算机可读存储介质,用于存储计算机程序代码,该计算机程序包括用于执行第一方面或第一方面的任一可能的实现方式中的装置执行的步骤的指令。
第四方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序在被处理器执行时,使得装置执行第一方面或者第一方面中的任意可能的实现方式中执行的步骤。
第五方面,提供了一种芯片,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该芯片的设备执行第一方面或者第一方面中的任意可能的实现方式中由装置执行的步骤。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:
通过将每个基因的表达量信息填入生物学通路图的基因上中得到目标生物学通路图,目标生物学通路图中包括了基因在生物学通路图中的拓扑结构信息和基因表达量信息,通过图卷积神经网络对目标生物学通路图的拓扑结构信息和基因表达量信息进行提取,获得基因表达特征,通过基因表达特征对临床事件预测,能够利用基因之间的具体相互作用关系对临床事件进行预测,提高了对临床事件预测的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中DeepOmix模型的示意图;
图2是本申请一实施例中的装置结构示意图;
图3是本申请一实施例中获取目标生物学通路图的过程示意图;
图4是本申请一实施例中从一个目标生物学通路图获取特征标量的过程示意图;
图5是本申请一实施例中从多个目标生物学通路图获取特征向量的过程示意图;
图6是本申请另一实施例中通过特征向量预测临床事件的过程示意图;
图7是本申请另一实施例中通过综合特征向量预测临床事件的过程示意图;
图8是本申请一实施例提供的对临床事件与目标生物学通路图相关度解释的过程示意图;
图9是本申请一实施例提供的对临床事件与目标生物学通路图、医学临床特征相关度解释的过程示意图;
图10是本申请一实施例的模型训练过程的数据准备过程示意图;
图11是本申请实施例提供的临床事件预测设备的结构示意图;
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在临床科研工作中,对疾病相关的临床事件等存在关联的基因或生物学通路进行研究,能够促进对疾病潜在机制的理解和临床应用。其中,临床事件是指与疾病发生、发展和预后相关的事件。预后,指对创伤或疾病可能造成的后果的预测。生物学通路(biological pathway)是细胞中一系列基因,蛋白质以及化合物等,通过各种相互作用来完成某一具体的生物学功能的总称。在这一领域的研究中表明,研究中获取的基因序列往往不稳定,即不同研究获取到的基因序列存在重现率低的问题,因此通过基因序列对疾病发生、发展和预后的预测难度也较大。而相比于基因,生物学通路与疾病本身具有更稳定的关联性。因此,近年来关于挖掘与疾病关联的生物学通路的研究受到广泛关注。例如,与多种生理病理相关的MAPK(丝裂原活化蛋白激酶)信号转导通路就是一种生物学通路。
目前,在应用生物学通路预测疾病发生、发展和预后的方法中,通常是基于深度学习神经网络的全连接层对疾病的发展进行预测的,并不能捕获基因的生物学通路的拓扑结构信息。例如,用于肿瘤生存分析的DeepOmix模型和用于肿瘤分型的PACL(pathway-baseddeep clustering for molecular subtyping of cancer,用于癌症分子分型基于路径的深度聚类)模型,就是基于深度学习神经网络的全连接层对疾病发展预测的模型。
如图1中DeepOmix模型结构所示的,DeepOmix模型具体包括一个输入层101、一个基因功能模块层102、两个隐藏层103和一个输出层104,DeepOmix模型的输入数据包括基因组学数据,DeepOmix模型的输出结果(即预测目标)为肿瘤的生存状况信息(例如肿瘤的发展状况),基因组学数据依次经过一个输入层101、一个基因功能模块层102、两个隐藏层103和一个输出层104配合对肿瘤的生存状况进行预测。
其中,组学(omics)是指生物学领域中的基因组学(genomics)、蛋白组学(proteomics)、代谢组学(metabolomics)、转录组学(transcriptomics)等形成分组的生物学数据。输入DeepOmix模型的基因组学数据包括多个基因的表达量信息。其中,基因表达量是指一段基因中被翻译成蛋白质的比例或者数量,同时,一段基因中也有一部分基因不会被转录、翻译形成蛋白质。关注基因的表达量具有重要的意义,例如在癌症研究中,如果一个基因在癌症组织中表达量明显上升或者下降,那么就说明这个基因跟癌症的发生或者发展可能具有一定的联系,在癌症研究中就需要重点关注该基因。
DeepOmix模型的输入数据形式为列表(list)数据形式,即生物学通路名称(pathway name):[基因A的表达量,基因B的表达量,基因C的表达量…]的数据形式。因此,DeepOmix模型的输入数据中只是若干个生物学通路中基因的表达量组成的一个集合,即DeepOmix模型的输入数据仅能够表示一个生物学通路中的基因之间存在相互作用关系,却不清楚一个生物学通路中的基因之间的相互作用关系具体是什么,即DeepOmix模型不能获取一个生物学通路中的基因是怎么相互作用的,进而导致DeepOmix模型的预测结果受到影响。例如,在生物学通路中基因A表达量的增加将会导致基因B表达量的增加,但是DeepOmix模型从输入数据不能获取基因A表达量与基因B表达量之间具体的关系(正相关关系或者负相关关系),导致DeepOmix模型在预测时不能考虑到基因A与基因B的具体相互作用关系,导致DeepOmix模型的预测结果准确率降低、预测效果变差。
有鉴于此,本申请实施例提供一种基于图卷积神经网络的临床事件预测装置,通过将基因表达量数据表示成目标生物学通路图的形式,并将目标生物学通路图输入到图卷积神经网络中进行计算处理,进而预测临床事件,解决了以往预测临床事件的方法不能获取生物学通路的拓扑结构信息的问题,提高了对患者临床事件的预测准确率,有助于提高医疗水平。
在一些场景中,本申请实施例的临床事件预测装置可以应用于临床治疗中。例如,医生利用本临床事件预测装置,能够根据患者的基因表达量数据预测患者某一疾病的发展进程,或者预测与某一疾病相关的其他疾病的发生概率,使得医生能够提前作出对患者的治疗措施,提高医疗水平。
在另一些场景中,本申请实施例的临床事件预测装置可以应用于疾病预防中。例如,体检机构可以根据被体检人员的基因表达量数据获得被体检人员在身体健康上可能的问题,以及预测被体检人员可能发生的疾病,提高被体检人员对自身身体情况的认识程度,对疾病做到提前预防、提前治疗。
下文具体说明本申请实施例的基于图卷积神经网络的临床事件预测装置。
图2示出了本申请实施例提供的临床事件预测装置的示意图,如图2所示的,该临床事件预测装置200可以包括处理模块210、存储模块220和收发模块230。处理器210可以由处理模块实现,存储器220可以由存储模块实现,收发器230可以由收发模块实现。存储模块220中存储有程序代码221,处理器210可以执行程序代码221,进而实现本装置的临床事件预测功能。其中,程序代码221可以包括一个人工智能模型,通过人工智能模型对临床事件进行预测。
本申请实施例的装置在预测临床事件时,首先需要准备预测临床事件所需的数据,准备预测临床事件所需的数据包括S301至S303,下文具体说明预测临床事件时的数据准备过程。
S301、获取患者的基因表达量信息。
由于不同的疾病发生时,疾病病灶处细胞中不同基因的表达量一般会发生相应的变化,所以基因的表达量变化能够反映疾病发生、发展以及预后的情况,即可以利用细胞中的基因的表达情况预测临床事件。
在一些实施例中,为了获取患者的基因表达量信息,对于一个疾病患者,可以通过对疾病患者病灶(例如肿瘤细胞)处的基因进行测序得到疾病患者的基因表达量信息,基因表达量信息包括各个基因的基因表达量。
在一些实施例中,也可以对疾病患者正常细胞中的基因进行测序得到基因表达量信息,并利用疾病患者正常细胞中的基因表达量信息对临床事件进行预测。
S302、获取人类生物学通路图。
为了获取各个基因在生物学通路图中表达的拓扑结构信息,可以通过将疾病患者的基因表达量信息填充到生物学通路图中,形成目标生物学通路图,然后利用目标生物学通路图预测临床事件。因此,首先需要获取人类的生物学通路图数据信息。
应理解的是,本申请实施例的装置可以从网络上获取人类生物学通路信息数据,人类生物学通路信息数据为图数据形式,因此也将人类生物学通路信息数据称为人类生物学通路图。
例如,本申请实施例的装置在使用时可以从网络数据库中获取人类生物学通路信息数据,进而获得人类的生物学通路图。例如,用户可以摘录生物过程(REACTOME)数据库中的生物学通路数据并进行筛选,进而获得适用于本申请实施例所应用的生物学通路图。
其中,对生物学通路图的筛选条件可以为:1、删除所有生物学通路图中基因数量少于15或大于400的生物学通路图;2、删除重复的生物学通路图。生物学通路图的筛选的意义是:删除所有生物学通路图中基因数量少于15或大于400的生物学通路图,能够将基因数量过多或者过多的生物学通路图筛选剔除,使得本装置集中处理基因数量适中的生物学通路图,能够提高本装置对临床事件预测的准确率;删除重复的生物学通路图,能够避免本装置得到重复的目标生物学通路图,能够提高本装置处理数据的精确度,也能够提高对本装置对临床事件预测的准确率。
应理解的是,对生物学通路图的筛选条件可以根据需要进行选择和设计,本申请实施例对生物学通路图的筛选条件不作限制。
在一些实施例中,通过从REACTOME数据库摘录所有的生物学通路图数据并进行筛选,可以得到855个生物学通路图的信息。
在一些实施例中,本申请实施例的装置中可以通过存储数据的形式存储人类生物学通路图,本装置在对临床事件预测时读取人类生物学通路图数据预测临床事件,本申请实施例对人类生物学通路信息数据或者人类生物学通路图的获取方式不作限制。
S303、将患者的基因表达量信息填入到生物学通路图中形成目标生物学通路图。
通过在每个生物学通路图中填入基因表达量信息形成形成一个目标生物学通路图,目标生物学通路图中节点的名称为基因名称,目标生物学通路图中节点的节点数据为基因表达量;目标生物学通路图中的边表示基因之间存在相互作用关系,进而得到能够作为临床事件预测使用的目标生物学通路图。
应理解的是,图数据中的节点数据为对应节点的属性。例如,在一个表示影视演员之间的相互作用关系的图数据中,影视演员之间具有亲戚、朋友关系,影视演员使用节点表示,影视演员之间的关系(例如亲戚、朋友关系)使用边表示,影视演员所参演的作品、影视演员的年龄等数据则可以用表示影视演员的节点的属性表示。本申请实施例中,可以使用目标生物学通路图中基因节点的属性表示某一个基因的基因表达量。
这里,由于生物学通路图本身包括各个基因之间的相互作用关系,即目标生物学通路图的边。因此,将基因表达量信息填充到生物学通路图中的具体操作为:将基因表达量信息的基因名称填充到生物学通路图的节点名称中,得到目标生物学通路图的节点名称;将样本基因信息中基因的表达量填充到生物学通路图的相应基因节点的属性值中,得到基因表达量在目标生物学通路图中的表示结果。
对于每一个疾病患者,在形成目标生物学通路图时,可以理解为将该疾病患者的基因表达信息中的基因名称、基因表达量分别填入到目标生物学通路图中,即形成了与疾病患者对应的目标生物学通路图,进而可以通过与疾病患者对应的目标生物学通路图对临床事件进行预测。
在一些实施例中,可以应用Pytorch_geometric框架将S301中的患者基因信息301与S302中获取的生物学通路图302进行综合并转换为图数据形式,得到目标生物学通路图303,以便于在图卷积神经网络模型对目标生物学通路图303进行计算处理。其中,Pytorch_geometric框架为将矩阵数据转换为图数据的算法,本申请实施例也可以使用其他算法得到目标生物学通路图,本申请实施例对此不作限制。
在另一些实施例中,对于S303中形成的目标生物学通路图303,可以应用图数据库(例如Neo4j数据库)将目标生物学通路图303以图数据形式进行存储,以便于后续对数据取用和计算。
通过S301至S303获取目标生物学通路图之后,本申请实施例的装置便能够通过对目标生物学通路图进行处理,得到对临床事件预测的结果。
下文结合S401至S403对从目标生物学通路图预测临床事件的具体过程进行说明。
S401、提取目标生物学通路图的拓扑结构特征和基因表达特征。
在一些实施例中,在应用本临床事件预测方法的装置中具有评估器,如图4所示特征提取过程所示的,评估器400可以包括提取目标生物学通路图特征的特征提取模块401,特征提取模块401用于从目标生物学通路图中进行特征提取,具体为提取目标生物学通路图的拓扑结构特征和基因表达特征,拓扑结构特征包括基因之间的相互作用关系,基因表达特征包括基因的表达量。
在一些实施例中,评估器400还可以包括读取目标生物学通路图中信息的读取模块,读取模块用于读取目标生物学通路图中的信息,读取模块将读取到的目标生物学通路图中的信息传递给特征提取模块。
在一些实施例中,本申请实施例的临床事件预测方法中的生物学通路图的读取模块可以通过循环遍历的方式从目标生物学通路图读取生物学通路图中的基因名称、基因表达量和基因之间的相互作用关系。
在一些实施例中,本申请实施例的临床事件预测装置的特征提取模块401通过图卷积神经网络(graph convolutional network,GCN)算法对目标生物学通路图进行特征提取。
在一些实施例中,如图4的特征提取过程所示的,目标生物学通路图在特征提取模块401中进行特征提取,特征提取模块401对提取的特征编码后输出一个特征向量T,特征向量T表示目标生物学通路图的拓扑结构特征和基因表达特征。
在一些实施例中,图卷积神经网络算法的具体实现细节可以为:至少包括一个图卷积层、一个图池化层和一个输出层。其中,图卷积层和图池化层用于提取目标生物学通路图的拓扑结构特征和基因表达特征;输出层用于将捕获的特征信息以向量数据的形式进行输出。应理解的是,图卷积神经网络算法中的图卷积层、图池化层和输出层的数量可以根据实际需要进行增减,本申请实施例对图卷积层、图池化层和输出层的数量不作限制。
在一些实施例中,为了更充分地捕获目标生物学通路图的基因表达特征和拓扑结构特征,图卷积神经网络算法可以通过三个结构相同的图卷积神经网络单元4011依次对目标生物学通路图进行特征提取实现,每一个图卷积神经网络单元4011的输出为一个中间特征向量和一个特征向量,每一个图卷积神经网络单元4011输出的特征向量作为下一个图卷积神经网络单元4011的输入,每一个图卷积神经网络单元4011输出的中间特征向量为这一个图卷积神经网络单元4011对目标生物学通路图提取的特征,并将该中间特征向量用于临床事件预测中。其中,每个图卷积神经网络单元至少包括至少包括一个图卷积层、一个图池化层和一个输出层。
具体地,在具有多个图卷积神经网络单元的特征提取模块中,由于特征在各个图卷积神经网络单元的图卷积层、池化层被一层一层地提取出,各个图卷积神经网络单元提取出的特征一层比一层更丰富,抽象程度也更高,故通过三个图卷积神经网络单元能够分别捕获到每一个目标生物学通路图不同层次的特征信息,即得到每一个目标生物学通路图的多个中间特征向量,进而提高对目标生物学通路图的特征提取效果。
应理解的是,图卷积神经网络算法中的图卷积神经网络单元的数量可以根据实际需求进行设置,例如可以设置四个、五个或者六个图卷积神经网络单元,本申请实施例对图卷积神经网络单元的数量不作限制。
应理解的是,每一个图卷积神经网络单元中的图卷积层和池化层的数量可以根据实际需求设置,本申请实施例对每一个图卷积神经网络算法中的图卷积层、池化层的数量不作限制。
通过图卷积神经网络单元依次对每个目标生物学通路图进行一次特征的提取,并通过各个图卷积神经网络单元的输出层进行特征输出,特征输出为中间特征向量,通过多个图卷积神经网络单元能够更充分地捕获目标生物学通路图中的基因表达特征和拓扑结构特征。
在一些实施例中,还可以在各个图卷积神经网络单元之间还设置图归一化层,图归一化层能够避免梯度消失,并加快训练速度,提高本装置中人工智能模型的性能。
在一些实施例中,评估器400还包括对目标生物学通路图的基因表达特征和拓扑结构特征处理的全连接层,全连接层的输入为中间特征向量,全连接层的输出为目标生物学通路图的基因表达特征和拓扑结构特征的特征标量。
在一些实施例中,如图4的处理过程所示的,通过对多个图卷积神经网络单元提取的中间特征向量Ti通过向量拼接的方式组成一个特征向量T。例如,三个图卷积神经网络单元获取的中间特征向量Ti分别为中间特征向量T1、中间特征向量T2和中间特征向量T3,则通过向量拼接的方式获得的特征向量T为(T1,T2,T3),然后通过构建的全连接层对特征向量T进行处理,即可通过全连接层获取预测的结果。
在一些实施例中,全连接层的输出可以为一个特征标量Si。其中,i表示在S302中处理的第i个目标生物学通路图。例如,i=1,表示第1个目标生物学通路图;又例如,特征标量S120表示通过图神经网络算法提取到的第120个生物学通路图的基因表达特征和拓扑结构特征。
S402、将对各个目标生物学通路图输出的特征标量拼接为特征向量。
如图5中的处理过程所示的,对每一个目标生物学通路图Gi,经过评估器进行特征提取,得到了与每一个目标生物学通路图Gi对应的特征标量Si,之后还需要构建能够反映疾病患者的所有目标生物学通路图的数学量,以综合样本患者细胞中的所有基因表达特征和拓扑结构特征对临床事件进行预测。
具体地,如图5的处理过程所示的,当通过步骤S402中提取到第i个目标生物学通路图的基因表达特征和拓扑结构特征的特征标量Si后,通过将各个特征标量Si综合得到特征向量S,特征向量S表示从属于同一个疾病患者的各个目标生物学通路图提取到的基因表达特征和拓扑结构特征的综合。其中,各个特征标量Si综合得到特征向量S的方式可以为拼接方式。例如,特征向量S可以表示为[S1,S2,…,S855],其中1、2和855指对目标生物学通路图的编号,指目标生物学通路图的数量为855个。
S403、利用特征向量对临床事件进行预测。
在得到特征向量S后,本申请实施例的临床事件预测装置通过一个预测器对临床事件进行预测。如图6所示的预测器处理过程所示的,特征向量S输入到预测器601中预测,得到对临床事件的预测结果。
在一些实施例中,本申请实施例的临床事件预测方法中的预测器601可以是一个多层全连接神经网络组成的,具体包括:一个输入层,输入层用于读取特征向量S;两个隐藏层,用于处理数据;一个输出层,输出层用于输出预测结果。其中,输出层采用softmax激活函数,输出层能够计算疾病患者出现不同临床事件的概率。特征向量S经过输入层、隐藏层和输出层的综合处理,通过预测器的得到输出结果,输出结果为疾病患者出现不同临床事件的概率。例如,输出层输出的数据可以为某肿瘤患者复发为高风险肿瘤的概率值,具体可以为0.95;又例如,输出层输出的数据也可以为某肿瘤患者复发为低风险肿瘤的概率值,具体可以为0.05。
在临床研究中,不同患者的医学临床特征(例如患者的年龄、性别)因素也往往是影响疾病发生、发展的重要因素。因此,为了提高临床事件预测结果的准确率,还可以在预测过程中根据疾病患者的医学临床特征对临床事件进行预测,将疾病患者的医学临床特征与特征提取模块的输出特征进行综合,以在后续的临床事件预测中综合考虑疾病患者的医学临床特征。
其中,患者的医学临床特征可以包括患者的年龄、性别信息,还可以包括患者的疾病信息,例如疾病名称、发病时间、疾病持续时间、疾病进展阶段和疾病的严重程度等疾病状况信息。在本装置的人工智能模型进行训练和实际利用本装置对具体患者的临床事件进行预测时,都可以利用患者的医学临床信息得到预测结果。
在一些实施例中,疾病患者的医学临床特征也可以为自定义的与疾病有关的其他特征,例如患者是否吸烟、患者的家族病史等其他特征数据。疾病样本患者的医学临床信息方面可以根据实际需求进行选择和收集,本申请实施例对此不作限制。
在一些实施例中,如图7的处理过程所示的,在得到特征向量S之后,通过在特征向量S中融入患者的医学临床信息得到综合特征向量C,然后综合特征向量C在预测器701中进行预测。其中,综合特征向量C的获取过程如图7所示的,可以将样本中疾病患者的临床特征信息与特征向量S进行拼接,得到一个综合特征向量C。
例如,对临床特征信息与特征向量S进行拼接的具体方式可以为,将年龄、性别、疾病进展阶段等表示成数值形式,然后将年龄、性别、疾病进展阶段的数据拼接到特征向量S的末尾。经过拼接,综合特征向量C中包括通过图神经网路算法从各个生物学通路图提取到的基因表达特征和拓扑结构特征的特征标量,以及样本患者的临床特征信息。
例如,年龄可以表示为特征标量S856,年龄为45岁的疾病样本患者使用特征标量S856表示为数值45。
又例如,性别可以表示为特征标量S857,性别为男性的疾病样本患者使用特征标量S857表示为数值1,性别为女性的疾病样本患者使用特征标量S857表示为数值2。
又例如,疾病进展阶段可以表示为特征标量S858,疾病进展阶段可以分为五个进展阶段时,疾病进展阶段为第三个阶段时可以使用特征标量S858将疾病进展阶段表示为数值3。
又例如,特征向量S在拼接前为[S1,S2,…,S855],特征向量S在拼接后为综合特征向量C:[S1,S2,…,S855,S856,S857,S858]。
获取综合特征向量C之后,便可以在疾病预测中综合考虑患者的医学临床信息对患者的临床事件进行预测,得到更为准确的预测结果。
在实验中,通过本装置对一些临床事件进行预测,实验结果表明本装置的预测结果明显优于现有的预测方法的预测结果。例如,如表1所示出的预测结果比较,在肺腺癌、肾癌、皮肤黑色素瘤和脑胶质瘤这四种癌症患者中,本装置预测结果的AUC指标分别为0.723、0.702、0.862和0.754。而以往的预测方法的预测结果的AUC指标则分别为0.592、0.626、0.852和0.683。可以发现,应用本装置的预测结果的AUC指标数值更大,表明本装置的预测结果准确率要明显优于以往预测方法预测结果的准确率。
表1
AUC指标 | 肺腺癌 | 肾癌 | 皮肤黑色素瘤 | 脑胶质瘤 |
本申请实施例 | 0.752 | 0.702 | 0.862 | 0.754 |
以往的预测模型 | 0.592 | 0.626 | 0.852 | 0.683 |
其中,AUC指标(area under roc curve,roc曲线下面积)是指ROC(receiveroperating characteristic curve)曲线下与坐标轴围成的面积。ROC曲线是根据一系列不同的二分类方式(例如分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。AUC指标在比较不同的预测模型时可作为评价模型优劣的指标,其主要意义在于AUC指标值越大的预测模型,预测模型的正确率越高。
通过S401至S403使得本申请实施例的临床事件预测装置实现了对临床事件的预测。为了进一步揭示生物学通路数据与临床事件之间的关系,在一些实施例中,本申请实施例还提供一种临床事件的解释方法,将对人工智能模型进行解释的算法应用到本申请实施例的临床事件预测装置上,即在通过生物学通路图到图卷积神经网络中预测临床事件之后,通过对人工智能模型进行解释的算法解释患者的各个生物学通路数据与作为预测结果的临床事件之间的相关性。
在一些场景中,本申请实施例的临床事件解释方法可以应用于科学研究中。例如,科研人员将本申请实施例的临床事件解释方法应用到对临床事件预测的过程中,能够解释患者基因表达量信息与临床事件之间的关系,能够更清楚的揭示出患者的基因表达量信息与临床事件之间的关系,提高科研工作中对基因表达信息、生物学通路与临床事件的数据处理和分析效果。
在另一些场景中,本申请实施例的临床事件解释方法可以应用于病毒-宿主相互作用研究中,病毒-宿主相互作用研究用于研究和揭示病毒对患者产生影响作用的生物学通路,应用本申请实施例的临床事件解释方法能够更好地揭示病毒在人体的哪些生物学通路发生了作用,能够更好地研究病毒对人体的影响。例如,本申请实施例的临床事件解释方法可以用于研究和揭示新型冠状病毒肺炎(corona virus disease 2019,COVID-19)病毒在人体细胞中具体发生作用的生物学通路。
如图8的解释过程所示的,临床事件解释模块801用于对临床事件解释,进而获取各个目标生物学通路图与作为预测结果的临床事件之间的相关性。临床事件解释模块801的输入为目标生物学通路图,临床事件解释模块801的输出为目标生物学通路图与作为预测结果的临床事件之间的相关性。
在一些实施例中,对人工智能模型进行解释的算法可以为积分梯度算法,通过积分梯度算法可计算出患者的基因表达量信息中的各个目标生物学通路图与临床事件预测结果的相关性。
其中,通过积分梯度算法计算能够得到某一个目标生物学通路图与预测的临床事件之间的相关性IG score,并对各个目标生物学通路图对应的IG score进行排序,得到患者的各个目标生物学通路图与临床事件相关性的高低排序表。其中,积分梯度算法的计算过程可以通过公式(1),公式(1)表示如下:
其中,IG scorei表示计算得到的第i个目标生物学通路图与临床事件的相关度,为一个具体的数值;Si表示对第i个目标生物学通路图的进行特征提取得到的特征标量,S′i表示对第i个目标生物学通路图计算的基准,S′i默认值为0;f表示积分梯度算法中构建的人工智能模型;表示积分;α为积分梯度算法的变量,dα表示对变量α进行[0,1]的积分。
其中,公式(1)中的积分梯度算法中构建的人工智能模型f是预先训练和配置的,使用积分梯度算法对目标生物学通路图与临床事件相关性解释时,首先向人工智能模型f输入(S′i+α(Si-S′i)),然后经过积分梯度算法中的人工智能模型f计算处理,然后通过公式(1)进行计算处理,得到最终的第i个目标生物学通路图与临床事件的相关度IG scorei。
为了进一步揭示患者的医学临床特征与临床事件之间的关系,在一些实施例中,本申请实施例还提供一种临床事件的解释方法,将对人工智能模型进行解释的算法应用到本申请实施例的临床事件预测装置上,即在通过患者的生物学通路数据和医学临床特征预测临床事件之后,通过对人工智能模型进行解释的算法解释患者的各个目标生物学通路图、医学临床特征与作为预测结果的临床事件之间的相关性。
在一些场景中,本申请实施例的临床事件解释方法可以应用于科学研究中。例如,科研人员将本申请实施例的临床事件解释方法应用到对临床事件预测的过程中,能够解释患者的生物学通路数据、医学临床信息与临床事件之间的关系,能够更清楚的揭示出患者的生物学通路数据、医学临床信息与临床事件之间的关系,提高科研工作中对患者的生物学通路数据、医学临床信息与临床事件的数据处理和分析效果。
如图9的解释过程所示的,临床事件解释模块901用于对临床事件解释,进而获取各个目标生物学通路图、医学临床特征与作为预测结果的临床事件之间的相关性。临床事件解释模块901的输入为目标生物学通路图和医学临床特征,临床事件解释模块901的输出为目标生物学通路图、医学临床特征与预测的临床事件之间的相关性。
在一些实施例中,对人工智能模型进行解释的算法可以为积分梯度算法,通过积分梯度算法可计算出患者的各个目标生物学通路图、医学临床特征与临床事件预测结果的相关性。
其中,通过积分梯度算法计算能够得到患者的某一个目标生物学通路图或者医学临床特征与预测的临床事件之间的相关性IG score,并对各个目标生物学通路图、医学临床特征对应的IG score进行排序,得到患者的各个目标生物学通路图、医学临床特征与临床事件相关性的高低排序表。其中,积分梯度算法的计算过程可以通过公式(2),公式(2)表示如下:
其中,IG scorei表示计算得到的第i个目标生物学通路图或者医学临床特征与临床事件的相关度,为一个具体的数值;Si表示第i个目标生物学通路图的特征标量或第i个医学临床特征,S′i表示对第i个目标生物学通路图或者医学临床特征计算的基准,S′i默认值为0;f表示积分梯度算法中构建的人工智能模型;表示积分;α为积分梯度算法的变量,dα表示对变量α进行[0,1]的积分。
其中,公式(2)中的积分梯度算法中构建的人工智能模型f是预先训练和配置的,使用积分梯度算法对患者的目标生物学通路图、医学临床特征与临床事件相关性解释时,首先向人工智能模型f输入(S′i+α(Si-S′i)),然后经过积分梯度算法中的人工智能模型f计算处理,然后通过公式(2)进行计算处理,得到最终的第i个生物学通路数据、医学临床信息与临床事件的相关度IG scorei。
在一些实施例中,可以对获取到的各个目标生物学通路图、医学临床特征与临床事件的相关性按照相关性从高到低进行排序输出,便于直观地展示患者的目标生物学通路图、医学临床特征与临床事件的相关性顺序,使得医生或者科研人员能够更直观地分析与临床事件相关的各个目标生物学通路图、医学临床特征。
本申请实施例中的预测临床事件的装置中可以通过人工智能模型对临床事件进行预测,本申请实施例的基于图卷积神经网络的临床事件预测装置可以使用样本的基因表达量信息作为训练数据,可以以样本的临床事件为答案,采用有监督学习的方式对人工智能模型进行训练,得到训练完成的本申请实施例中的预测临床事件装置中的人工智能模型,然后通过本装置预测临床事件。
其中,样本基因信息、样本临床事件可以是医疗实践中收集的疾病患者信息。样本基因信息可以是疾病患者的病灶(例如肿瘤)细胞中的基因表达量信息,也可以是疾病患者正常细胞中的基因表达量信息。其中,样本临床事件是指样本疾病患者对应的临床事件,例如样本肿瘤患者的肿瘤复发。样本临床事件也来自于获取样本基因信息的对应患者,使得样本基因信息、样本临床事件相互对应,以共同对本申请实施例中的预测临床事件的装置中的人工智能模型进行训练。
本申请实施例的临床事件预测装置中的人工智能模型训练完成后,向临床事件预测装置输入临床中待预测临床事件的患者的基因表达量信息,就能够通过临床事件预测装置预测得到患者可能的临床事件。
本申请实施例的临床事件预测装置中的人工智能模型进行训练时,首先需要准备训练数据,训练数据准备完成后对临床事件预测装置中的人工智能模型进行训练。
下文说明训练数据准备的具体细节,训练数据的准备过程具体包括S1001至S1004。
S1001、定义待预测临床事件。
待预测临床事件是指通过本临床事件预测装置得到的预测结果。待预测临床事件具体可以是在临床中采集的患者发生疾病的具体名称。例如,待预测临床事件可以定义为肿瘤患者复发为高风险,待预测临床事件也可以定义为肺癌患者的癌症发展到晚期阶段。
定义的待预测临床事件用来对本临床事件预测装置中的人工智能模型进行训练,在有监督学习中,通过定义的待预测临床事件对本临床事件预测装置的结果进行检验,能够提高本临床事件预测装置中的人工智能模型的训练准确率。在定义待预测临床事件时,可以根据本临床事件预测装置不同使用场景下预测需求不同定义的待预测临床事件,以满足本临床事件预测装置不同场景下的使用需求。
例如,当输入的基因表达量信息主要是肺癌相关的基因信息时,则可以定义待预测临床事件为肺癌以及与肺癌相关的疾病、症状。
定义的待预测临床事件也作为本临床事件预测装置的输出结果,在对本临床事件预测装置中的人工智能模型训练完成后,可以输入临床中患者的基因表达量信息,进而通过本临床事件预测装置预测输出临床事件,达到预测目的。
S1002、获取样本基因信息。
样本基因信息用于对本申请实施例的临床事件预测装置中的人工智能模型进行训练。其中,样本基因信息可以在临床中对患者的病灶处的细胞进行基因测序获取。同时,样本基因信息也可以通过公开的数据库获取,例如从肿瘤基因图谱(the cancer genomeatlas,TCGA)数据库下载获取。本申请实施例对样本基因信息的来源不作限制。
其中,样本基因信息包括各个基因的基因名称以及各个基因的基因表达量。如图10中样本基因信息1001所示出的,样本基因信息1001可以记录在表格形式的文件或者文本格式的文件中,样本基因信息1001具体包括基因名称和相应基因的基因表达量。
在一些实施例中,可以使用特定的命名形式对样本基因信息1001进行标准化记录处理,便于进行后续的数据处理。例如,样本基因信息1001的基因名称可以采用Entrez基因命名形式。Entrez基因命名形式是一种通用的基因命名形式,Entrez基因命名形式是美国国家生物技术信息中心(the national center for biotechnology information,NCBI)旗下的Entrez gene数据库所使用的编号。例如,Entrez基因命名形式中人类的TP53基因的Entrez名为7157。应理解的是,基因名称也可以采用其他的命名形式,本申请实施例对基因名称的命名形式不作限制。
在一些实施例中,样本基因信息1001中的基因表达量可以采用特定的记录形式,以便于对样本基因信息1001进行样本数据的处理。例如,基因表达量可以采用外显子模型每千碱基每百万次映射读取(reads per kilobase of exon model per million mappedreads,FPKM)的读取数记录形式,即每千个碱基的转录每百万映射读取的读长形式,作为基因表达量的量化指标。应理解的是,基因表达量也可以采用其他的数据记录形式,本申请实施例对基因表达量数据记录形式不作限制。
在一些实施例中,如图10的样本矩阵数据1002所示出的,基因样本1001可以通过矩阵数据形式进行存储,进而存储为样本矩阵数据1002。在如图10的样本矩阵数据1002中,矩阵的列可以为患者编号,矩阵的行可以是从患者取样的细胞中的基因名称,矩阵的内容表示基因样本1001中的基因对应的基因表达量,即样本矩阵数据1002的一列数据代表一个患者的不同基因的基因表达量,样本矩阵数据1002的一行数据代表一个基因在不同患者的基因表达量。本申请实施例中的样本矩阵数据1002的行、列可以相互调换位置,本申请实施例对样本矩阵数据1002的矩阵具体形式不作限制。
在一些实施例中,样本矩阵数据1002中矩阵的列可以使用样本患者的编号进行标示,例如,可以标示为1,2,3…,也可以标示为a,b,c…,本申请实施例对矩阵的行、列的具体编号形式不做限制。
S1003、获取人类生物学通路图。
为了得到能够用于人工智能模型训练的目标生物学通路图,需要将基因矩阵数据1002填充到人类生物学通路图中形成目标生物学通路图,目标生物学通路图是基因表达量以及不同基因之间相互作用关系的图结构的数据。其中,样本矩阵数据1002中有多个样本患者的基因表达量数据,因此通过一个样本矩阵数据1002可以得到多个样本患者的多个目标生物学通路图。
其中,目标生物学通路图与临床事件预测过程中对目标生物学通路图的获取过程相似,这里不再赘述。
在另一些实施例中,可以获取样本患者的临床医学特征,以在利用患者的医学临床特征训练模型并得到预测结果。获取样本患者的目标生物学通路图与样本临床医学信息之后即可对模型进行训练。
在一些实施例中,本申请实施例的临床事件预测装置中的人工智能模型的训练方式为有监督学习,具体为通过输入标记有正确答案的训练数据,即输入疾病样本患者信息和相应疾病样本患者的临床事件,对人工智能模型进行训练,模型训练完成后,通过向人工智能模型输入患者的基因信息和临床医学信息,就能够通过本人工智能模型的预测得到患者可能发生的临床事件。
在一些实施例中,判断本装置的人工智能模型训练完成度的方式可以为:与现有的其他预测模型的结果进行比较,如果本人工智能模型获得的结果更好,就可以判定本装置的人工智能模型训练已经完成。例如,针对AUC指标与其他预测模型的预测结果进行比较,如果本装置的人工智能模型训练之后的对疾病预测得到结果的AUC指标要优于其他预测模型预测结果的AUC指标,则可以判断本装置的人工智能模型已经训练完成。
在另一些实施例中,判断本申请实施例的模型训练完成度的方式可以为通过输入检测样本(检测样本包括患者的基因信息、临床医学信息和临床事件结果),然后获取预测结果,最后针对预测结果和临床事件结果比较相近程度,进而判断人工智能模型训练的完成度。例如,如果本装置的人工智能模型训练之后对检测样本进行疾病预测的结果与检测样本的结果相近,则可以判断本装置的人工智能模型已经训练完成。
本申请实施例中的临床事件预测装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括至少一个与上述功能相对应的模块或单元。
本申请实施例还提供的一种临床事件预测设备,图10示出了本申请实施例提供的设备示意图,如图11的所示的,该装置1100可以包括处理模块1010、存储模块1120和收发模块1130。各模块的功能与上述装置中的功能一致,在此不再赘述。
本申请实施例可以通过处理器执行上述临床事件预测过程的各个步骤。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
上述的处理器可以是CPU,网络处理器NP或者CPU和NP的组合、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序代码,该计算机程序包括用于执行上述本申请实施例提供的装置执行的步骤的指令。该可读介质可以是只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM),本申请实施例对此不做限制。
本申请还提供了一种计算机程序产品,该计算机程序产品包括指令,当该指令被执行时,以使得设备执行上述申请实施例中的装置对应的操作。
本申请实施例还提供了一种位于电子设备中的芯片,该芯片包括:处理单元和通信单元,该处理单元,例如可以是处理器,该通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行计算机指令,以使该芯片执行上述装置中由装置执行的流程。
其中,本实施例提供的设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的装置执行的步骤,因此,其所能达到的有益效果可参考上文所提供的对应的装置中的有益效果,此处不再赘述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种基于图卷积神经网络的临床事件预测装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
将每个基因的表达量信息填入到一个或多个生物学通路图的基因上,得到一个或多个目标生物学通路图,每个目标生物学通路图用于指示不同基因之间的相互作用关系和基因的表达量;
利用图卷积神经网络对每个所述目标生物学通路图提取特征分别得到一个特征标量;
将一个或多个所述目标生物学通路图对应的特征标量作为基因表达特征,所述基因表达特征包括所述目标生物学通路图的拓扑结构特征和基因表达量特征;
利用所述基因表达特征预测临床事件,所述临床事件包括与疾病发生、发展和预后相关的事件;
其中,所述利用图卷积神经网络对每个所述目标生物学通路图提取特征分别得到一个特征标量,包括:
利用多个图卷积神经网络单元对每个目标生物学通路图进行特征提取,得到多个中间特征向量;
将所述多个中间特征向量输入到全连接层进行处理,得到每个目标生物学通路图对应的特征标量;
其中,每一个图卷积神经网络单元输出一个中间特征向量,第i个图卷积神经网络单元输出的特征向量为第i+1个图卷积神经网络单元的输入。
2.如权利要求1所述的基于图卷积神经网络的临床事件预测装置,其特征在于,所述利用所述基因表达特征预测临床事件,包括:
将医学临床特征和基因表达特征拼接为综合特征向量;
利用所述综合特征向量预测临床事件。
3.如权利要求1所述的基于图卷积神经网络的临床事件预测装置,其特征在于,所述处理器还用于执行以下步骤:
对所述临床事件进行解释,得到所述临床事件与一个或多个目标生物学通路图之间的相关度。
4.如权利要求2所述的基于图卷积神经网络的临床事件预测装置,其特征在于,所述处理器还用于执行以下步骤:
对所述临床事件进行解释,得到所述临床事件分别与一个或多个目标生物学通路图之间的相关度、与医学临床特征之间的相关度。
5.如权利要求3或4所述的基于图卷积神经网络的临床事件预测装置,其特征在于,利用如下公式对得到的所述临床事件进行解释:
其中,IG scorei表示所述临床事件与第i个目标生物学通路图或者第i个医学临床特征之间的相关度;Si表示对第i个目标生物学通路图的进行特征提取得到的特征标量或者第i个医学临床特征,S′i表示对第i个目标生物学通路图或者第i个医学临床特征计算的基准;表示积分,f表示积分梯度算法中构建的人工智能模型,α表示积分梯度算法的变量。
6.如权利要求1所述的基于图卷积神经网络的临床事件预测装置,其特征在于,所述每个基因的表达量信息通过对患者病灶处的细胞进行基因测序获得。
7.一种电子设备,其特征在于,包括如权利要求1至6任一项所述的基于图卷积神经网络的临床事件预测装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210384718 | 2022-04-13 | ||
CN202210384718X | 2022-04-13 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114822691A CN114822691A (zh) | 2022-07-29 |
CN114822691B true CN114822691B (zh) | 2024-06-11 |
Family
ID=82535952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210397115.3A Active CN114822691B (zh) | 2022-04-13 | 2022-04-15 | 基于图卷积神经网络的临床事件预测装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822691B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
CN112907555A (zh) * | 2021-03-11 | 2021-06-04 | 中国科学院深圳先进技术研究院 | 一种基于影像基因组学的生存预测方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100494387C (zh) * | 2005-12-29 | 2009-06-03 | 上海交通大学 | 提高长春花毛状根萜类吲哚生物碱含量的方法 |
CN1807631A (zh) * | 2006-01-12 | 2006-07-26 | 上海交通大学 | 用转录因子提高长春花毛状根萜类吲哚生物碱含量的方法 |
CN113362963B (zh) * | 2021-05-27 | 2024-04-02 | 山东师范大学 | 基于多源异构网络的预测药物之间副作用的方法及系统 |
-
2022
- 2022-04-15 CN CN202210397115.3A patent/CN114822691B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636061A (zh) * | 2018-12-25 | 2019-04-16 | 深圳市南山区人民医院 | 医保欺诈预测网络的训练方法、装置、设备及存储介质 |
CN112907555A (zh) * | 2021-03-11 | 2021-06-04 | 中国科学院深圳先进技术研究院 | 一种基于影像基因组学的生存预测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114822691A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10470659B2 (en) | Systems, methods, and computer-readable media for gene and genetic variant prioritization | |
CN110021364B (zh) | 基于病人临床症状数据和全外显子组测序数据筛选单基因遗传病致病基因的分析检测系统 | |
CN111710420B (zh) | 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质 | |
CN111933281B (zh) | 一种疾病分型的确定系统、方法、装置及存储介质 | |
US12046368B2 (en) | Methods for treatment of inflammatory bowel disease | |
Siu et al. | Predicting the need for intubation in the first 24 h after critical care admission using machine learning approaches | |
WO2021247819A1 (en) | Electronic health record (ehr)-based classifier for acute respiratory distress syndrome (ards) subtyping | |
US20210104330A1 (en) | Systems and methods for generating a genotypic causal model of a disease state | |
Park et al. | Deep learning on time series laboratory test results from electronic health records for early detection of pancreatic cancer | |
Chi et al. | Deep semisupervised multitask learning model and its interpretability for survival analysis | |
Bai et al. | Using machine learning for the early prediction of sepsis-associated ARDS in the ICU and identification of clinical phenotypes with differential responses to treatment | |
EP4035163A1 (en) | Single cell rna-seq data processing | |
CN114822691B (zh) | 基于图卷积神经网络的临床事件预测装置 | |
CN114613498B (zh) | 一种基于机器学习的辅助mdt临床决策方法、系统及设备 | |
Koloi et al. | Predicting early-stage coronary artery disease using machine learning and routine clinical biomarkers improved by augmented virtual data | |
CN116597902B (zh) | 基于药物敏感性数据的多组学生物标志物筛选方法和装置 | |
Schreidah et al. | Current status of artificial intelligence methods for skin cancer survival analysis: a scoping review | |
CN116631572B (zh) | 基于人工智能的急性心肌梗死临床决策支持系统及设备 | |
US12142380B2 (en) | Method and an apparatus for building a longevity profile | |
CN117497182B (zh) | 基于机器学习及体征时序的创伤性脑损伤结局预测系统 | |
CN116994653B (zh) | 脓毒症诊断模型构建方法、化合物筛选方法及电子设备 | |
Barzola-Monteses et al. | Prognostic Precision for Crohn’s Disease Patients through Machine Learning Predictive Models | |
Vellido et al. | Machine learning for critical care: an overview and a Sepsis case study | |
Roth Cardoso | Enabling cardiovascular multimodal, high dimensional, integrative analytics | |
Patil et al. | Design and Development of Lung Cancer Prediction Model for Performance Enhancement Using Boosting Ensembled Machine Learning Classifiers with Shuffle-Split Cross Validations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |