CN117789823B - 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 - Google Patents
病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN117789823B CN117789823B CN202410214515.5A CN202410214515A CN117789823B CN 117789823 B CN117789823 B CN 117789823B CN 202410214515 A CN202410214515 A CN 202410214515A CN 117789823 B CN117789823 B CN 117789823B
- Authority
- CN
- China
- Prior art keywords
- mutation
- pathogen
- evolution
- genome
- mutations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 371
- 244000052769 pathogen Species 0.000 title claims abstract description 145
- 230000001717 pathogenic effect Effects 0.000 title claims abstract description 126
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000005259 measurement Methods 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 46
- 238000012216 screening Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 15
- 150000001413 amino acids Chemical class 0.000 claims description 13
- 238000003908 quality control method Methods 0.000 claims description 13
- 239000002773 nucleotide Substances 0.000 claims description 12
- 125000003729 nucleotide group Chemical group 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 230000014759 maintenance of location Effects 0.000 claims description 6
- 230000002068 genetic effect Effects 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 108020004705 Codon Proteins 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 10
- 238000011158 quantitative evaluation Methods 0.000 abstract 1
- 238000005065 mining Methods 0.000 description 12
- 244000000010 microbial pathogen Species 0.000 description 10
- 241000711573 Coronaviridae Species 0.000 description 6
- 108010061994 Coronavirus Spike Glycoprotein Proteins 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 229940096437 Protein S Drugs 0.000 description 5
- 101710198474 Spike protein Proteins 0.000 description 5
- 230000007614 genetic variation Effects 0.000 description 5
- 238000002864 sequence alignment Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000002195 synergetic effect Effects 0.000 description 3
- 102220642430 Spindlin-1_P681R_mutation Human genes 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002887 multiple sequence alignment Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102220487747 Protein eyes shut homolog_T29A_mutation Human genes 0.000 description 1
- 102220592182 Spindlin-1_A222V_mutation Human genes 0.000 description 1
- 102220599680 Spindlin-1_A570D_mutation Human genes 0.000 description 1
- 102220590697 Spindlin-1_A67V_mutation Human genes 0.000 description 1
- 102220599612 Spindlin-1_A701V_mutation Human genes 0.000 description 1
- 102220599400 Spindlin-1_D1118H_mutation Human genes 0.000 description 1
- 102220590682 Spindlin-1_D138Y_mutation Human genes 0.000 description 1
- 102220592185 Spindlin-1_D215G_mutation Human genes 0.000 description 1
- 102220590548 Spindlin-1_D253G_mutation Human genes 0.000 description 1
- 102220599672 Spindlin-1_D614G_mutation Human genes 0.000 description 1
- 102220599604 Spindlin-1_D796Y_mutation Human genes 0.000 description 1
- 102220599627 Spindlin-1_D950N_mutation Human genes 0.000 description 1
- 102220599659 Spindlin-1_E484A_mutation Human genes 0.000 description 1
- 102220599656 Spindlin-1_E484K_mutation Human genes 0.000 description 1
- 102220590696 Spindlin-1_G142D_mutation Human genes 0.000 description 1
- 102220590551 Spindlin-1_G339D_mutation Human genes 0.000 description 1
- 102220599654 Spindlin-1_G446S_mutation Human genes 0.000 description 1
- 102220599675 Spindlin-1_G496S_mutation Human genes 0.000 description 1
- 102220599401 Spindlin-1_H1101Y_mutation Human genes 0.000 description 1
- 102220599673 Spindlin-1_H655Y_mutation Human genes 0.000 description 1
- 102220590604 Spindlin-1_K417N_mutation Human genes 0.000 description 1
- 102220590605 Spindlin-1_K417T_mutation Human genes 0.000 description 1
- 102220590628 Spindlin-1_L18F_mutation Human genes 0.000 description 1
- 102220599422 Spindlin-1_L452R_mutation Human genes 0.000 description 1
- 102220599628 Spindlin-1_L981F_mutation Human genes 0.000 description 1
- 102220590546 Spindlin-1_N440K_mutation Human genes 0.000 description 1
- 102220599406 Spindlin-1_N501Y_mutation Human genes 0.000 description 1
- 102220599613 Spindlin-1_N679K_mutation Human genes 0.000 description 1
- 102220599606 Spindlin-1_N764K_mutation Human genes 0.000 description 1
- 102220599641 Spindlin-1_N856K_mutation Human genes 0.000 description 1
- 102220599633 Spindlin-1_N969K_mutation Human genes 0.000 description 1
- 102220590625 Spindlin-1_P26S_mutation Human genes 0.000 description 1
- 102220599657 Spindlin-1_Q493R_mutation Human genes 0.000 description 1
- 102220599684 Spindlin-1_Q613H_mutation Human genes 0.000 description 1
- 102220599614 Spindlin-1_Q677H_mutation Human genes 0.000 description 1
- 102220599634 Spindlin-1_Q954H_mutation Human genes 0.000 description 1
- 102220592191 Spindlin-1_R190S_mutation Human genes 0.000 description 1
- 102220592232 Spindlin-1_R346K_mutation Human genes 0.000 description 1
- 102220590680 Spindlin-1_S13I_mutation Human genes 0.000 description 1
- 102220590565 Spindlin-1_S371L_mutation Human genes 0.000 description 1
- 102220590606 Spindlin-1_S373P_mutation Human genes 0.000 description 1
- 102220590601 Spindlin-1_S375F_mutation Human genes 0.000 description 1
- 102220599655 Spindlin-1_S477N_mutation Human genes 0.000 description 1
- 102220599635 Spindlin-1_S982A_mutation Human genes 0.000 description 1
- 102220599630 Spindlin-1_T1027I_mutation Human genes 0.000 description 1
- 102220590621 Spindlin-1_T19R_mutation Human genes 0.000 description 1
- 102220590630 Spindlin-1_T20N_mutation Human genes 0.000 description 1
- 102220599660 Spindlin-1_T478K_mutation Human genes 0.000 description 1
- 102220599679 Spindlin-1_T547K_mutation Human genes 0.000 description 1
- 102220599611 Spindlin-1_T716I_mutation Human genes 0.000 description 1
- 102220599642 Spindlin-1_T859N_mutation Human genes 0.000 description 1
- 102220590684 Spindlin-1_T95I_mutation Human genes 0.000 description 1
- 102220599418 Spindlin-1_V1176F_mutation Human genes 0.000 description 1
- 102220592204 Spindlin-1_W152C_mutation Human genes 0.000 description 1
- 102220599683 Spindlin-1_Y505H_mutation Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 102200032985 rs104894968 Human genes 0.000 description 1
- 102220103674 rs147911699 Human genes 0.000 description 1
- 102220282987 rs1555618704 Human genes 0.000 description 1
- 102220039285 rs199473349 Human genes 0.000 description 1
- 102200037714 rs2655655 Human genes 0.000 description 1
- 102220024392 rs267607495 Human genes 0.000 description 1
- 102200118205 rs33990858 Human genes 0.000 description 1
- 102220005147 rs34173382 Human genes 0.000 description 1
- 102220036433 rs35389822 Human genes 0.000 description 1
- 102220081228 rs372168541 Human genes 0.000 description 1
- 102220106470 rs569543350 Human genes 0.000 description 1
- 102200110418 rs570878629 Human genes 0.000 description 1
- 102200004660 rs62638628 Human genes 0.000 description 1
- 102220001216 rs74315456 Human genes 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物信息学领域中病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备,针对由基因组数据挖掘协同演化突变簇依赖人工实现的问题,本发明的病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备,主要包括:基于指定的病原体种类收集病原体的基因组数据,将基因组序列描述为突变组合的形式;对突变进行向量化描述,然后进行向量的相似度度量,挖掘显著的协同演化关系;构建协同突变关系网,识别协同演化突变簇。本发明基于生物信息学与数据挖掘算法对突变之间的协同演化水平进行量化评估,识别出协同演化突变簇。
Description
技术领域
本发明涉及生物信息学领域中病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备。
背景技术
病原体指的是可以对人或动植物造成感染疾病的微生物,包括细菌、真菌、病毒等。病原体数据分析是借助生物信息学、数据挖掘等领域的分析方法,研究病原体遗传变异与生物特性,从数据的角度描述并挖掘病原体相关数据规律的方法。
在病原体遗传演化过程中,常常会发生遗传变异,称为“突变”或“变异”。突变会对病原体功能蛋白的表达产生影响,进而在传播能力、致病性等方面的病原适应性产生影响,且不同突变可能会相互协作进而对病原体的适应性产生进一步叠加增强的影响。所以,虽然突变是遗传演化过程中基于某些偶然因素引发的,但由于突变对病原体的影响效应,病原体的突变分布往往并不是完全随机的,而是存在一定协同演化的现象。这些协同演化的突变,往往会同时出现,形成彼此协同演化的突变集群(簇),即协同演化突变簇。
协同演化突变簇的挖掘是病原体分析领域中的核心技术之一。对于某类给定的病原微生物,它基于生物基因序列等数据,通过对不同遗传变异在病原微生物中的分布进行描述与比较,量化评估各突变之间的分布一致性,进而挖掘出协同演化出现的协同演化突变簇。协同演化突变簇的挖掘有助于对亚型变体毒株的遗传变异分析,为后续常见亚型突变分布、重点亚型病原体的检测监控、对关键亚型毒株的特效药与抗体开发提供数据理论基础,相关应用十分广泛。
现有的主流协同演化突变簇的挖掘技术,一般是对病原微生物的常见突变组合进行简单的统计。具体而言,这类技术是在给定的可观测病原体数据样本的基础上,整理统计出较为常见的突变组合,然后人工确定可能的协同演化突变簇。这类分析挖掘技术具有一定有效性,但往往基于人工对当前样本数据中突变组合的归纳统计,一方面在人工观察的衡量水平上,具有较强的主观性,难以客观完全地进行协同突变统计与挖掘,其结果的可靠性也就受到了一定程度的制约;另一方面,面对以新冠病毒为代表的病原微生物,基因组数据可能高达上千万条之多,传统的人工统计评估方法在人力成本上的执行开销将会极为庞大,可行性不高,且会进一步影响协同演化突变簇挖掘结果的可靠性。所以,现有病原体协同演化突变簇的挖掘方法,在人工归纳统计的方面受到了多方面的限制与局限,这严重影响了该技术在在后续研究与应用中的使用。
发明内容
发明目的:本发明针对现有技术中,由基因组数据挖掘协同演化突变簇依赖人工实现的问题,提供一种病原体基因组协同演化突变簇的识别方法,基于生物信息学与数据挖掘算法对突变之间的协同演化水平进行量化评估,识别出协同演化突变簇。
本发明的另一个目的在于提供一种病原体基因组协同演化突变簇的识别装置。
本发明的再一个目的在于提供一种非暂态计算机可读存储介质。
本发明的再一个目的在于提供一种电子设备。
技术方案:为了达到上述的目的,本发明一方面提供一种病原体基因组协同演化突变簇的识别方法,包括步骤:
S100、基于指定的病原体种类,收集该种类中多种病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
S200、分析质量控制后的各病原体基因组序列,将各病原体基因组序列以突变组合的形式表达;筛选保留其中常见的突变组合;
S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
S500、基于显著的突变两两协同演化关系构建突变协同网络,采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,该突变聚类对应具有显著协同演化关系的突变集群,即为协同演化突变簇。
本发明的识别方法针对给定的一类病原微生物,收集病原体的基因组数据,使用生物信息学工具分析病原体的突变数据,对各个突变在病原微生物上的分布情况进行向量化,基于向量相似度对突变之间的协同一致性进行量化评估,并基于数据挖掘相关方法挖掘协同演化突变簇。
作为优选地,根据上述的病原体基因组协同演化突变簇的识别方法,步骤S100中所述基于指定的病原体种类,收集病原体基因组数据,具体方法为:
对于给定的某类病原微生物,首先在NCBI、GISAID等在线公共数据库或在本地基因组数据库上,收集整理该病原体基因组数据。
作为优选地,对于每个病原体数据,需要基于一定的质量控制标准,考察基因组序列质量,只保留高质量的基因组数据。因此,步骤S100中所述对各病原体基因组序列数据进行质量控制的具体方法为:
收集该病原体的参考基因组序列,参考基因组序列的核苷酸总长度记为 ,逐一考察并筛选各个病原体基因组序列的数据质量。对某一病原体基因组序列,假设序列的总长度为/>序列中ACGT四种核苷酸以外的其它字符(非法字符)总数为/>,按照以下标准,逐一考察并筛选各病原体基因组序列的数据质量:
(1)病原体基因组序列相对于参考基因组序列,其序列完整程度,其中完整程度/>的计算公式如下:
;
(2)病原体基因组序列的非法字符比率,其中非法字符比率的计算公式如下:
;
满足上述质量控制标准的序列,视为满足质量要求的高质量基因组序列,用做后续数据处理,其余不满足标准的低质量序列数据舍弃。
作为优选地,根据上述的病原体基因组协同演化突变簇的识别方法,步骤S200中所述分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达,具体方法为:
收集该种类病原体的参考基因组序列,根据参考基因组序列,采用多序列比对算法对各病原体基因组序列进行序列比对,识别每一条病原体序列自身相较于参考基因组序列的核苷酸变异,将每一条病原体序列都表达为相较于参考基因组序列的突变组合的形式。
多序列比对算法对基因组数据进行序列比对,可以采用的方法包括Clustal W算法、MAFFT算法、MUSCLE算法在内的各种多序列比对算法。
通过序列比对,本方法能够识别每一条病原体序列自身相较于参考基因组序列的核苷酸变异。需要说明的是,如若研究的是氨基酸变异,则基于氨基酸密码子表,能够将核苷酸变异转换为氨基酸变异,在此基础上能够进一步研究氨基酸突变。
作为优选地,步骤S200中所述筛选保留其中常见的突变组合的方法为:
对前述步骤得到的突变组合进行统计整理。对所有出现过的突变组合,统计其在全部基因组范围中出现的频数,并进行筛选。对某一个突变组合,其由个突变(/>)组成,要求其频数/>需要满足/>,其中/>为该病原微生物遗传研究中突变组合频数的最低门限值,具体取值与病原微生物的种类以及当前基因组序列的数据规模有关。丢弃不满足频数要求的低频(非主流)突变组合,仅对满足频数要求的突变组合予以保留。在选定了突变组合的研究范围后,本发明后续针对的突变范围也确定为突变组合中包含的所有突变。
作为优选地,根据上述的病原体基因组协同演化突变簇的识别方法,步骤S300中所述将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述,包括:
设定前一步骤共保留有个不同的突变组合,依次记为/>;
对某一个突变,依次考察其在各个突变组合中存在与否的情况,得到长度为的特征向量/>:如若/>存在于某个突变组合/>,则特征向量/>中对应的第/>号元素为标记为1,如不存在则标记为0;
即为描述突变/>在/>在个突变组合中突变分布情况的特征向量。
基于上述方法,对每一个突变,都能获取一个对应的、能够反映该突变分布情况的特征向量,后续将通过计算特征向量之间的相似度来衡量突变之间的协同演化水平。
作为优选地,根据上述的病原体基因组协同演化突变簇的识别方法,由于上一步中,各个突变都具有了描述各自突变分布的特征向量,故可以通过对任意两个特征向量进行相似度度量,量化评估对应两个突变分布之间在病原体常见基因组序列中的分布一致性,进而研究对应两个突变之间的协同演化水平。因此步骤S400中对特征向量之间的相似度进行度量采用余弦相似度计算方法,由于余弦相似度计算相对直观,故采用余弦相似度进行特征向量的相似度计算。需要注意的是,常见的向量相似度度量包括余弦相似度以及其他计算方法,其他相似度计算也可以在本方法中采用。
在对特征向量进行两两的余弦相似度度量后,相似度可以反映对应两个突变之间的协同演化水平。之后,基于相似度度量值,挖掘显著的协同演化关系。具体方法为,选取所有相似度中最高的前若干名,其对应突变之间的量化协同演化水平是最高的一批,因而对应突变之间具有较为显著的协同关系。相似度取值可以是前2%、前1%、前0.5%,具体取值根据病原体种类与具体相似度取值分布来决定。
需要注意的是,由于余弦相似度计算的机制,当一个突变特征向量自身对自身进行余弦相似度计算时,相似度为最高值1。这种特殊情况,虽然相似度值的计算是合理的,但对后续突变之间的协同演化分析毫无意义,故需要额外将这种自身对自身的相似度强制取0,以便在选取最高相似度值时直接排除这部分结果。
作为优选地,根据上述的病原体基因组协同演化突变簇的识别方法,步骤S500中所述基于显著的突变两两协同演化关系构建突变协同网络,具体方法为:以节点表示一个特定突变、以节点之间的连边表示对应两个突变之间的协同演化关系,以此构建出反映突变之间协同演化关系的网络结构;
采用图聚类方法检测该突变协同网络,在突变协同网络上,存在若干内部紧密连接的节点组成的节点聚类,每个节点聚类均对应一个具有显著协同演化关系的突变集群,即为协同演化突变簇。
在数据挖掘中,检测网络结构(图结构)中内部紧密连接的节点聚类的方法就是图聚类算法。常见的图聚类算法如标签传播算法(Label Propagation Algorithm)、基于模块度的算法(Modularity)等,都能够有效实现这该功能。本发明基于突变协同网络,通过使用相关图聚类算法,能够挖掘出对应内部连接的节点聚类,即为所求的协同演化突变簇。
本发明另一方面,提供一种病原体基因组协同演化突变簇的识别装置,包括:
数据收集模块,用于收集指定的病原体种类下病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
突变检测模块,用于分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;还用于筛选保留其中常见的突变组合;
向量化描述模块,用于将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
相似度度量模块,用于对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
突变簇检测模块,用于以显著的突变两两协同演化关系构建突变协同网络,并采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,识别协同演化突变簇。
本发明再一方面,提供一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令使计算机执行上述的病原体基因组协同演化突变簇的识别方法。
本发明再一方面,提供一种电子设备,包括处理器、通信接口、存储器和通信总线;
其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
处理器用于调用存储器中的逻辑指令,以执行上述的病原体基因组协同演化突变簇的识别方法。
本发明基于指定的病原体种类,收集病原体的基因组数据,同时进行病原体序列数据的质量控制,筛选保留其中高质量的基因组序列数据。然后,基于病原体参考株序列,对收集的基因组序列数据进行多序列比对,对比检测出各个病原体的遗传变异,将各个病原体基因组序列表达为(相较于参考基因组序列的)突变组合的形式。第三,本方法针对各个病原体对应的突变组合,进行统计整理,筛选保留常见的突变组合与突变,然后对各个突变进行突变分布的向量化描述,用向量来表述各个突变在所有突变组合中的分布情况。第四,对突变进行对应向量之间相似度度量,量化评估突变之间的分布一致性与协同演化水平,挖掘显著的协同演化关系。最后,基于显著的协同演化关系构建协同突变关系网,使用图聚类技术挖掘网络数据,将彼此紧密协同的突变识别为集群,即为协同演化突变簇。
有益效果
1、本发明基于生物信息学与数据挖掘算法,利用病原微生物基因组数据,对基因组突变的分布情况进行向量化表征,量化评估基因组突变之间的协同演化水平,从中筛选显著的协同演化关系并构建协同演化网络,使用图聚类方法挖掘病原体基因组协同演化突变簇,为后续的生物学研究应用提供重要的数据支持。
2、本发明避免了传统方法中人工归纳统计方法在病原体基因组协同演化突变簇挖掘中的主观性问题,使用向量相似度等手段对基因组突变之间的协同演化水平进行量化评估,通过图聚类的算法在协同演化网络中挖掘协同演化突变簇,数据分析结果更加客观、可靠;
3、本发明避免了传统方法中人工统计评估方法在人力成本上的执行开销过大、可行性不高的局限性问题,基于数据挖掘中的相关工具对基因组数据进行批量分析与处理,能够有效应对千万余条大规模基因组数据,高效准确的完成对病原体基因组协同演化突变簇的分析挖掘任务。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做出简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为挖掘病原体基因组协同演化突变簇的方法基本流程的示意图;
图2为实施例中图聚类算法进行聚类后的协同关系网络图;
图3为实施例中各协同演化突变簇及其对应分布的亚型谱系毒株统计图;
图4为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,它们不应该理解成对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
下面结合图1-图4描述本发明提供的病原体基因组协同演化突变簇的识别方法与识别装置。
本实施例提供一种病原体基因组协同演化突变簇的识别方法,包括步骤:
S100、基于指定的病原体种类,收集病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
S200、分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;筛选保留其中常见的突变组合;
S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
S500、基于显著的突变两两协同演化关系构建突变协同网络,采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,该突变聚类对应具有显著协同演化关系的突变集群,即为协同演化突变簇。
本实施例中以该识别方法在挖掘新型冠状病毒Spike蛋白突变协同演化突变簇的应用作为实例,对该识别方法进行详细说明。
旨在通过本方法,评估并筛选新冠病毒Spike蛋白突变(氨基酸突变)中具有较高协同演化水平的协同演化突变簇。
S100、基于指定的病原体种类,收集病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制。
在GISAID在线数据库上下载公开新冠病毒Spike蛋白基因组序列数据,将2020年1月20日至2023年1月1日这三年内的新冠病毒Spike蛋白序列下载到本地,作为本案例中的病毒基因组数据。
在基因组序列数据的质量控制阶段,首先在NCBI网站下载新冠病毒GenBank序列号NC_045512的Spike蛋白序列作为参考基因组序列。然后根据序列完整程度与非法字符比率/>这两个标准,筛选保留高质量的序列数据,最终保留约1100万条新冠病毒高质量Spike蛋白序列数据。
序列完整程度,非法字符比率的获取方式为,将参考基因组序列的核苷酸总长度记为/>,新冠病毒Spike蛋白基因组序列的总长度为/>,序列中ACGT四种核苷酸以外的非法字符总数为/>。
则,完整程度的计算公式为:
;
非法字符比率的计算公式为:
。
S200、分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达。
将上一步中获取的新冠病毒Spike蛋白序列与参考基因组序列进行多序列比对,比对算法选取MAFFT算法,算法参数设置选取为默认设置。在此基础上,比对出每个Spike蛋白序列相对于参考基因组序列的核苷酸突变。根据氨基酸密码子表,将核苷酸突变翻译转换为对应的氨基酸突变。最终,将每个病原体数据的Spike蛋白序列表达为氨基酸突变组合的形式。
需要说明的是,多序列比对算法可以采用Clustal W算法、MAFFT算法以及MUSCLE算法其中一种,本实施例选取MAFFT算法,在一些实施例中也可以采用另外的两种算法。
筛选保留其中常见的突变组合。
对氨基酸突变组合进行统计分析,统计各突变组合在全部基因组范围中出现的频数,并进行筛选。对于突变组合,如若该突变组合的频数/>满足/>的标准,则予以保留;否则该突变组合将被删除。在本实例中,由于新冠病毒总的基因组序列数较多,门限值/>取值/>。在该标准下进行筛选,保留突变组合共271种。其中突变组合为空时表示不含变异(即与参考基因组序列一致)。在此基础上,本实例中选取该271种突变组合中的所有突变作为突变的研究范围,共保留了154个氨基酸突变,具体为:A1078S、A222V、A262S、A27-、A27S、A570D、A67-、A67V、A688V、A701V、A879S、D1118H、D1259Y、D138H、D138Y、D215G、D253G、D405N、D614G、D796Y、D80G、D80Y、D950H、D950N、E154-、E156-、E156G、E484A、E484K、E583D、F157-、F157S、F486V、G1124V、G1167V、G142-、G142D、G181V、G339D、G446S、G496S、G769V、H1101Y、H49Y、H655Y、H69-、I1081V、I68-、I68T、I68V、I850L、K1191N、K417N、K417T、K77T、L1141F、L18F、L212-、L212I、L24-、L24S、L452Q、L452R、L54F、L5F、L981F、M1237I、M153T、N1074S、N211-、N439K、N440K、N501Y、N679K、N764K、N856K、N969K、P1162S、P25-、P251L、P26-、P26S、P272L、P681H、P681R、P809S、Q493R、Q498R、Q613H、Q675H、Q677H、Q954H、Q957R、R158-、R158G、R190S、R214-、R214E、R346K、R408S、S112L、S12F、S13I、S155-、S221L、S371F、S371L、S373P、S375F、S477N、S494P、S704L、S939F、S982A、S98F、T1027I、T19I、T19R、T20I、T20N、T250I、T299I、T29A、T376A、T478K、T547K、T572I、T716I、T732A、T859I、T859N、T95I、V1104L、V1176F、V1228L、V1264L、V143-、V213-、V213G、V213L、V289I、V36F、V70-、V70I、W152C、W152L、W152R、W258L、Y144-、Y144V、Y145-、Y145D、Y145H、Y505H。
S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
在确定了突变组合及其突变的研究范围后,对每个突变都进行向量化表述,描述各个突变在所有突变组合中的分布情况。每个突变都得到了一个长度为271的0与1组成的特征向量,其中特征向量的每个元素都表征该突变在对应突变组合中的存在与否情况,1表示存在,0表示不存在。
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
计算任意两个突变对应的两个特征向量之间的余弦相似度,来量化评估两个突变之间的协同演化水平。
基于余弦相似度的计算结果,对计算得出的余弦相似度进行排序,在所有相似度中选取最大的前2%相似度,认为这些高相似度对应的突变关系具有较为显著的协同关系。需要注意的是,对于任意两个突变与/>,对应/>与/>两个向量在计算余弦相似度时,在余弦相似度公式中前后顺序并不影响最终计算结果,两种计算情况的取值一样。故前述保留的154个突变,在有效的相似度结果中选取最大的前2%相似度,即为154×154÷2×2%≈237个最高的余弦相似度,对应着237个显著的协同演化关系。
S500、基于显著的突变两两协同演化关系构建突变协同网络。
基于挖掘出的突变的协同演化关系,以突变为点,以协同演化关系为边,构建出协同关系网络。
针对构建出的网络,使用数据挖掘中的图聚类算法将彼此紧密连接的突变节点聚类为协同演化突变簇。本实例中,使用基于模块度的图聚类算法进行聚类。最终的协同关系网络及其协同演化突变簇结果参见图2,图2中为了直观展示结果只保留了不少于三个点的社区。
最终挖掘出的新冠病毒Spike蛋白上协同演化突变簇。通过对突变在新冠常见亚型毒株中的分布进行分析,发现同一协同演化突变簇内部的突变具有高度相似的亚型谱系毒株分布,各协同演化突变簇及其对应分布的亚型谱系毒株都在图3的统计表中进行展示。由此可见,新冠病毒亚型谱系毒株内部的变异,具有较高的协同演化水平、包含一定数量与规模的协同演化突变簇。该现象与新冠病毒整体亚型谱系内的突变分布情况相一致,侧面印证了本发明的方法应用在本实例上的结果可靠性。
本实施例提供一种病原体基因组协同演化突变簇的识别装置,包括:
数据收集模块,用于收集指定的病原体种类下病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
突变检测模块,用于分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;还用于筛选保留其中常见的突变组合;
向量化描述模块,用于将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
相似度度量模块,用于对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
突变簇检测模块,用于以显著的突变两两协同演化关系构建突变协同网络,并采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,识别协同演化突变簇。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行病原体基因组协同演化突变簇的识别方法,该方法包括:
S100、基于指定的病原体种类,收集病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
S200、分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;筛选保留其中常见的突变组合;
S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
S500、基于显著的突变两两协同演化关系构建突变协同网络,采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,该突变聚类对应具有显著协同演化关系的突变集群,即为协同演化突变簇。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令使计算机执行病原体基因组协同演化突变簇的识别方法,该方法包括:
S100、基于指定的病原体种类,收集病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
S200、分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;筛选保留其中常见的突变组合;
S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
S500、基于显著的突变两两协同演化关系构建突变协同网络,采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,该突变聚类对应具有显著协同演化关系的突变集群,即为协同演化突变簇。
本发明还提供一种电子设备,图4示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行病原体基因组协同演化突变簇的识别方法,该方法包括:
S100、基于指定的病原体种类,收集病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
S200、分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;筛选保留其中常见的突变组合;
S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述;
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
S500、基于显著的突变两两协同演化关系构建突变协同网络,采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,该突变聚类对应具有显著协同演化关系的突变集群,即为协同演化突变簇。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种病原体基因组协同演化突变簇的识别方法,其特征在于,包括步骤:
S100、基于指定的病原体种类,收集病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
S200、分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;筛选保留其中常见的突变组合;
S300、将保留的突变组合中每个突变均以反映每个突变在所述保留的突变组合中突变分布情况的特征向量来描述;
S400、通过对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
S500、基于显著的突变两两协同演化关系构建突变协同网络,采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,该突变聚类对应具有显著协同演化关系的突变集群,即为协同演化突变簇;
其中,步骤S200中分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达,具体方法为:
收集该病原体的参考基因组序列,根据参考基因组序列,采用多序列比对算法对各病原体基因组序列进行序列比对,识别每一条病原体序列自身相较于参考序列的核苷酸变异,将每一条病原体序列都表达为相较于参考序列的突变组合的形式;
步骤S200中筛选保留其中常见的突变组合的方法为:
设定某一个突变组合,其由/>个突变(/>)组成,要求其频数/>需要满足/>,其中/>为该病原体遗传研究中突变组合频数的最低门限值,具体取值根据病原体的种类以及当前基因组序列的数据规模确定;
对每个突变组合,统计其在全部基因组范围中出现的频数,保留其中频数满足要求的突变组合;
步骤S300中将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述,包括:
设定前一步骤共保留有个不同的突变组合,依次记为/>;
对某一个突变,依次考察其在各个突变组合中存在与否的情况,得到长度为/>的特征向量/>:如若/>存在于某个突变组合/>,则特征向量/>中对应的第/>号元素为标记为1,如不存在则标记为0;
即为描述突变/>在/>个突变组合中突变分布情况的特征向量。
2.根据权利要求1所述的病原体基因组协同演化突变簇的识别方法,其特征在于,在分析氨基酸变异时,基于氨基酸密码子表,将核苷酸变异转换为氨基酸变异,用于后续识别氨基酸的协同演化突变簇。
3.根据权利要求1所述的病原体基因组协同演化突变簇的识别方法,其特征在于,步骤S400中对特征向量之间的相似度进行度量,采用余弦相似度计算方法,全部计算完成后,获得相似度排名,取排名最高的前若干名作为显著的突变两两协同演化关系,取值范围根据病原体种类与具体相似度取值分布确定。
4.根据权利要求3所述的病原体基因组协同演化突变簇的识别方法,其特征在于,步骤S500中基于显著的突变两两协同演化关系构建突变协同网络,包括:以节点表示一个特定突变,以节点之间的连边表示对应两个突变之间的协同演化关系,以此构建出反映突变之间协同演化关系的网络结构;
采用图聚类方法检测该突变协同网络,在突变协同网络上,存在若干内部紧密连接的节点组成的节点聚类,每个节点聚类均对应一个具有显著协同演化关系的突变集群,即为协同演化突变簇。
5.一种病原体基因组协同演化突变簇的识别装置,其特征在于,包括:
数据收集模块,用于收集指定的病原体种类下病原体基因组序列数据,并对各病原体基因组序列数据进行质量控制;
突变检测模块,用于分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达;还用于筛选保留其中常见的突变组合;
向量化描述模块,用于将保留的突变组合中每个突变均以反映每个突变在所述保留的突变组合中突变分布情况的特征向量来描述;
相似度度量模块,用于对特征向量之间的相似度进行度量,量化评估突变之间的分布一致性与协同演化水平,筛选出显著的突变两两协同演化关系;
突变簇检测模块,用于以显著的突变两两协同演化关系构建突变协同网络,并采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类,识别协同演化突变簇;
其中,突变检测模块分析各个病原体的突变数据,将各病原体基因组序列以突变组合的形式表达,具体方法为:
收集该病原体的参考基因组序列,根据参考基因组序列,采用多序列比对算法对各病原体基因组序列进行序列比对,识别每一条病原体序列自身相较于参考序列的核苷酸变异,将每一条病原体序列都表达为相较于参考序列的突变组合的形式;
突变检测模块筛选保留其中常见的突变组合的方法为:
设定某一个突变组合,其由/>个突变(/>)组成,要求其频数/>需要满足/>,其中/>为该病原体遗传研究中突变组合频数的最低门限值,具体取值根据病原体的种类以及当前基因组序列的数据规模确定;
对每个突变组合,统计其在全部基因组范围中出现的频数,保留其中频数满足要求的突变组合;
向量化描述模块中将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述,包括:
设定前一步骤共保留有个不同的突变组合,依次记为/>;
对某一个突变,依次考察其在各个突变组合中存在与否的情况,得到长度为/>的特征向量/>:如若/>存在于某个突变组合/>,则特征向量/>中对应的第/>号元素为标记为1,如不存在则标记为0;
即为描述突变/>在/>个突变组合中突变分布情况的特征向量。
6.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线;
其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
处理器用于调用存储器中的逻辑指令,以执行权利要求1-4任意一项所述的病原体基因组协同演化突变簇的识别方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机指令,该计算机指令使计算机执行权利要求1-4任意一项所述的病原体基因组协同演化突变簇的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410214515.5A CN117789823B (zh) | 2024-02-27 | 2024-02-27 | 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410214515.5A CN117789823B (zh) | 2024-02-27 | 2024-02-27 | 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117789823A CN117789823A (zh) | 2024-03-29 |
CN117789823B true CN117789823B (zh) | 2024-06-04 |
Family
ID=90389614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410214515.5A Active CN117789823B (zh) | 2024-02-27 | 2024-02-27 | 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117789823B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074429A (zh) * | 2016-04-20 | 2018-12-21 | 华为技术有限公司 | 基因组变异检测方法、装置及终端 |
CN109906276A (zh) * | 2016-11-07 | 2019-06-18 | 格里尔公司 | 用于检测早期癌症中体细胞突变特征的识别方法 |
CN112951323A (zh) * | 2019-12-11 | 2021-06-11 | 中国科学院昆明动物研究所 | 一种度量个体水平遗传及突变多样性、相似性的概念和方法 |
CN114898803A (zh) * | 2022-05-27 | 2022-08-12 | 圣湘生物科技股份有限公司 | 突变检测分析的方法、设备、可读介质及装置 |
CN115240764A (zh) * | 2021-04-25 | 2022-10-25 | 中国科学院宁波材料技术与工程研究所慈溪生物医学工程研究所 | 一种肿瘤基因检测系统及数据处理方法 |
CN116741268A (zh) * | 2023-04-04 | 2023-09-12 | 中国人民解放军军事科学院军事医学研究院 | 筛选病原体关键突变的方法、装置及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2022005698A (es) * | 2019-11-12 | 2022-08-17 | Regeneron Pharma | Metodos y sistemas para identificar, clasificar y/o categorizar secuencias geneticas. |
-
2024
- 2024-02-27 CN CN202410214515.5A patent/CN117789823B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109074429A (zh) * | 2016-04-20 | 2018-12-21 | 华为技术有限公司 | 基因组变异检测方法、装置及终端 |
CN109906276A (zh) * | 2016-11-07 | 2019-06-18 | 格里尔公司 | 用于检测早期癌症中体细胞突变特征的识别方法 |
CN112951323A (zh) * | 2019-12-11 | 2021-06-11 | 中国科学院昆明动物研究所 | 一种度量个体水平遗传及突变多样性、相似性的概念和方法 |
CN115240764A (zh) * | 2021-04-25 | 2022-10-25 | 中国科学院宁波材料技术与工程研究所慈溪生物医学工程研究所 | 一种肿瘤基因检测系统及数据处理方法 |
CN114898803A (zh) * | 2022-05-27 | 2022-08-12 | 圣湘生物科技股份有限公司 | 突变检测分析的方法、设备、可读介质及装置 |
CN116741268A (zh) * | 2023-04-04 | 2023-09-12 | 中国人民解放军军事科学院军事医学研究院 | 筛选病原体关键突变的方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
张孝廉 ; 张吉顺 ; 余世洲 ; 余婧 ; 赵德刚 ; .烟草NtMLO家族全基因组序列鉴定及表达分析.植物生理学报.2019,(11),全文. * |
烟草NtMLO家族全基因组序列鉴定及表达分析;张孝廉;张吉顺;余世洲;余婧;赵德刚;;植物生理学报;20191120(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117789823A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111009286B (zh) | 对宿主样本进行微生物分析的方法和装置 | |
CN111785328B (zh) | 基于门控循环单元神经网络的冠状病毒序列识别方法 | |
AU2011352786B2 (en) | Data analysis of DNA sequences | |
CN109801680B (zh) | 基于tcga数据库的肿瘤转移复发预测方法及系统 | |
CN111883223B (zh) | 患者样本数据中结构变异的报告解读方法及系统 | |
Taufiq | Classification method of multi-class on C4. 5 algorithm for fish diseases | |
CN106055922A (zh) | 一种基于基因表达数据的混合网络基因筛选方法 | |
CN105404793A (zh) | 基于概率框架和重测序技术快速发现表型相关基因的方法 | |
CN115335911A (zh) | 用于获取和处理基因组信息以产生基因变体解释的筛选系统和方法 | |
CN115620812B (zh) | 基于重采样的特征选择方法、装置、电子设备和存储介质 | |
Fleming et al. | Identifying and addressing methodological incongruence in phylogenomics: A review | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
CN116825192A (zh) | 一种ncRNA基因突变的解读方法、存储介质及终端 | |
CN117789823B (zh) | 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备 | |
CN110246543A (zh) | 基于二代测序技术利用单样本检测拷贝数变异的方法和计算机系统 | |
CN114496089B (zh) | 一种病原微生物鉴定方法 | |
TWI399661B (zh) | 從微陣列資料中分析及篩選疾病相關基因的系統 | |
CN112102882B (zh) | 一种用于肿瘤样本ngs检测流程的质控系统和方法 | |
Armstrong | Enabling comparative genomics at the scale of hundreds of species | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
CN116646010B (zh) | 人源性病毒检测方法及装置、设备、存储介质 | |
CN116344067B (zh) | 流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用 | |
He et al. | An association rule analysis framework for complex physiological and genetic data | |
CN117577179B (zh) | 一种基于转录组和dna甲基化组的基因挖掘方法及系统 | |
CN113257380B (zh) | 一种差值核查及差值核查规则的制订方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |