CN117789823B

CN117789823B - 病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备

Info

Publication number: CN117789823B
Application number: CN202410214515.5A
Authority: CN
Inventors: 任洪广; 王辛; 胡明达; 王博千; 赵云祥; 柴子力; 靳远; 岳俊杰
Original assignee: Academy of Military Medical Sciences AMMS of PLA
Current assignee: Academy of Military Medical Sciences AMMS of PLA
Priority date: 2024-02-27
Filing date: 2024-02-27
Publication date: 2024-06-04
Anticipated expiration: 2044-02-27
Also published as: CN117789823A

Abstract

本发明涉及生物信息学领域中病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备，针对由基因组数据挖掘协同演化突变簇依赖人工实现的问题，本发明的病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备，主要包括：基于指定的病原体种类收集病原体的基因组数据，将基因组序列描述为突变组合的形式；对突变进行向量化描述，然后进行向量的相似度度量，挖掘显著的协同演化关系；构建协同突变关系网，识别协同演化突变簇。本发明基于生物信息学与数据挖掘算法对突变之间的协同演化水平进行量化评估，识别出协同演化突变簇。

Description

病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备

技术领域

本发明涉及生物信息学领域中病原体基因组协同演化突变簇的识别方法、装置、存储介质及设备。

背景技术

病原体指的是可以对人或动植物造成感染疾病的微生物，包括细菌、真菌、病毒等。病原体数据分析是借助生物信息学、数据挖掘等领域的分析方法，研究病原体遗传变异与生物特性，从数据的角度描述并挖掘病原体相关数据规律的方法。

在病原体遗传演化过程中，常常会发生遗传变异，称为“突变”或“变异”。突变会对病原体功能蛋白的表达产生影响，进而在传播能力、致病性等方面的病原适应性产生影响，且不同突变可能会相互协作进而对病原体的适应性产生进一步叠加增强的影响。所以，虽然突变是遗传演化过程中基于某些偶然因素引发的，但由于突变对病原体的影响效应，病原体的突变分布往往并不是完全随机的，而是存在一定协同演化的现象。这些协同演化的突变，往往会同时出现，形成彼此协同演化的突变集群（簇），即协同演化突变簇。

协同演化突变簇的挖掘是病原体分析领域中的核心技术之一。对于某类给定的病原微生物，它基于生物基因序列等数据，通过对不同遗传变异在病原微生物中的分布进行描述与比较，量化评估各突变之间的分布一致性，进而挖掘出协同演化出现的协同演化突变簇。协同演化突变簇的挖掘有助于对亚型变体毒株的遗传变异分析，为后续常见亚型突变分布、重点亚型病原体的检测监控、对关键亚型毒株的特效药与抗体开发提供数据理论基础，相关应用十分广泛。

现有的主流协同演化突变簇的挖掘技术，一般是对病原微生物的常见突变组合进行简单的统计。具体而言，这类技术是在给定的可观测病原体数据样本的基础上，整理统计出较为常见的突变组合，然后人工确定可能的协同演化突变簇。这类分析挖掘技术具有一定有效性，但往往基于人工对当前样本数据中突变组合的归纳统计，一方面在人工观察的衡量水平上，具有较强的主观性，难以客观完全地进行协同突变统计与挖掘，其结果的可靠性也就受到了一定程度的制约；另一方面，面对以新冠病毒为代表的病原微生物，基因组数据可能高达上千万条之多，传统的人工统计评估方法在人力成本上的执行开销将会极为庞大，可行性不高，且会进一步影响协同演化突变簇挖掘结果的可靠性。所以，现有病原体协同演化突变簇的挖掘方法，在人工归纳统计的方面受到了多方面的限制与局限，这严重影响了该技术在在后续研究与应用中的使用。

发明内容

发明目的：本发明针对现有技术中，由基因组数据挖掘协同演化突变簇依赖人工实现的问题，提供一种病原体基因组协同演化突变簇的识别方法，基于生物信息学与数据挖掘算法对突变之间的协同演化水平进行量化评估，识别出协同演化突变簇。

本发明的另一个目的在于提供一种病原体基因组协同演化突变簇的识别装置。

本发明的再一个目的在于提供一种非暂态计算机可读存储介质。

本发明的再一个目的在于提供一种电子设备。

技术方案：为了达到上述的目的，本发明一方面提供一种病原体基因组协同演化突变簇的识别方法，包括步骤：

S100、基于指定的病原体种类，收集该种类中多种病原体基因组序列数据，并对各病原体基因组序列数据进行质量控制；

S200、分析质量控制后的各病原体基因组序列，将各病原体基因组序列以突变组合的形式表达；筛选保留其中常见的突变组合；

S300、将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述；

S400、通过对特征向量之间的相似度进行度量，量化评估突变之间的分布一致性与协同演化水平，筛选出显著的突变两两协同演化关系；

S500、基于显著的突变两两协同演化关系构建突变协同网络，采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类，该突变聚类对应具有显著协同演化关系的突变集群，即为协同演化突变簇。

本发明的识别方法针对给定的一类病原微生物，收集病原体的基因组数据，使用生物信息学工具分析病原体的突变数据，对各个突变在病原微生物上的分布情况进行向量化，基于向量相似度对突变之间的协同一致性进行量化评估，并基于数据挖掘相关方法挖掘协同演化突变簇。

作为优选地，根据上述的病原体基因组协同演化突变簇的识别方法，步骤S100中所述基于指定的病原体种类，收集病原体基因组数据，具体方法为：

对于给定的某类病原微生物，首先在NCBI、GISAID等在线公共数据库或在本地基因组数据库上，收集整理该病原体基因组数据。

作为优选地，对于每个病原体数据，需要基于一定的质量控制标准，考察基因组序列质量，只保留高质量的基因组数据。因此，步骤S100中所述对各病原体基因组序列数据进行质量控制的具体方法为：

收集该病原体的参考基因组序列，参考基因组序列的核苷酸总长度记为，逐一考察并筛选各个病原体基因组序列的数据质量。对某一病原体基因组序列，假设序列的总长度为/>序列中ACGT四种核苷酸以外的其它字符（非法字符）总数为/>，按照以下标准，逐一考察并筛选各病原体基因组序列的数据质量：

（1）病原体基因组序列相对于参考基因组序列，其序列完整程度，其中完整程度/>的计算公式如下：

；

（2）病原体基因组序列的非法字符比率，其中非法字符比率的计算公式如下：

；

满足上述质量控制标准的序列，视为满足质量要求的高质量基因组序列，用做后续数据处理，其余不满足标准的低质量序列数据舍弃。

作为优选地，根据上述的病原体基因组协同演化突变簇的识别方法，步骤S200中所述分析各个病原体的突变数据，将各病原体基因组序列以突变组合的形式表达，具体方法为：

收集该种类病原体的参考基因组序列，根据参考基因组序列，采用多序列比对算法对各病原体基因组序列进行序列比对，识别每一条病原体序列自身相较于参考基因组序列的核苷酸变异，将每一条病原体序列都表达为相较于参考基因组序列的突变组合的形式。

多序列比对算法对基因组数据进行序列比对，可以采用的方法包括Clustal W算法、MAFFT算法、MUSCLE算法在内的各种多序列比对算法。

通过序列比对，本方法能够识别每一条病原体序列自身相较于参考基因组序列的核苷酸变异。需要说明的是，如若研究的是氨基酸变异，则基于氨基酸密码子表，能够将核苷酸变异转换为氨基酸变异，在此基础上能够进一步研究氨基酸突变。

作为优选地，步骤S200中所述筛选保留其中常见的突变组合的方法为：

对前述步骤得到的突变组合进行统计整理。对所有出现过的突变组合，统计其在全部基因组范围中出现的频数，并进行筛选。对某一个突变组合，其由个突变（/>）组成，要求其频数/>需要满足/>，其中/>为该病原微生物遗传研究中突变组合频数的最低门限值，具体取值与病原微生物的种类以及当前基因组序列的数据规模有关。丢弃不满足频数要求的低频（非主流）突变组合，仅对满足频数要求的突变组合予以保留。在选定了突变组合的研究范围后，本发明后续针对的突变范围也确定为突变组合中包含的所有突变。

作为优选地，根据上述的病原体基因组协同演化突变簇的识别方法，步骤S300中所述将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述，包括：

设定前一步骤共保留有个不同的突变组合，依次记为/>；

对某一个突变，依次考察其在各个突变组合中存在与否的情况，得到长度为的特征向量/>：如若/>存在于某个突变组合/>，则特征向量/>中对应的第/>号元素为标记为1，如不存在则标记为0；

即为描述突变/>在/>在个突变组合中突变分布情况的特征向量。

基于上述方法，对每一个突变，都能获取一个对应的、能够反映该突变分布情况的特征向量，后续将通过计算特征向量之间的相似度来衡量突变之间的协同演化水平。

作为优选地，根据上述的病原体基因组协同演化突变簇的识别方法，由于上一步中，各个突变都具有了描述各自突变分布的特征向量，故可以通过对任意两个特征向量进行相似度度量，量化评估对应两个突变分布之间在病原体常见基因组序列中的分布一致性，进而研究对应两个突变之间的协同演化水平。因此步骤S400中对特征向量之间的相似度进行度量采用余弦相似度计算方法，由于余弦相似度计算相对直观，故采用余弦相似度进行特征向量的相似度计算。需要注意的是，常见的向量相似度度量包括余弦相似度以及其他计算方法，其他相似度计算也可以在本方法中采用。

在对特征向量进行两两的余弦相似度度量后，相似度可以反映对应两个突变之间的协同演化水平。之后，基于相似度度量值，挖掘显著的协同演化关系。具体方法为，选取所有相似度中最高的前若干名，其对应突变之间的量化协同演化水平是最高的一批，因而对应突变之间具有较为显著的协同关系。相似度取值可以是前2%、前1%、前0.5%，具体取值根据病原体种类与具体相似度取值分布来决定。

需要注意的是，由于余弦相似度计算的机制，当一个突变特征向量自身对自身进行余弦相似度计算时，相似度为最高值1。这种特殊情况，虽然相似度值的计算是合理的，但对后续突变之间的协同演化分析毫无意义，故需要额外将这种自身对自身的相似度强制取0，以便在选取最高相似度值时直接排除这部分结果。

作为优选地，根据上述的病原体基因组协同演化突变簇的识别方法，步骤S500中所述基于显著的突变两两协同演化关系构建突变协同网络，具体方法为：以节点表示一个特定突变、以节点之间的连边表示对应两个突变之间的协同演化关系，以此构建出反映突变之间协同演化关系的网络结构；

采用图聚类方法检测该突变协同网络，在突变协同网络上，存在若干内部紧密连接的节点组成的节点聚类，每个节点聚类均对应一个具有显著协同演化关系的突变集群，即为协同演化突变簇。

在数据挖掘中，检测网络结构（图结构）中内部紧密连接的节点聚类的方法就是图聚类算法。常见的图聚类算法如标签传播算法（Label Propagation Algorithm）、基于模块度的算法（Modularity）等，都能够有效实现这该功能。本发明基于突变协同网络，通过使用相关图聚类算法，能够挖掘出对应内部连接的节点聚类，即为所求的协同演化突变簇。

本发明另一方面，提供一种病原体基因组协同演化突变簇的识别装置，包括：

数据收集模块，用于收集指定的病原体种类下病原体基因组序列数据，并对各病原体基因组序列数据进行质量控制；

突变检测模块，用于分析各个病原体的突变数据，将各病原体基因组序列以突变组合的形式表达；还用于筛选保留其中常见的突变组合；

向量化描述模块，用于将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述；

相似度度量模块，用于对特征向量之间的相似度进行度量，量化评估突变之间的分布一致性与协同演化水平，筛选出显著的突变两两协同演化关系；

突变簇检测模块，用于以显著的突变两两协同演化关系构建突变协同网络，并采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类，识别协同演化突变簇。

本发明再一方面，提供一种非暂态计算机可读存储介质，其上存储有计算机指令，该计算机指令使计算机执行上述的病原体基因组协同演化突变簇的识别方法。

本发明再一方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线；

其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

处理器用于调用存储器中的逻辑指令，以执行上述的病原体基因组协同演化突变簇的识别方法。

本发明基于指定的病原体种类，收集病原体的基因组数据，同时进行病原体序列数据的质量控制，筛选保留其中高质量的基因组序列数据。然后，基于病原体参考株序列，对收集的基因组序列数据进行多序列比对，对比检测出各个病原体的遗传变异，将各个病原体基因组序列表达为（相较于参考基因组序列的）突变组合的形式。第三，本方法针对各个病原体对应的突变组合，进行统计整理，筛选保留常见的突变组合与突变，然后对各个突变进行突变分布的向量化描述，用向量来表述各个突变在所有突变组合中的分布情况。第四，对突变进行对应向量之间相似度度量，量化评估突变之间的分布一致性与协同演化水平，挖掘显著的协同演化关系。最后，基于显著的协同演化关系构建协同突变关系网，使用图聚类技术挖掘网络数据，将彼此紧密协同的突变识别为集群，即为协同演化突变簇。

有益效果

1、本发明基于生物信息学与数据挖掘算法，利用病原微生物基因组数据，对基因组突变的分布情况进行向量化表征，量化评估基因组突变之间的协同演化水平，从中筛选显著的协同演化关系并构建协同演化网络，使用图聚类方法挖掘病原体基因组协同演化突变簇，为后续的生物学研究应用提供重要的数据支持。

2、本发明避免了传统方法中人工归纳统计方法在病原体基因组协同演化突变簇挖掘中的主观性问题，使用向量相似度等手段对基因组突变之间的协同演化水平进行量化评估，通过图聚类的算法在协同演化网络中挖掘协同演化突变簇，数据分析结果更加客观、可靠；

3、本发明避免了传统方法中人工统计评估方法在人力成本上的执行开销过大、可行性不高的局限性问题，基于数据挖掘中的相关工具对基因组数据进行批量分析与处理，能够有效应对千万余条大规模基因组数据，高效准确的完成对病原体基因组协同演化突变簇的分析挖掘任务。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做出简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为挖掘病原体基因组协同演化突变簇的方法基本流程的示意图；

图2为实施例中图聚类算法进行聚类后的协同关系网络图；

图3为实施例中各协同演化突变簇及其对应分布的亚型谱系毒株统计图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，它们不应该理解成对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

下面结合图1-图4描述本发明提供的病原体基因组协同演化突变簇的识别方法与识别装置。

本实施例提供一种病原体基因组协同演化突变簇的识别方法，包括步骤：

S100、基于指定的病原体种类，收集病原体基因组序列数据，并对各病原体基因组序列数据进行质量控制；

S200、分析各个病原体的突变数据，将各病原体基因组序列以突变组合的形式表达；筛选保留其中常见的突变组合；

本实施例中以该识别方法在挖掘新型冠状病毒Spike蛋白突变协同演化突变簇的应用作为实例，对该识别方法进行详细说明。

旨在通过本方法，评估并筛选新冠病毒Spike蛋白突变（氨基酸突变）中具有较高协同演化水平的协同演化突变簇。

S100、基于指定的病原体种类，收集病原体基因组序列数据，并对各病原体基因组序列数据进行质量控制。

在GISAID在线数据库上下载公开新冠病毒Spike蛋白基因组序列数据，将2020年1月20日至2023年1月1日这三年内的新冠病毒Spike蛋白序列下载到本地，作为本案例中的病毒基因组数据。

在基因组序列数据的质量控制阶段，首先在NCBI网站下载新冠病毒GenBank序列号NC_045512的Spike蛋白序列作为参考基因组序列。然后根据序列完整程度与非法字符比率/>这两个标准，筛选保留高质量的序列数据，最终保留约1100万条新冠病毒高质量Spike蛋白序列数据。

序列完整程度，非法字符比率的获取方式为，将参考基因组序列的核苷酸总长度记为/>，新冠病毒Spike蛋白基因组序列的总长度为/>，序列中ACGT四种核苷酸以外的非法字符总数为/>。

则，完整程度的计算公式为：

；

非法字符比率的计算公式为：

。

S200、分析各个病原体的突变数据，将各病原体基因组序列以突变组合的形式表达。

将上一步中获取的新冠病毒Spike蛋白序列与参考基因组序列进行多序列比对，比对算法选取MAFFT算法，算法参数设置选取为默认设置。在此基础上，比对出每个Spike蛋白序列相对于参考基因组序列的核苷酸突变。根据氨基酸密码子表，将核苷酸突变翻译转换为对应的氨基酸突变。最终，将每个病原体数据的Spike蛋白序列表达为氨基酸突变组合的形式。

需要说明的是，多序列比对算法可以采用Clustal W算法、MAFFT算法以及MUSCLE算法其中一种，本实施例选取MAFFT算法，在一些实施例中也可以采用另外的两种算法。

筛选保留其中常见的突变组合。

对氨基酸突变组合进行统计分析，统计各突变组合在全部基因组范围中出现的频数，并进行筛选。对于突变组合，如若该突变组合的频数/>满足/>的标准，则予以保留；否则该突变组合将被删除。在本实例中，由于新冠病毒总的基因组序列数较多，门限值/>取值/>。在该标准下进行筛选，保留突变组合共271种。其中突变组合为空时表示不含变异（即与参考基因组序列一致）。在此基础上，本实例中选取该271种突变组合中的所有突变作为突变的研究范围，共保留了154个氨基酸突变，具体为：A1078S、A222V、A262S、A27-、A27S、A570D、A67-、A67V、A688V、A701V、A879S、D1118H、D1259Y、D138H、D138Y、D215G、D253G、D405N、D614G、D796Y、D80G、D80Y、D950H、D950N、E154-、E156-、E156G、E484A、E484K、E583D、F157-、F157S、F486V、G1124V、G1167V、G142-、G142D、G181V、G339D、G446S、G496S、G769V、H1101Y、H49Y、H655Y、H69-、I1081V、I68-、I68T、I68V、I850L、K1191N、K417N、K417T、K77T、L1141F、L18F、L212-、L212I、L24-、L24S、L452Q、L452R、L54F、L5F、L981F、M1237I、M153T、N1074S、N211-、N439K、N440K、N501Y、N679K、N764K、N856K、N969K、P1162S、P25-、P251L、P26-、P26S、P272L、P681H、P681R、P809S、Q493R、Q498R、Q613H、Q675H、Q677H、Q954H、Q957R、R158-、R158G、R190S、R214-、R214E、R346K、R408S、S112L、S12F、S13I、S155-、S221L、S371F、S371L、S373P、S375F、S477N、S494P、S704L、S939F、S982A、S98F、T1027I、T19I、T19R、T20I、T20N、T250I、T299I、T29A、T376A、T478K、T547K、T572I、T716I、T732A、T859I、T859N、T95I、V1104L、V1176F、V1228L、V1264L、V143-、V213-、V213G、V213L、V289I、V36F、V70-、V70I、W152C、W152L、W152R、W258L、Y144-、Y144V、Y145-、Y145D、Y145H、Y505H。

在确定了突变组合及其突变的研究范围后，对每个突变都进行向量化表述，描述各个突变在所有突变组合中的分布情况。每个突变都得到了一个长度为271的0与1组成的特征向量，其中特征向量的每个元素都表征该突变在对应突变组合中的存在与否情况，1表示存在，0表示不存在。

计算任意两个突变对应的两个特征向量之间的余弦相似度，来量化评估两个突变之间的协同演化水平。

基于余弦相似度的计算结果，对计算得出的余弦相似度进行排序，在所有相似度中选取最大的前2%相似度，认为这些高相似度对应的突变关系具有较为显著的协同关系。需要注意的是，对于任意两个突变与/>，对应/>与/>两个向量在计算余弦相似度时，在余弦相似度公式中前后顺序并不影响最终计算结果，两种计算情况的取值一样。故前述保留的154个突变，在有效的相似度结果中选取最大的前2%相似度，即为154×154÷2×2%≈237个最高的余弦相似度，对应着237个显著的协同演化关系。

S500、基于显著的突变两两协同演化关系构建突变协同网络。

基于挖掘出的突变的协同演化关系，以突变为点，以协同演化关系为边，构建出协同关系网络。

针对构建出的网络，使用数据挖掘中的图聚类算法将彼此紧密连接的突变节点聚类为协同演化突变簇。本实例中，使用基于模块度的图聚类算法进行聚类。最终的协同关系网络及其协同演化突变簇结果参见图2，图2中为了直观展示结果只保留了不少于三个点的社区。

最终挖掘出的新冠病毒Spike蛋白上协同演化突变簇。通过对突变在新冠常见亚型毒株中的分布进行分析，发现同一协同演化突变簇内部的突变具有高度相似的亚型谱系毒株分布，各协同演化突变簇及其对应分布的亚型谱系毒株都在图3的统计表中进行展示。由此可见，新冠病毒亚型谱系毒株内部的变异，具有较高的协同演化水平、包含一定数量与规模的协同演化突变簇。该现象与新冠病毒整体亚型谱系内的突变分布情况相一致，侧面印证了本发明的方法应用在本实例上的结果可靠性。

本实施例提供一种病原体基因组协同演化突变簇的识别装置，包括：

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行病原体基因组协同演化突变簇的识别方法，该方法包括：

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机指令，该计算机指令使计算机执行病原体基因组协同演化突变簇的识别方法，该方法包括：

本发明还提供一种电子设备，图4示例了一种电子设备的实体结构示意图，该电子设备可以包括：处理器（processor）610、通信接口（Communications Interface）620、存储器（memory）630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行病原体基因组协同演化突变簇的识别方法，该方法包括：

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种病原体基因组协同演化突变簇的识别方法，其特征在于，包括步骤：

S300、将保留的突变组合中每个突变均以反映每个突变在所述保留的突变组合中突变分布情况的特征向量来描述；

S500、基于显著的突变两两协同演化关系构建突变协同网络，采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类，该突变聚类对应具有显著协同演化关系的突变集群，即为协同演化突变簇；

其中，步骤S200中分析各个病原体的突变数据，将各病原体基因组序列以突变组合的形式表达，具体方法为：

收集该病原体的参考基因组序列，根据参考基因组序列，采用多序列比对算法对各病原体基因组序列进行序列比对，识别每一条病原体序列自身相较于参考序列的核苷酸变异，将每一条病原体序列都表达为相较于参考序列的突变组合的形式；

步骤S200中筛选保留其中常见的突变组合的方法为：

设定某一个突变组合，其由/>个突变（/>）组成，要求其频数/>需要满足/>，其中/>为该病原体遗传研究中突变组合频数的最低门限值，具体取值根据病原体的种类以及当前基因组序列的数据规模确定；

对每个突变组合，统计其在全部基因组范围中出现的频数，保留其中频数满足要求的突变组合；

步骤S300中将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述，包括：

设定前一步骤共保留有个不同的突变组合，依次记为/>；

对某一个突变，依次考察其在各个突变组合中存在与否的情况，得到长度为/>的特征向量/>：如若/>存在于某个突变组合/>，则特征向量/>中对应的第/>号元素为标记为1，如不存在则标记为0；

即为描述突变/>在/>个突变组合中突变分布情况的特征向量。

2.根据权利要求1所述的病原体基因组协同演化突变簇的识别方法，其特征在于，在分析氨基酸变异时，基于氨基酸密码子表，将核苷酸变异转换为氨基酸变异，用于后续识别氨基酸的协同演化突变簇。

3.根据权利要求1所述的病原体基因组协同演化突变簇的识别方法，其特征在于，步骤S400中对特征向量之间的相似度进行度量，采用余弦相似度计算方法，全部计算完成后，获得相似度排名，取排名最高的前若干名作为显著的突变两两协同演化关系，取值范围根据病原体种类与具体相似度取值分布确定。

4.根据权利要求3所述的病原体基因组协同演化突变簇的识别方法，其特征在于，步骤S500中基于显著的突变两两协同演化关系构建突变协同网络，包括：以节点表示一个特定突变，以节点之间的连边表示对应两个突变之间的协同演化关系，以此构建出反映突变之间协同演化关系的网络结构；

5.一种病原体基因组协同演化突变簇的识别装置，其特征在于，包括：

向量化描述模块，用于将保留的突变组合中每个突变均以反映每个突变在所述保留的突变组合中突变分布情况的特征向量来描述；

突变簇检测模块，用于以显著的突变两两协同演化关系构建突变协同网络，并采用图聚类方法检测该突变协同网络中内部紧密连接的突变聚类，识别协同演化突变簇；

其中，突变检测模块分析各个病原体的突变数据，将各病原体基因组序列以突变组合的形式表达，具体方法为：

突变检测模块筛选保留其中常见的突变组合的方法为：

向量化描述模块中将保留的突变组合中每个突变均以反映该突变分布情况的特征向量来描述，包括：

设定前一步骤共保留有个不同的突变组合，依次记为/>；

即为描述突变/>在/>个突变组合中突变分布情况的特征向量。

6.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线；

处理器用于调用存储器中的逻辑指令，以执行权利要求1-4任意一项所述的病原体基因组协同演化突变簇的识别方法。

7.一种非暂态计算机可读存储介质，其上存储有计算机指令，该计算机指令使计算机执行权利要求1-4任意一项所述的病原体基因组协同演化突变簇的识别方法。