CN109584968B

CN109584968B - 一种用于筛选参与生物学过程调控新基因的方法

Info

Publication number: CN109584968B
Application number: CN201811428144.1A
Authority: CN
Inventors: 赵磊; 何欣叶; 尚钰轩; 姚婷婷; 宓东; 孙野青
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2022-09-23
Anticipated expiration: 2038-11-27
Also published as: CN109584968A

Abstract

本发明公开了一种用于筛选参与生物学过程调控新基因的方法，通过使用生物信息学方法在基因本体论搜索工具，筛选特定生物学过程的语义关系；在不同物种的基因组注释数据库中，筛选被注释到上述语义的不同物种中的基因集合信息；对特定物种的基因集合信息进行同源性分析，筛选其在待研究物种中的直系同源基因；将上述基因与待研究物种中参与该生物学过程的参考基因进行比较分析，筛选特定物种中参与生物学过程调控新基因。本发明基于特定生物学过程在不同的物种之间具有高度保守性的特征，建立了一种用于筛选参与生物学过程调控新基因的方法，为进一步重构系统的基因调控网络提供支撑作用，这对于疾病早期诊断、个性化治疗、药物研发具有重要意义。

Description

一种用于筛选参与生物学过程调控新基因的方法

技术领域

本发明属于生物信息技术领域，涉及一种用于筛选参与生物学过程调控新基因的方法。

背景技术

基因调控网络(Gene Regulatory Networks，GRN)是一种表示基因间相互作用关系的复杂调控网络。通过基因调控网络可系统地分析和了解基因之间的相互作用关系，认识并掌握细胞生命活动的运作机制，从而找到引发疾病的关键基因。这对复杂疾病(如辐射诱导癌症等)的治疗具有至关重要的作用，该领域的研究已成为生物信息学和系统生物学的一个研究热点之一。近年来，基因调控网络越来越多地应用到疾病基因预测、药物靶标筛选等研究领域，并对疾病早期诊断、个性化治疗、药物研发产生了重要的支撑作用。那么，如何对特定生物学过程中的基因调控网络进行重构，即识别特定生物学过程下转录水平上的参与基因之间的表达调控关系以及参与该调控网络的新基因，是该领域亟需解决的重要问题之一，在理论与实践两方面均具有重要的价值和意义。

传统上，基于生物学/医学实验等方式重构基因调控网络，需要在不同的实验条件下研究基因表达调控网络关系。但是，这种方法存在很多的缺点，如花费时间较长、代价昂贵等，大多数情况下难以识别参与特定基因调控网络的新基因，限制了基因调控网络的重构及其应用。因此，利用生物信息学方法来筛选参与特定生物学过程调控新基因已成为目前该领域研究中最受关注的方法与技术之一，对于后续建立系统生物学模型和预测基因调控网络的行为具有重要意义。

基因本体(Gene Ontology，GO)是一个在生物信息学领域中广泛使用的基因功能注释工具，它涵盖基因三个方面的生物学功能，主要包括分子功能(molecular function)，生物过程(biological process)和细胞组成(cellular component)三个部分。其中分子功能描述的是个体分子生物学上的活性，如催化活性或结合活性。而生物学过程描述的是由一系列特定分子功能的分子有序地组成具有多个步骤的一个生物级联过程。而且生物学过程一般在不同的物种之间具有高度保守性，这对于重构基因调控网络中识别参与基因调控网络新基因具有重要的意义。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，利用生物信息学方法，提供一种用于筛选参与生物学过程调控新基因的方法。通过找到参与特定基因调控网络新基因，为进一步重构系统的基因调控网络提供支撑作用。该发明对于疾病早期诊断、个性化治疗、药物研发具有重要意义。

为实现上述发明目的，本发明通过以下技术方案实现：一种用于筛选参与生物学过程调控新基因的方法，其包括以下步骤：

①.在基因本体论(Gene Ontology,GO)搜索工具中，检索待研究生物学过程(biological process)的语义关系，获得待研究生物学过程的基因本体论语义(GO Term)；

其中，所述的待研究生物学过程为研究对象，通常有很多类，如DNA修复过程(包括碱基切除修复、核苷酸切除修复、错配修复、同源重组修复、非同源末端连接修复等)、代谢过程(其也包括磷酸代谢过程、蛋白代谢过程、脂类代谢过程等)等，其种类非常多，常根据研究需要从中选择。

②.以步骤①得到待研究生物学过程的GO语义作为过滤(filter)条件，在基因注释数据库中，分别检索并获取在特定物种i和j中被注释到步骤①得到GO语义的基因集合A_i和A_j的信息；所述基因集合A_i和A_j信息包括基因编号(gene stable ID)，基因名称(genename)，蛋白质编号(protein stable ID)，蛋白参考序列信息(RefSeq peptide ID)，GO语义编号(GO term accession)，GO语义名称(GO term name)等；

其中，所述的待研究物种i和j种类很多，包括生物学中已知的物种或者未知的物种，只要数据库中包含即可，本文实例中采用的是拟南芥(Arabidopsis thaliana)和人(Homo sapiens)。

③.将步骤②得到的基因集合A_j的蛋白参考序列信息(RefSeq peptide ID)加载到同源蛋白质(homologous protein)检索工具中，检索同源组别号(Ortho Group ID)，根据Ortho Group ID分别检索并下载基因集合A_j中每一基因在待研究物种i中的直系同源基因的蛋白质分子，获得相应的蛋白质集合B_i的信息；所述蛋白质集合B_i信息包括蛋白质编号(protein accession)和蛋白质名称(protein name)等；

④.将步骤③得到的蛋白质集合B_i的蛋白质编号(protein accession)加载到基因注释数据库(Gene Annotation Database)中，分别检索并下载蛋白质集合B_i中每一蛋白质分子对应的基因，获得相应的直系同源基因集合C_i的信息；所述的基因集合C_i信息包括基因编号(gene stable ID)，基因名称(gene name)，GO语义编号(GO term accession)，GO语义名称(GO term name)等；其中，所述C_i表示在物种i中的直系同源基因集合。

⑤.将步骤②和④得到的基因集合A_i和直系同源基因集合C_i的基因集合数据在统计分析软件中进行分析，求解并获取在物种i中参与步骤①中所述生物学过程调控的新基因集合D_i信息，其计算公式为D_i＝A_i UC_i-A_i；所述的基因集合D_i信息包括基因编号(genestable ID)，基因名称(gene name)，GO语义编号(GO term accession)，GO语义名称(GOterm name)等。

进一步地，在上述技术方案中，具体还包括以下步骤：

a).所述步骤①还包括，所述的基因本体论搜索工具可为QuickGO数据库(https://www.ebi.ac.uk/QuickGO/)；利用QuickGO数据库，可重复检索待研究生物学过程的下级语义，直至获取符合选择标准的语义关系图；

其中，上文所述的“选择标准”通常为研究者有针对性的提出的标准，如在“DNA修复过程”中，研究者只想研究“同源重组修复”和“非同源末端连接修复”，那么在确定其语义关系时，只要选择上述两个语义即可，而非一定要全面查找“DNA修复过程”的语义关系图(通常某些生物学过程的语义关系图比较复杂)。

b).所述步骤②还包括，所述的基因注释数据库，可为动物基因组注释数据库Ensembl(http://asia.ensembl.org/index.html)或植物基因组注释数据库EnsemblPlants(http://plants.ensembl.org/index.html)中的BioMart工具；

c).所述步骤③还包括，所述的同源蛋白质检索工具可为OrthoMCL数据库(http://orthomcl.org/orthomcl/)中的蛋白质序列检索工具(identify proteinsequence)(http://ortho mcl.org/orthomcl/showQuestion.do？questionFullName＝SequenceQuestions.ByIdList)；

d).所述步骤④还包括，在动物基因组数据库Ensembl(http://asia.ensembl.org/index.html)、植物基因组数据库Ensembl Plants(http://plants.ensembl.org/index.html)和NCBI数据库(https://www.ncbi.nlm.nih.gov/)中根据物种的类别选取一种生物基因注释数据库；

其中，上文所述根据物种的类别选取一种生物基因注释数据库，结合本发明而言，意为拟南芥属于植物，其注释应采用植物基因注释数据库Ensembl Plants；而人属于动物，其注释应采用动物基因注释数据库Ensembl；或者在美国国立生物技术信息中心(NationalCenter for Biotechnology Information，NCBI)的Gene数据库中查找。

e).所述步骤⑤还包括，所述统计分析软件为Microsoft Office Excel软件，SPSS17.0等统计软件中任取一种。所述统计分析的内容为步骤⑤中的基因集合的求并集，以及集合减法运算。

进一步，根据权利要求1所述的方法，所述的特定物种i和j为生物基因注释数据库所包含已知基因组信息的物种；所述的特定物种i和j的关系可为i＝j或i≠j，具体可根据需要进行调整。特定物种i和j的关系可以是一样的，例如，以人为参考，找人的新基因；也可以是不一样的物种之间为参考对象和寻找新基因的对象。

进一步，根据权利要求1或2所述的方法，所述的筛选参与生物学过程调控新基因的方法为一种基于待研究生物学过程在不同的物种之间具有高度保守性的特征的生物信息学特筛选算法

从上述技术方案可以看出，本发明具有以下有益效果：

本发明基于特定生物学过程在不同的物种之间具有高度保守性的特征，通过使用生物信息学方法在基因本体论搜索工具，筛选特定生物学过程的语义关系；进一步，在不同物种的基因组注释数据库中，筛选被注释到上述语义的不同物种中的基因集合信息；对特定物种的基因集合信息进行同源性分析，筛选其在待研究物种中的直系同源基因；将上述基因与待研究物种参与该生物学过程的参考基因进行比较分析，筛选待研究物种中参与生物学过程调控新基因。因此，本发明建立了一种用于筛选参与生物学过程调控新基因的方法，为进一步重构系统的基因调控网络提供支撑作用，这对于疾病早期诊断、个性化治疗、药物研发具有重要意义。

附图说明

本发明附图2幅：

图1为本发明方法的实现流程图；

图2为使用QuickGO获得的辐射响应的语义关系图。

具体实施方式

下面主要结合附图对本发明的具体实施方式作进一步的详细说明。

图1是本发明涉及到的一种用于筛选参与生物学过程调控新基因的方法流程图。

在本实施例中，如图1所示，本发明涉及一种用于筛选人类中参与DNA修复过程调控新基因的方法，涉及的物种i为人(Homo sapiens)，物种j为拟南芥(Arabidopsisthaliana)，包括以下步骤：

S1：在基因本体论(Gene Ontology,GO)搜索工具QuickGO(https://www.ebi.ac.uk/QuickGO/)中，检索DNA修复(DNA repair)的语义关系，筛选到5种不同类型的DNA修复GO语义，分别是“base-excision repair”(GO:0006284)、“nucleotide-excisionrepair”(GO:0006289)、“mismatch repair”(GO:0006298)、“double-strand break repairvia homologous recombination”(GO:0000724)、“double-strand break repair vianon-homologous end joining”(GO:0006303)，上述语义可分别缩写为“BER”、“NER”、“MMR”、“HR”、“NHEJ”，并最终获得与DNA修复的GO语义关系如图2所示；

S2：将步骤S1得到的5种不同类型的DNA修复GO语义分别作为过滤(filter)条件，加载到动物基因组数据库Ensembl(版本号：Release 93)(http://asia.ensembl.org/index.html)的BioMart工具中，检索并获取人类(H.sapiens)中被注释到上述GO语义的243个基因集合A_i(i为特定DNA修复语义)的信息数据(具体基因集合信息略)，其中被注释到“BER”、“NER”、“MMR”、“HR”、“NHEJ”等语义中的基因数量分别为35、43、25、79、61个，结果如表1所示；

S3：将步骤S1得到的5种不同类型的DNA修复GO语义分别作为过滤(filter)条件，加载到植物基因组数据库Ensembl Plants(版本号：Release 40)(http://plants.ensembl.org/index.html)的BioMart工具中，检索并获取在该数据库包含的物种拟南芥(A.thaliana)中被注释到上述GO语义的151个基因的集合的信息数据(具体基因集合信息略)，其中被注释到“BER”、“NER”、“MMR”、“HR”、“NHEJ”等语义中的基因数量分别为34、25、17、64、14个，结果如表2所示；

表1人类(Homo sapiens)中分别被注释到5种DNA修复语义的基因数量

表2拟南芥(Arabidopsis thaliana)中分别被注释到5种DNA修复语义的基因数量

S4：将步骤S3得到的基因集合中的蛋白参考序列信息(RefSeq peptide ID)加载到同源蛋白质(homologous protein)检索工具OrthoMCL(http://orthomcl.org/orthomcl/)中，检索同源组别号(Ortho Group ID)，根据Ortho Group ID分别检索并下载步骤S3中所述的基因集合中每一基因在人类(H.sapiens)中的直系同源基因的蛋白质分子，获得相应的蛋白质分子集合的信息数据(具体蛋白质分子集合信息略)；

S5：将步骤S4得到的蛋白质集合的蛋白质编号(protein accession)加载到基因注释数据库Ensembl(http://asia.ensembl.org/index.html)中，分别检索并下载步骤S4中所述的蛋白质分子集合信息中每一蛋白质分子对应的基因，获得相应的基因集合C_i(i为特定DNA修复语义)(具体直系同源基因集合信息略)，合计获得相应的75个直系同源基因，结果如表3所示；

表3拟南芥(Arabidopsis thaliana)中被注释到5中DNA修复语义的基因在人类(Homo sapiens)中的直系同源基因数量

S6：将步骤S2得到的基因集合和步骤S5得到的直系同源基因集合在统计分析软件Microsoft Office Excel中，按照公式D_i＝A_i UC_i-A_i(i为特定DNA修复语义)进行分析计算，获得人类(H.sapiens)参与步骤S1中所述DNA修复过程调控新基因D_i(i为特定DNA修复语义)，合计发现16个参与DNA修复过程调控新基因，如表4所示；其中，具体参与DNA修复过程调控新基因集合信息如表5和6所示。

S7：将步骤S6得到的参与DNA修复过程调控新基因与国内外已发表的文献数据进行比对(Molecular Cell,2017,68(1):61-75；Proceedings of the National Academy ofSciences of the United States of America,2016,113(13):3515-3520；The EMBOJournal,2007,26,2094-2103；Critical Reviews in Biochemistry and MolecularBiology,2017,52(6):696-714)，发现这16个新基因参与DNA修复过程，在特异性与重复性等方面与预测一致，这表明了本发明构建的方法可用于筛选参与生物学过程调控新基因，为进一步重构系统的基因调控网络提供支撑作用，并为疾病早期诊断、个性化治疗、药物研发等提供了一种新的技术参考。

表4人类(Homo sapiens)中参与DNA修复过程的新基因数量

表5人类(Homo sapiens)中参与同源重组修复过程(HR)的新基因

表6人类(Homo sapiens)中参与非同源末端连接修复过程(NHEJ)的新基因

以上所述，仅为本发明的一种具体实施方式，其描述较为具体和详细，但不能因此理解为对本发明专利保护范围的限制，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于筛选参与生物学过程调控新基因的方法，其特征在于包括以下步骤：

②.以步骤①得到待研究生物学过程的基因本体论语义(GO Term)作为过滤(filter)条件，在基因注释数据库(Gene Annotation Database)中，分别检索并获取在待研究物种i和j中被注释到步骤①得到GO语义的基因集合A_i和A_j的信息；所述基因集合A_i和A_j信息包括基因编号(gene stable ID)，基因名称(gene name)，蛋白质编号(protein stable ID)，蛋白参考序列信息(RefSeq peptide ID)，GO语义编号(GO term accession)，GO语义名称(GOterm name)；

③.将步骤②得到的基因集合A_j的蛋白参考序列信息(RefSeq peptide ID)加载到同源蛋白质(homologous protein)检索工具中，分别检索同源组别号(Ortho Group ID)，下载检索结果并获得基因集合A_j中每一基因在待研究物种i中的直系同源基因的蛋白质分子，获得相应的蛋白质集合B_i的信息；所述蛋白质集合B_i信息包括蛋白质编号(proteinaccession)和蛋白质名称(protein name)；

④.将步骤③得到的蛋白质集合B_i的蛋白质编号(protein accession)加载到基因注释数据库(Gene Annotation Database)中，分别检索并下载蛋白质集合B_i中每一蛋白质分子对应的基因，获得相应的直系同源基因集合Ci的信息；所述的基因集合C_i信息包括基因编号(gene stable ID)，基因名称(gene name)，GO语义编号(GO term accession)，GO语义名称(GO term name)；

⑤.将步骤②和④得到的基因集合A_i和直系同源基因集合C_i的基因集合数据在统计分析软件中进行分析，求解并获取在待研究物种i中参与步骤①中所述生物学过程调控的新基因集合，命名为D_i集合，其计算公式为D_i＝A_i UC_i-A_i；所述的基因集合D_i信息包括基因编号(gene stable ID)，基因名称(gene name)，GO语义编号(GO term accession)，GO语义名称(GO term name)。

2.根据权利要求1所述的方法，其特征在于：步骤①中所述的基因本体论搜索工具可为QuickGO数据库；利用QuickGO数据库，可重复检索待研究生物学过程的下级语义，直至获取符合选择标准的语义关系图。

3.根据权利要求1所述的方法，其特征在于：步骤②或④中所述的基因注释数据库，可为动物基因组注释数据库Ensembl或植物基因组注释数据库Ensembl Plants；使用的工具为BioMart工具。

4.根据权利要求1所述的方法，其特征在于：步骤③中所述的同源蛋白质检索工具可为OrthoMCL数据库中的蛋白质序列检索工具(identify protein sequence)。

5.根据权利要求1所述的方法，其特征在于：步骤④中在动物基因组数据库Ensembl、植物基因组数据库Ensembl Plants或者在美国国立生物技术信息中心(National Centerfor Biotechnology Information，NCBI)的Gene数据库中根据物种的类别选取一种生物基因注释数据库。

6.根据权利要求1所述的方法，其特征在于：步骤⑤中所述统计分析软件为MicrosoftOffice Excel软件或SPSS 17.0统计软件。

7.根据权利要求1所述的方法，其特征在于：所述的特定物种i和j为生物基因注释数据库所包含已知基因组信息的物种；所述的特定物种i和j的关系可为i＝j或i≠j，具体可根据需要进行调整。