CN113284559B - 一种物种基因组的启动子查询方法、系统及设备 - Google Patents
一种物种基因组的启动子查询方法、系统及设备 Download PDFInfo
- Publication number
- CN113284559B CN113284559B CN202110822106.XA CN202110822106A CN113284559B CN 113284559 B CN113284559 B CN 113284559B CN 202110822106 A CN202110822106 A CN 202110822106A CN 113284559 B CN113284559 B CN 113284559B
- Authority
- CN
- China
- Prior art keywords
- gene
- promoter
- file
- species
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 229
- 230000014509 gene expression Effects 0.000 claims abstract description 32
- 238000012163 sequencing technique Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 27
- 108091026890 Coding region Proteins 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 8
- 210000000349 chromosome Anatomy 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 6
- 241000894007 species Species 0.000 description 99
- 230000006870 function Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241000894006 Bacteria Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 108010009460 RNA Polymerase II Proteins 0.000 description 2
- 102000009572 RNA Polymerase II Human genes 0.000 description 2
- 108091023040 Transcription factor Proteins 0.000 description 2
- 102000040945 Transcription factor Human genes 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 1
- 108090000951 RNA polymerase sigma 70 Proteins 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000012239 gene modification Methods 0.000 description 1
- 230000005017 genetic modification Effects 0.000 description 1
- 235000013617 genetically modified food Nutrition 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- IEDVJHCEMCRBQM-UHFFFAOYSA-N trimethoprim Chemical compound COC1=C(OC)C(OC)=CC(CC=2C(=NC(N)=NC=2)N)=C1 IEDVJHCEMCRBQM-UHFFFAOYSA-N 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Analytical Chemistry (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种物种基因组的启动子查询方法、系统及设备,该方法包括获取物种的基因组文件、基因组注释文件和fastq文件;依据基因组注释文件,对基因组文件中的所有基因进行排序处理,得到物种启动子文件;采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;采用步骤S1至步骤S3得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库。该物种基因组的启动子查询方法可以在启动子数据库查询所需要的基因的启动子,不限制任意物种的基因启动子的查询,不需要额外借助辅助工具,且查询得到的启动子的准确率高。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种物种基因组的启动子查询方法、系统及设备。
背景技术
随着高通量测序的飞速发展,越来越多物种基因组已经被测序,对于物种载体的遗传改造来说,基因组的测序给载体基本元件-启动子查找提供了可能。研究表明,转录起始于基因上游的DNA区域,该区域属于RNA聚合酶II(PolII)和转录起始所需的相关转录因子的装配区域,RNA聚合酶Ⅱ启动子是调控蛋白质编码基因差异转录的关键区域,该区域称为核心启动子。启动子是调控基因表达的“指挥棒”,它能够控制基因表达的水平、部位及方式。
建立物种的遗传转化体系是进行物种基因功能研究的基础,而负责启动基因的启动子,是遗传转化体系的必备元件。随着生物信息学和分子生物学、遗传学的发展,查找启动子显得尤为重要。值得一提的是,深入研究启动子功能对于了解生物的生长发育、防御系统、疾病等都有非常重要的意义。启动子类型多样,功能不同,由于启动子的准确预测对于生物信息学中分析理解基因表达模式细胞特异性和发育至关重要,研究者迫切需要开发计算机工具来在不同情况下精确识别物种的启动子,为下一步功能研究奠定基础。无疑,利用生物信息学开发出能准确高效地查找出物种启动子的软件具有极大的意义。
到目前为止,Bacpp、PlantCARE和BPROME这三个网站已经成为启动子预测的常用工具。BacPP是一种用于预测革兰氏阴性细菌启动子的软件,该BacPP为了能进行基因组中启动子的表征和识别,使用通过人工神经网络(ANN)训练获得的规律,然后对ANN输出值进行加权以获得更好的确定性,这项工作促进了启动子预测的性能,从而提高了方法的可信度(e Silva et al., 2011)。但是该BacPP工具箱仅仅适用于革兰氏阴性菌,物种适用性比较窄;该BacPP无法直接给出启动子的具体序列,只能通过用户手动查找假定的启动子,再将假定的启动子提交到上述网站进行预测,并判断是否具备启动子特征,通过手动查找假定的启动子,工作强度很大;也不能批量化查找物种的启动子,只能通过单个序列提交分析。BPROM是一种可实现约80%的准确性和特异性值的σ70启动子识别工具,该BPROM工具应用线性判别函数(LDF)来组合功能基序和启动子序列的特征信息,使用了启动子序列五个保守区域的PWM(Klauck & Delamare,2020);该BPROM的不足有:面向细菌使用,其他生物无法适用,而且每天访问的次数有明确限制,这对于每天需要多次查找启动子序列的用户来说十分不便;BPROM不能直接给出启动子的具体序列,只能通过用户手动查找假定的启动子,将假定的启动子通过上述网站进行预测,不具备高通量输出能力,只能通过在线网站单个序列提交分析;预测准确性较低。PlantCARE是一个植物顺式作用调节元件的数据库,除了有对特定转录因子位点的基础性描述之外,PlantCARE还能预测启动子的功能信息,此外,PlantCARE数据库会定期更新,但是数据库的数据量仍然不足(Lescot et al,2002)。该PlantCARE工具的不足是:该工具仅仅面向高等植物使用;该工具也需要用户手动查找潜在的启动子序列,然后提交进行预测,不具备高通量查找能力。
由上述可知,现有对启动子的预测工具存在的缺点有:一是适用性范围小,只能针对某类物种使用;二是不具备高通量输出物种所有启动子的功能,不能直接给出启动子的具体序列,只能通过用户手动查找假定的启动子再进行预测,工作量大;三是这些工具仅仅是通过建立数学模型进行预测,没有结合组学大数据进行判断,预测准确度低,不能满足获得准确启动子的需要。
发明内容
本发明实施例提供了一种物种基因组的启动子查询方法、系统及设备,用于解决现有对基因启动子的预测工具存在适用性窄,需要手动配合预测工作量大且预测准确度低的技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
一种物种基因组的启动子查询方法,包括以下步骤:
S1.获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件;
S2.依据所述基因组注释文件,对所述基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
S3.采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;
S4.采用步骤S1至步骤S3得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库;
S5.根据待查询基因组的基因编号和基因表达量在所述启动子数据库查询,得到与待查询基因对应的启动子。
优选地,在步骤S2中,依据所述基因组注释文件,对所述基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件的步骤包括:
通过所述基因组注释文件,得到所述基因组文件中每个基因的所在链、基因编号和基因编码区的坐标起始点;
对所述基因组文件中所有的基因依据基因编码区的坐标起始点数值进行升序排序,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
其中,基因编码区为gene(Yi)=ai,[Xis,Xiz];Yi为基因组文件中第i个基因,ai为基因Yi所在链,Xis为基因Yi的基因编码起始坐标,Xiz为基因Yi的基因编码终点坐标。
优选地,ai为1时,基因Yi所在链为正义链;ai为-1时,基因Yi所在链为负义链。
优选地,采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件的步骤包括:
对所述fastq文件中的高通量数据采用hisat2或Trinity软件转换得到基因表达量,并对所有基因表达量的数值大小进行降序排序,得到排序数据;
在所述排序数据中筛选出排名前50对应基因的高通量数据作为基础数据;
将所述基础数据输入Promoter配置数据库中搜索,得到含有高表达基因的FPKM文件。
优选地,在步骤S1中,获取的基因组注释文件为GFF3标准格式,所述基因组注释文件的信息包括基因的染色体编号、来源、类型、链、属性以及基因序列元件在染色体的始末位置。
优选地,在步骤S1中,从NCBI数据库、JGI数据库和/或Ensembl基因组数据库中获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件。
本发明还提供一种物种基因组的启动子查询系统,包括数据获取模块、数据处理模块、转换模块、数据库构建模块和查询模块;
所述数据获取模块,用于获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件;
所述数据处理模块,用于依据所述基因组注释文件,对所述基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
所述转换模块,用于采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;
所述数据库构建模块,用于根据所述数据获取模块、所述数据处理模块和所述转换模块得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库;
所述查询模块,用于根据待查询基因组的基因编号和基因表达量在所述启动子数据库查询,得到与待查询基因对应的启动子。
优选地,所述数据处理模块包括第一处理子模块和第二处理子模块;
所述第一处理子模块,用于通过所述基因组注释文件,得到所述基因组文件中每个基因的所在链、基因编号和基因编码区的坐标起始点;
所述第二处理子模块,用于对所述基因组文件中所有的基因依据基因编码区的坐标起始点数值进行升序排序,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
其中,基因编码区为gene(Yi)=ai,[Xis,Xiz];Yi为基因组文件中第i个基因,ai为基因Yi所在链,Xis为基因Yi的基因编码起始坐标,Xiz为基因Yi的基因编码终点坐标。
优选地,所述转换模块包括排序子模块、筛选子模块和转换子模块;
所述排序子模块,用于对所述fastq文件中的高通量数据采用hisat2或Trinity软件转换得到基因表达量,并对所有基因表达量的数值大小进行降序排序,得到排序数据;
所述筛选子模块,用于在所述排序数据中筛选出排名前50对应基因的高通量数据作为基础数据;
所述转换子模块,用于将所述基础数据输入Promoter配置数据库中搜索,得到含有高表达基因的FPKM文件。
本发明还提供一种物种基因组的启动子查询设备,包括处理器以及存储器;
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行上述所述的物种基因组的启动子查询方法。
从以上技术方案可以看出,本发明实施例具有以下优点:该物种基因组的启动子查询方法、系统及设备,该方法包括获取物种的基因组文件、基因组注释文件和fastq文件;依据基因组注释文件,对基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;采用步骤S1至步骤S3得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库。该物种基因组的启动子查询方法可以在启动子数据库查询所需要的基因的启动子,不限制任意物种的基因启动子的查询,不需要额外借助辅助工具,且查询得到的启动子的准确率高。解决了现有对基因启动子的预测工具存在适用性窄,需要手动配合预测工作量大且预测准确度低的技术问题。
该物种基因组的启动子查询方法结合物种的基因组文件、基因组注释文件、生物高通量大数据,能够通过启动子数据库进行启动子精准分析并查找,且该启动子数据库适应了不同物种改造载体的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例所述的物种基因组的启动子查询方法的步骤流程图;
图2为本发明实施例所述的物种基因组的启动子查询系统的框架图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本申请实施例提供了一种物种基因组的启动子查询方法、系统及设备,用于解决了现有对基因启动子的预测工具存在适用性窄,需要手动配合预测工作量大且预测准确度低的技术问题。
实施例一:
图1为本发明实施例所述的物种基因组的启动子查询方法的步骤流程图。
如图1所示,本发明实施例提供了一种物种基因组的启动子查询方法,包括以下步骤:
S1.获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件。
需要说明的是,主要是从NCBI数据库、JGI数据库和/或Ensembl基因组数据库中获取若干物种的基因组文件、基因组注释文件以及对应物种高通量转录组的fastq文件。其中,fastq文件中的转录组高通量数据可以通过llumina系列的仪器测序产生,也可以从NCBI数据库下载得到。在本实施例中,以其中一种物种的基因组文件和基因组注释文件作为案例说明。其中获取的基因组注释文件为GFF3标准格式,基因组注释文件的信息包括seqid(染色体编号)、source(来源)、type(类型)、start(序列元件在染色体起始位置,从1开始计数)、end(序列元件在染色体上面的终止位置,从1开始计数)、score(得分)、strand(链)、phase(步进)和attributes(属性)等信息。且获取的基因组文件、基因组注释文件和fastq文件为后续建立启动子数据库提供数据基础。
S2.依据基因组注释文件,对基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件。
需要说明的是,主要是对获取的基因组文件中所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件,为建立启动子数据库查询基因的高启动子提供查询依据。
S3.采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件。
需要说明的是,为了提高基因预测启动子的准确性,该物种基因组的启动子查询方法对得到的fastq文件中的高通量数据进行转换,使得得到的FPKM文件中基因含有高表达基因的基因编号和基因表达量。对于同一个基因来说,FPKM文件的基因编号和物种启动子文件中的基因编号是一一对应,为后续构建启动子数据库提供精准的数据,实现构建能够得到启动子的启动子数据库。
S4.采用步骤S1至步骤S3得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库。
需要说明的是,主要是根据步骤S1至步骤S3得到现有已存在任意物种的物种启动子文件和FPKM文件,建立启动子数据库。
S5.根据待查询基因组的基因编号和基因表达量在启动子数据库查询,得到与待查询基因对应的启动子。
需要说明的是,用户可以在启动子数据库查询所需要的基因的启动子,不限制任意物种的基因启动子的查询,不需要额外借助辅助工具,且查询得到的启动子的准确率高。
本发明提供的一种物种基因组的启动子查询方法,包括获取物种的基因组文件、基因组注释文件和fastq文件;依据基因组注释文件,对基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;采用步骤S1至步骤S3得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库。该物种基因组的启动子查询方法可以在启动子数据库查询所需要的基因的启动子,不限制任意物种的基因启动子的查询,不需要额外借助辅助工具,且查询得到的启动子的准确率高。解决了现有对基因启动子的预测工具存在适用性窄,需要手动配合预测工作量大且预测准确度低的技术问题。
需要说明的是,该物种基因组的启动子查询方法结合物种的基因组文件、基因组注释文件和含有高通量大数据的fastq文件,能够通过启动子数据库进行启动子精准分析并查找,且该启动子数据库适应了不同物种改造载体的需求。
在本发明的一个实施例中,在步骤S2中,依据基因组注释文件,对基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件的步骤包括:
通过基因组注释文,得到基因组文件中每个基因的所在链、基因编号、基因编码和基因编码区的坐标起始点;
对基因组文件中所有的基因依据基因编码区的坐标起始点数值进行升序排序,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
其中,基因编码区为gene(Yi)=ai,[Xis,Xiz];Yi为基因组文件中第i个基因,ai为基因Yi所在链,Xis为基因Yi的基因编码起始坐标,Xiz为基因Yi的基因编码终点坐标。
在本发明实施例中,ai为1时,基因Yi所在链为正义链;ai为-1时,基因Yi所在链为负义链。Xi为基因Yi的基因编号。例如基因Yi-2、基因Yi-1、基因Yi、基因Yi+1和基因Yi+2作为案例说明,它们对应基因的所在链分别为ai-2、ai-1、ai、ai+1和ai+2;对应基因的基因编码分别为[Xi-2s,Xi-2z]、[Xi-1s,Xi-1z]、[Xis,Xiz]、[Xi+1s,Xi+1z]、[Xi+2s,Xi+2z]。启动子序列指的是相邻基因之间的间隔非编码序列。
需要说明的是,该物种基因组的启动子查询方法通过步骤S2得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件,步骤S5查询启动子提供查询依据。
在本发明的一个实施例中,在步骤S3中,采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件的步骤包括:
对fastq文件中的高通量数据采用hisat2或Trinity软件转换得到基因表达量,并对所有基因表达量的数值大小进行降序排序,得到排序数据;
在排序数据中筛选出排名前50对应基因的高通量数据作为基础数据;
将基础数据输入Promoter配置数据库中搜索,得到含有高表达基因的FPKM文件。
需要说明的是,FPKM文件包含有基因编号和基因表达量等。
在本发明实施例中,该物种基因组的启动子查询方法从启动子数据库查询主要是根据基因所在链和起始基因编码查询,需要查询基因的启动子,例如:
若知晓该基因的所在链为ai=1,基因编码区坐标数值为Xis-Xi-1s>0且Xis-Xi-1z>0;则再判断ai-1是否为-1或1,若ai-1=1,得到启动子长度为|Xis-Xi-1z|,该基因的启动子为[Xis,Xi-1z];若ai-1=-1,得到启动子长度为|Xis-Xi-1s|,该基因的启动子为[Xis,Xi-1s]。
若知晓该基因的所在链为ai=1,基因编码区坐标数值为Xis-Xi-1s≤0或Xis-Xi-1z≤0;则再判断ai-2是否为-1或1,若ai-2=1,得到启动子长度为|Xis-Xi-2z|,该基因的启动子为[Xis,Xi-2z];若ai-2=-1,得到启动子长度为|Xis-Xi-2s|,该基因的启动子为[Xis,Xi-2s]。
若知晓该基因的所在链为ai=-1,基因编码区坐标数值为Xi+1z-Xis>0且Xi+1z-Xiz>0;则再判断ai+1是否为-1或1,若ai+1=1,得到启动子长度为|Xi+1s-Xis|,该基因的启动子为[Xi+1s,Xis]的反向互补序列;若ai+1=-1,得到启动子长度为|Xi+1z-Xis|,该基因的启动子为[Xi+1z,Xis]的反向互补序列。
若知晓该基因的所在链为ai=-1,基因编码区坐标数值为Xi+1z-Xis≤0或Xi+1z-Xiz≤0;则再判断ai+2是否为-1或1,若ai+2=1,得到启动子长度为|Xi+2s-Xis|,该基因的启动子为[Xi+2s,Xis]的反向互补序列;若ai+2=-1,得到启动子长度为|Xi+2z-Xis|,该基因的启动子为[Xi+2z,Xis]的反向互补序列。
实施例二:
图2为本发明实施例的物种基因组的启动子查询系统的框架图。
如图2所示,本发明实施例还提供一种物种基因组的启动子查询系统,包括数据获取模块10、数据处理模块20、转换模块30、数据库构建模块40和查询模块50;
数据获取模块10,用于获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件;
数据处理模块20,用于依据基因组注释文件,对基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
转换模块30,用于采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;
数据库构建模块40,用于根据数据获取模块10、数据处理模块20和转换模块30得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库;
查询模块50,用于根据待查询基因组的基因编号和基因表达量在启动子数据库查询,得到与待查询基因对应的启动子。
在本发明实施例中,数据处理模块20包括第一处理子模块和第二处理子模块;
第一处理子模块,用于通过基因组注释文件,得到基因组文件中每个基因的所在链、基因编号和基因编码区的坐标起始点;
第二处理子模块,用于对基因组文件中所有的基因依据基因编码区的坐标起始点数值进行升序排序,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
其中,基因编码区为gene(Yi)=ai,[Xis,Xiz];Yi为基因组文件中第i个基因,ai为基因Yi所在链,Xis为基因Yi的基因编码起始坐标,Xiz为基因Yi的基因编码终点坐标。
在本发明实施例中,转换模块30包括排序子模块、筛选子模块和转换子模块;
排序子模块,用于依据fastq文件中的高通量数据中所有基因表达量的数值大小进行降序排序,得到排序数据;
筛选子模块,用于在排序数据中筛选出排名前50对应基因的高通量数据作为基础数据;
转换子模块,用于将基础数据输入Promoter配置数据库中搜索,得到含有高表达基因的FPKM文件。
需要说明的是,实施例二系统中的物种基因组的启动子查询方法的内容已在实施例一中详细阐述了,在此实施例二中不再对物种基因组的启动子查询方法的内容进行详细阐述。
实施例三:
本发明实施例提供了一种物种基因组的启动子查询设备,包括处理器以及存储器;
存储器,用于存储程序代码,并将程序代码传输给处理器;
处理器,用于根据程序代码中的指令执行上述的物种基因组的启动子查询方法。
需要说明的是,处理器用于根据所程序代码中的指令执行上述的一种物种基因组的启动子查询方法实施例中的步骤。或者,处理器执行计算机程序时实现上述各系统/装置实施例中各模块/单元的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是终端设备的内部存储单元,例如终端设备的硬盘或内存。存储器也可以是终端设备的外部存储设备,例如终端设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器还可以既包括终端设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及终端设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种物种基因组的启动子查询方法,其特征在于,包括以下步骤:
S1.获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件;
S2.依据所述基因组注释文件,对所述基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
S3.采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;
S4.采用步骤S1至步骤S3得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库;
S5.根据待查询基因组的基因编号和基因表达量在所述启动子数据库查询,得到与待查询基因对应的启动子;
在步骤S3中,采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件的步骤包括:
对所述fastq文件中的高通量数据采用hisat2或Trinity软件转换得到基因表达量,并对所有基因表达量的数值大小进行降序排序,得到排序数据;
在所述排序数据中筛选出排名前50对应基因的高通量数据作为基础数据;
将所述基础数据输入Promoter配置数据库中搜索,得到含有高表达基因的FPKM文件。
2.根据权利要求1所述的物种基因组的启动子查询方法,其特征在于,在步骤S2中,依据所述基因组注释文件,对所述基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件的步骤包括:
通过所述基因组注释文件,得到所述基因组文件中每个基因的所在链、基因编号和基因编码区的坐标起始点;
对所述基因组文件中所有的基因依据基因编码区的坐标起始点数值进行升序排序,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
其中,基因编码区为gene(Yi)=ai,[Xis,Xiz];Yi为基因组文件中第i个基因,ai为基因Yi所在链,Xis为基因Yi的基因编码起始坐标,Xiz为基因Yi的基因编码终点坐标。
3.根据权利要求2所述的物种基因组的启动子查询方法,其特征在于,ai为1时,基因Yi所在链为正义链;ai为-1时,基因Yi所在链为负义链。
4.根据权利要求1所述的物种基因组的启动子查询方法,其特征在于,在步骤S1中,获取的基因组注释文件为GFF3标准格式,所述基因组注释文件的信息包括基因的染色体编号、来源、类型、链、属性以及基因序列元件在染色体的始末位置。
5.根据权利要求1所述的物种基因组的启动子查询方法,其特征在于,在步骤S1中,从NCBI数据库、JGI数据库和/或Ensembl基因组数据库中获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件。
6.一种物种基因组的启动子查询系统,其特征在于,包括数据获取模块、数据处理模块、转换模块、数据库构建模块和查询模块;
所述数据获取模块,用于获取物种的基因组文件、基因组注释文件以及物种高通量转录组的fastq文件;
所述数据处理模块,用于依据所述基因组注释文件,对所述基因组文件中的所有基因进行排序处理,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
所述转换模块,用于采用hisat2或Trinity软件将fastq文件转换为含有高表达基因的FPKM文件;
所述数据库构建模块,用于根据所述数据获取模块、所述数据处理模块和所述转换模块得到若干物种的物种启动子文件和FPKM文件,并通过若干物种的物种启动子文件和FPKM文件构建启动子数据库;
所述查询模块,用于根据待查询基因组的基因编号和基因表达量在所述启动子数据库查询,得到与待查询基因对应的启动子;
所述转换模块包括排序子模块、筛选子模块和转换子模块;
所述排序子模块,用于对所述fastq文件中的高通量数据采用hisat2或Trinity软件转换得到基因表达量,并对所有基因表达量的数值大小进行降序排序,得到排序数据;
所述筛选子模块,用于在所述排序数据中筛选出排名前50对应基因的高通量数据作为基础数据;
所述转换子模块,用于将所述基础数据输入Promoter配置数据库中搜索,得到含有高表达基因的FPKM文件。
7.根据权利要求6所述的物种基因组的启动子查询系统,其特征在于,所述数据处理模块包括第一处理子模块和第二处理子模块;
所述第一处理子模块,用于通过所述基因组注释文件,得到所述基因组文件中每个基因的所在链、基因编号和基因编码区的坐标起始点;
所述第二处理子模块,用于对所述基因组文件中所有的基因依据基因编码区的坐标起始点数值进行升序排序,得到含有基因编号和基因启动子的起始坐标、序列、长度的物种启动子文件;
其中,基因编码区为gene(Yi)=ai,[Xis,Xiz];Yi为基因组文件中第i个基因,ai为基因Yi所在链,Xis为基因Yi的基因编码起始坐标,Xiz为基因Yi的基因编码终点坐标。
8.一种物种基因组的启动子查询设备,其特征在于,包括处理器以及存储器;
所述存储器,用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行如权利要求1-5任意一项所述的物种基因组的启动子查询方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822106.XA CN113284559B (zh) | 2021-07-21 | 2021-07-21 | 一种物种基因组的启动子查询方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110822106.XA CN113284559B (zh) | 2021-07-21 | 2021-07-21 | 一种物种基因组的启动子查询方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284559A CN113284559A (zh) | 2021-08-20 |
CN113284559B true CN113284559B (zh) | 2021-10-15 |
Family
ID=77286854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110822106.XA Active CN113284559B (zh) | 2021-07-21 | 2021-07-21 | 一种物种基因组的启动子查询方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284559B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921082B (zh) * | 2021-10-27 | 2023-04-07 | 云舟生物科技(广州)股份有限公司 | 基因搜索权重调整方法、计算机存储介质及电子设备 |
CN115458063B (zh) * | 2022-09-22 | 2023-06-16 | 云舟生物科技(广州)股份有限公司 | 载体推荐方法、系统、计算机存储介质及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016518123A (ja) * | 2013-04-17 | 2016-06-23 | ライフ テクノロジーズ コーポレーション | 癌に関連付けられる遺伝子融合物及び遺伝子変異型 |
JP2017509351A (ja) * | 2013-12-30 | 2017-04-06 | ザ ヘンリー エム. ジャクソン ファウンデーション フォー ザ アドヴァンスメント オブ ミリタリー メディシン インコーポレイテッド | 前立腺癌遺伝子プロファイル及びその使用方法 |
TW201736600A (zh) * | 2016-03-11 | 2017-10-16 | 道禮責任有限公司 | 用於轉殖基因表現之植物啟動子及3’utr |
CN112562785B (zh) * | 2020-12-10 | 2024-06-14 | 哈尔滨医科大学附属第一医院 | 基于atac测序数据筛选子宫内膜癌关键基因的方法及应用 |
-
2021
- 2021-07-21 CN CN202110822106.XA patent/CN113284559B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113284559A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yandell et al. | A beginner's guide to eukaryotic genome annotation | |
Leimeister et al. | Fast alignment-free sequence comparison using spaced-word frequencies | |
Heyne et al. | GraphClust: alignment-free structural clustering of local RNA secondary structures | |
US20170199959A1 (en) | Genetic analysis systems and methods | |
Klein et al. | RSEARCH: finding homologs of single structured RNA sequences | |
Cline et al. | Using bioinformatics to predict the functional impact of SNVs | |
Fogel | Computational intelligence approaches for pattern discovery in biological systems | |
Shameer et al. | STIFDB—Arabidopsis stress responsive transcription factor dataBase | |
Bailey | Discovering novel sequence motifs with MEME | |
Mahony et al. | Transcription factor binding site identification using the self-organizing map | |
CN113284559B (zh) | 一种物种基因组的启动子查询方法、系统及设备 | |
Chakravarty et al. | A novel ensemble learning method for de novo computational identification of DNA binding sites | |
Li et al. | sRNAminer: a multifunctional toolkit for next-generation sequencing small RNA data mining in plants | |
JP2020154442A (ja) | 生物反応情報処理システムおよび生物反応情報処理方法 | |
US20030200033A1 (en) | High-throughput alignment methods for extension and discovery | |
Kesheri et al. | Advances in soft computing approaches for gene prediction: a bioinformatics approach | |
CN115424670A (zh) | 一种构建物种基因组信息数据库的方法、设备和介质 | |
Ye et al. | MAP2: multiple alignment of syntenic genomic sequences | |
Eggenhofer et al. | CMCompare webserver: comparing RNA families via covariance models | |
Schulz et al. | Sequence-based pangenomic core detection | |
Zhang et al. | Comparative analysis of core and accessory genes in coexpression network | |
Liu et al. | Amino acid based de Bruijn graph algorithm for identifying complete coding genes from metagenomic and metatranscriptomic short reads | |
Liu et al. | Genome‐wide identification and analysis of the chicken basic helix‐loop‐helix factors | |
Gutiérrez et al. | The plant-specific database. Classification of Arabidopsis proteins based on their phylogenetic profile | |
Kankainen et al. | POCO: discovery of regulatory patterns from promoters of oppositely expressed gene sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |