[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112735525A - 一种基于分治法的mRNA序列优化的方法与装置 - Google Patents

一种基于分治法的mRNA序列优化的方法与装置 Download PDF

Info

Publication number
CN112735525A
CN112735525A CN202110039347.7A CN202110039347A CN112735525A CN 112735525 A CN112735525 A CN 112735525A CN 202110039347 A CN202110039347 A CN 202110039347A CN 112735525 A CN112735525 A CN 112735525A
Authority
CN
China
Prior art keywords
codon
codons
mrna sequence
optimized
protein expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110039347.7A
Other languages
English (en)
Other versions
CN112735525B (zh
Inventor
孙振华
侯强波
左炽健
董世英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Kerui Maide Biomedical Technology Co ltd
Original Assignee
Jiangsu Purecell Bio Medicine Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Purecell Bio Medicine Technology Co ltd filed Critical Jiangsu Purecell Bio Medicine Technology Co ltd
Priority to CN202110039347.7A priority Critical patent/CN112735525B/zh
Publication of CN112735525A publication Critical patent/CN112735525A/zh
Application granted granted Critical
Publication of CN112735525B publication Critical patent/CN112735525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及一种基于分治法的mRNA序列优化的方法和装置,采用分治法对mRNA序列优化,通过在每次合并后均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,能够保证优化的mRNA序列不具有上述影响表达的因素,生成序列结构稳定,优化序列表达效率高。同时采用的分治法具有优化速度快,可进行批量序列优化的特点。

Description

一种基于分治法的mRNA序列优化的方法与装置
技术领域
本申请属于基因优化技术领域,尤其是涉及一种基于分治法的mRNA序列优化的方法与装置。
背景技术
遗传密码子有64种,但是大部分生物倾向于利用这些密码子中的一部分,被频繁用到的密码子称为最佳密码子,不被经常用到的被称为稀有密码子。密码子优化是一种基因工程方法,通常用于增强重组蛋白表达。当功能蛋白在外源宿主中表达,由于功能蛋白基因使用了低频密码子等因素,会使其在外源宿主中很难表达。由于密码子简并性,每个氨基酸平均有三个对应密码子,这使得不同的核苷酸序列可以编码出相同的氨基酸序列。可以通过同义密码子替换使基因与宿主的密码子使用频率相匹配来提高蛋白表达水平。近年来,具有合适密码子用法的合成基因序列已成为试图改善重组表达的重要工具之一。到目前为止,通常主要通过选择表达宿主中频繁出现的密码子来优化编码区,这主要是通过商业供应商的专有算法来进行的。必须注意的是,不同的优化算法采用不同的方法来确定表达宿主中的密码子频率,例如,基于所有蛋白质编码基因中或仅针对有限的一组高度表达基因中的密码子使用;另一种选择是,根据表达宿主中同源tRNA基因的拷贝数确定首选密码子。此外,大多数密码子优化算法都是多参数算法,同时还要考虑其他几个因素。这些措施包括针对所需的GC含量,避免5'UTR中强大的mRNA二级结构以及避免某些不想要的基序,例如重复序列和RNase位点等。
mRNA降解是基因表达中的关键调控因素,研究表明密码子最优性具有促进mRNA稳定性的功能。生物信息学分析表明最佳密码子的百分比与mRNA半衰期之间具有很强的相关性。例如,具有少于40%最佳密码子的mRNA的中位半衰期为5.3分钟,而具有超过70%最佳密码子的mRNA的平均半衰期为20.1分钟。全基因组的RNA衰减分析表明,稳定的mRNA富含指定为最佳的密码子,而不稳定的mRNA则主要包含非最佳密码子。用同义的非最佳密码子替代最佳密码子会导致mRNA大幅失稳,而相反的替换会显著增加稳定性。此外,密码子最优性影响核糖体易位,通过密码子最优性连接翻译延伸和衰变的过程,所以密码子优化可作为微调mRNA和最终蛋白质表达水平的一种机制而存在。目前常用密码子优化方法具有优化时间长,序列表达效率较低的现象。
发明内容
本发明主要是解决目前常用密码子优化方法具有优化时间长,序列表达效率较低的现象,不同与现有密码子优化方法,本发明在提高表达效率的同时也尽可能地降低序列自由能以达到提高mRNA稳定性的目的。
本发明解决其技术问题所采用的技术方案是:
一种基于分治法的mRNA序列优化的方法,包括以下步骤:
S1:获取一段待优化的mRNA序列,截取蛋白质编码区,并且获取mRNA序列来源物种的相同蛋白质对应的密码子的使用频率;
S2:将mRNA序列连续均分若干次,最终均分得到仅含有1个密码子的序列片段;
S3:将表达为相同蛋白质的密码子统一替换成S1步骤中使用频率最高的密码子;
S4:逆向操作均分过程,从2个密码子开始进行合并直至合并形成与待优化的mRNA序列相同的长度,每次合并均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,若没有发夹结构和影响蛋白表达的因素则进入下一次合并,否则则将发夹结构处或者影响蛋白表达的因素处的密码子替换成与替换前的密码子相比使用频率更小的密码子;
S5:以S4步骤确定的mRNA序列作为优化后的mRNA序列。
优选地,本发明的基于分治法的mRNA序列优化的方法,S4步骤中每次合并检查时还检查GC含量,若GC含量不处于百分之三十和七十之间时,则将其中的至少一个密码子替换成与替换前的密码子相比使用频率更小的密码子,直至GC含量处于百分之三十和七十之间。
优选地,本发明的基于分治法的mRNA序列优化的方法,所述影响蛋白表达的因素包括:特定限制酶识别位点、Chi-site延伸重组热点、SD核糖体结合位点序列、CpG含量、TATAbox、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E、真核表达中的PolyA结构和隐蔽剪切位点。
优选地,本发明的基于分治法的mRNA序列优化的方法,还包括S6步骤,计算优化后的mRNA序列的密码子适应指数。
优选地,本发明的基于分治法的mRNA序列优化的方法,S4步骤中当密码子合并达到设定的阈值长度才开始检查是否有发夹结构生成以及是否具有影响蛋白表达的因素。
本申请还提供一种基于分治法的mRNA序列优化的装置,包括:
数据获取模块:用于获取一段待优化的mRNA序列,截取蛋白质编码区;
密码子频率确定模块:用于获取mRNA序列来源物种的相同蛋白质对应的密码子的使用频率;
序列均分模块:用于将mRNA序列连续均分若干次,最终均分得到仅含有1个密码子的序列片段;
密码子替换模块:将表达为相同蛋白质的密码子统一替换成密码子频率确定模块中使用频率最高的密码子;
密码子合并模块:用于逆向操作均分过程,从2个密码子开始进行合并直至合并形成与待优化的mRNA序列相同的长度,每次合并均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,若没有发夹结构和影响蛋白表达的因素则进入下一次合并,否则则将发夹结构处或者影响蛋白表达的因素处的密码子替换成与替换前的密码子相比使用频率更小的密码子;
结果输出模块:用于以密码子合并模块确定的mRNA序列作为优化后的mRNA序列。
优选地,本发明的基于分治法的mRNA序列优化的装置,密码子合并模块中每次合并检查时还检查GC含量,若GC含量不处于百分之三十和七十之间时,则将其中的至少一个密码子替换成与替换前的密码子相比使用频率更小的密码子,直至GC含量处于百分之三十和七十之间。
优选地,本发明的基于分治法的mRNA序列优化的装置,所述影响蛋白表达的因素包括:特定限制酶识别位点、Chi-site延伸重组热点、SD核糖体结合位点序列、CpG含量、TATAbox、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E、真核表达中的PolyA结构和隐蔽剪切位点。
优选地,本发明的基于分治法的mRNA序列优化的装置,还包括密码子适应指数计算模块,所述密码子适应指数计算模块用于计算优化后的mRNA序列的密码子适应指数。
优选地,本发明的基于分治法的mRNA序列优化的装置,密码子合并模块中当密码子合并达到设定的阈值长度才开始检查是否有发夹结构生成以及是否具有影响蛋白表达的因素。
本发明的有益效果是:
本申请的基于分治法的mRNA序列优化的方法和装置,采用分治法对mRNA序列优化,通过在每次合并后均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,能够保证优化的mRNA序列不具有上述影响表达的因素,生成序列结构稳定,优化序列表达效率高。同时采用的分治法具有优化速度快,可进行批量序列优化的特点。
附图说明
下面结合附图和实施例对本申请的技术方案进一步说明。
图1是本申请实施例的基于分治法的mRNA序列优化的方法的流程图;
图2是本申请效果实施例中的定OD测定值以及跑1%琼脂糖凝胶电泳鉴定酶切纯化产物图;
图3是本申请效果实施例中RNA电泳图;
图4是本申请效果实施例中eGFP-DC与eGFP-control体外转录mRNA转染显微镜荧光图;
图5是本申请效果实施例中流式检测结果分析。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本申请的技术方案。
实施例1
本实施例提供一种基于分治法的mRNA序列优化的方法,如图1所示,包括以下步骤:
S1:获取一段待优化的mRNA序列,截取蛋白质编码区,并且获取mRNA序列来源物种的相同蛋白质对应的密码子的使用频率;可以从ncbi下载表达目的基因物种的全基因组测序文件与注释文件,截取蛋白质编码区,统计该物种各种蛋白质的密码子的使用频率,将同一种蛋白质的密码子按照出现的频率进行排序形成使用频率,使用频率高的密码子将优先在优化时使用;
S2:将mRNA序列连续均分若干次,最终均分得到仅含有1个密码子的序列片段;比如mRNA序列长度为M bp,则进行连续均分以满二叉树的形式表示,最后一层有节点M/3个,共有log2(M/3)+1层,也即最后一层为1个密码子(3个碱基),倒数第二层为2个密码子,倒数第三层为4个密码子……;
S3:将表达为相同蛋白质的密码子统一替换成S1步骤中使用频率最高的密码子;
S4:逆向操作均分过程,从2个密码子开始进行合并直至合并形成与待优化的mRNA序列相同的长度,每次合并均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,若没有发夹结构和影响蛋白表达的因素则进入下一次合并,否则则将发夹结构处或者影响蛋白表达的因素处的密码子替换成与替换前的密码子相比使用频率更小的密码子(也即从使用频率的排序中,顺序选择使用频率更小的密码子);
S5:以S4步骤确定的mRNA序列作为优化后的mRNA序列。
本实施例的基于分治法的mRNA序列优化的方法,采用分治法对mRNA序列优化,通过在每次合并后均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,能够保证优化的mRNA序列不具有上述影响表达的因素,生成序列结构稳定,优化序列表达效率高。同时采用的分治法具有优化速度快,可进行批量序列优化的特点。
分治法的算法设计模式如下,以下为举例:
Divide-and-Conquer(P)
1.if|P|≤n0
2.then return(ADHOC(P))
3.将P分解为较小的子问题P1,P2,...,Pk
4.for i←1 to k
5.do yi←Divide-and-Conquer(Pi)//递归解决子问题Pi
6.T←MERGE(y1,y2,...,yk)//合并子问题的解
7.return(T)
|P|表示原问题P的规模;n0表示一阈值,当问题P的规模小于等于n0时,问题可直接解出,无需继续分解。ADHOC(P)是表示基本子算法,用于解小规模的问题P,当P的规模小于等于n0时直接用算法ADHOC(P)求解。算法MERGE(y1,y2,...,yk)表示该算法中的合并子算法,用于将P的子问题P1,P2,...,Pk的相对应的解y1,y2,...,yk合并为P的解T。
作为一种改进,S4步骤中每次合并检查时还检查GC含量(碱基中G和C的占比),若GC含量不处于百分之三十和七十之间时,则将其中的至少一个密码子替换成与替换前的密码子相比使用频率更小的密码子,直至GC含量处于百分之三十和七十之间。GC含量处于百分之三十和七十之间时,表达效率更高。每次合并后均检查GC含量,还能保证GC尽可能均匀分布在整个基因序列上。
作为一种改进,所述影响蛋白表达的因素包括:特定限制酶识别位点、Chi-site延伸重组热点、SD核糖体结合位点序列、CpG含量、TATA box、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E、真核表达中的PolyA结构和隐蔽剪切位点。通过避免影响蛋白表达的因素可以保障蛋白质的表达。也即通过微调避开某些特定限制酶识别位点,检查Chi-site延伸重组热点(原核)、SD核糖体结合位点序列(原核)、CpG含量(真核中影响转录启动)、TATA box(真核中影响转录启动)、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E(影响mRNA结构稳定性)、真核表达中的PolyA结构(可能干扰提前终止)、隐蔽剪切位点以及其他未知的可能影响转录和翻译的影响因素。
作为一种改进,还包括S6步骤,计算优化后的mRNA序列的密码子适应指数。密码子适应指数(CAI):是指编码区同义密码子与最佳密码子使用频率的相符程度,取值在0-1之间。CAI可以用来评估外源基因在宿主内的表达水平,CAI越高,则外源基因在宿主内的表达水平越高。
作为一种改进,S4步骤中当密码子合并达到设定的阈值长度才开始检查是否有发夹结构生成以及是否具有影响蛋白表达的因素。由于序列较短时,通常不会发生发夹结构和影响蛋白表达的因素,因此,在长度到达设定阈值后再进行检查(比如设置为大于12个碱基时进行检查),可以提高处理效率。
实施例2
本发明还提供一种基于分治法的mRNA序列优化的装置,包括:
数据获取模块:用于获取一段待优化的mRNA序列,截取蛋白质编码区;
密码子频率确定模块:用于获取mRNA序列来源物种的相同蛋白质对应的密码子的使用频率;
序列均分模块:用于将mRNA序列连续均分若干次,最终均分得到仅含有1个密码子的序列片段;
密码子替换模块:将表达为相同蛋白质的密码子统一替换成密码子频率确定模块中使用频率最高的密码子;
密码子合并模块:用于逆向操作均分过程,从2个密码子开始进行合并直至合并形成与待优化的mRNA序列相同的长度,每次合并均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,若没有发夹结构和影响蛋白表达的因素则进入下一次合并,否则则将发夹结构处或者影响蛋白表达的因素处的密码子替换成与替换前的密码子相比使用频率更小的密码子;
结果输出模块:用于以密码子合并模块确定的mRNA序列作为优化后的mRNA序列。
作为一种改进,密码子合并模块中每次合并检查时还检查GC含量,若GC含量不处于百分之三十和七十之间时,则将其中的至少一个密码子替换成与替换前的密码子相比使用频率更小的密码子,直至GC含量处于百分之三十和七十之间。
作为一种改进,所述影响蛋白表达的因素包括:特定限制酶识别位点、Chi-site延伸重组热点、SD核糖体结合位点序列、CpG含量、TATA box、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E、真核表达中的PolyA结构和隐蔽剪切位点。
作为一种改进,还包括密码子适应指数计算模块,所述密码子适应指数计算模块用于计算优化后的mRNA序列的密码子适应指数。
作为一种改进,密码子合并模块中当密码子合并达到设定的阈值长度才开始检查是否有发夹结构生成以及是否具有影响蛋白表达的因素。
本实施例的基于分治法的mRNA序列优化的装置与实施例的方法相对应,优点与实施例1中的相同。
效果实施例
1.实验方法:
1.1使用分治法优化eGFP序列命名为eGFP-DC,未优化的对照组命名为eGFP-control,构建质粒(pUC57为载体)。
1.2线性质粒模板制备:
①质粒抽提:采用商业化试剂盒提取质粒;
②采用XbaI单酶切质粒方法获得线性化质粒模板;
③鉴定:测定OD值和1%琼脂糖凝胶电泳。
1.3 eGFP-DC与eGFP-control线性加帽加尾mRNA制备:
①采用T7 Polymerase体外合成线性加帽加尾mRNA;
②制备的mRNA采用商业化硅膜离心柱纯化;
③鉴定:Nanodrop测纯化后RNA的浓度并跑1%甲醛变性琼脂糖凝胶电泳鉴定。
1.4不同密码子优化eGFP cell水平验证:
转染293Tcell-24h,
在荧光显微镜观察不同密码子方法优化eGFP表达差异;
使用Flow Cytometry定量检测不同密码子优化序列eGFP表达。
2.具体实验步骤:
2.1 eGFP-DC与eGFP-control质粒构建
将不同密码子优化的eGFP目的序列插入pUC57载体。
2.2 eGFP-DC与eGFP-control体外转录线性质粒模板制备
1)质粒抽提
①将外部合成的穿刺菌活化,条件37℃/220rpm/3~4h;
②取活化菌液扩大培养,培养条件:37℃/220rpm/过夜;
③质粒抽提(天根无内毒素小量中提试剂盒),测定OD值。
2)质粒酶切
采取XbaI单酶切的方法酶切上述1)制备质粒
酶切体系如下:
Figure BDA0002903307540000061
Figure BDA0002903307540000071
37℃,酶切过夜;采用直接过柱的回收酶切产物的方法(天根通用型DNA胶回收试剂盒),测定OD值并跑1%琼脂糖凝胶电泳鉴定酶切纯化产物(见图2);纯化的线性质粒模板用于体外转录。
2.3 eGFP-DC与eGFP-control体外转录mRNA制备
1)IVT线性加帽加尾mRNA合成
采用体外转录(HyperScribeTM All in One mRNA Synthesis Kit II(EZ CapReagent AG(3'OMe)T7,poly(A)))的方法合成mRNA
过程如下:
Capped RNA Synthesis
Figure BDA0002903307540000072
经过37℃孵育2h,然后用DNaseI消化未转录的线性DNA模板,消化条件:37℃消化15min
b.Poly(A)Tailing
Figure BDA0002903307540000073
2)IVT线性加帽加尾mRNA纯化
将上述转录反应液,用硅胶膜离心柱法纯化(Thermo,GeneJET RNA PurificationKit),最后得到的RNA用Water-nuclease,H2O洗脱
3)线性加帽加尾mRNA鉴定
Nanodrop测定RNA浓度,跑1%甲醛变性琼脂糖凝胶电泳鉴定RNA大小,过程如下:
1%变性琼脂糖凝胶配方:
称取1g琼脂糖,至72ml nuclease-free,H2O中,微波炉加热溶解
上述冷却至55~60℃时,在通风橱加0.1%的gel red,10ml 10xMOPS,18ml甲醛,灌胶
变性琼脂糖凝胶电泳:
取等体积样本RNA与2x Loading buffer,65~70℃变性5~10min
②上样(RNA上样量500ng),100V/30min,照胶(见图3)
2.4.eGFP-DC与eGFP-control体外转录mRNA转染293T cell-24h显微镜荧光观察(图4)及流式检测结果分析(图5);
2.5实验结果:
使用分治法优化的eGFP序列表达水平比较高,优化效率明显。
以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims (10)

1.一种基于分治法的mRNA序列优化的方法,其特征在于,包括以下步骤:
S1:获取一段待优化的mRNA序列,截取蛋白质编码区,并且获取mRNA序列来源物种的相同蛋白质对应的密码子的使用频率;
S2:将mRNA序列连续均分若干次,最终均分得到仅含有1个密码子的序列片段;
S3:将表达为相同蛋白质的密码子统一替换成S1步骤中使用频率最高的密码子;
S4:逆向操作均分过程,从2个密码子开始进行合并直至合并形成与待优化的mRNA序列相同的长度,每次合并均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,若没有发夹结构和影响蛋白表达的因素则进入下一次合并,否则则将发夹结构处或者影响蛋白表达的因素处的密码子替换成与替换前的密码子相比使用频率更小的密码子;
S5:以S4步骤确定的mRNA序列作为优化后的mRNA序列。
2.根据权利要求1所述的基于分治法的mRNA序列优化的方法,其特征在于,S4步骤中每次合并检查时还检查GC含量,若GC含量不处于百分之三十和七十之间时,则将其中的至少一个密码子替换成与替换前的密码子相比使用频率更小的密码子,直至GC含量处于百分之三十和七十之间。
3.根据权利要求1或2所述的基于分治法的mRNA序列优化的方法,其特征在于,所述影响蛋白表达的因素包括:特定限制酶识别位点、Chi-site延伸重组热点、SD核糖体结合位点序列、CpG含量、TATA box、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E、真核表达中的PolyA结构和隐蔽剪切位点。
4.根据权利要求1-3任一项所述的基于分治法的mRNA序列优化的方法,其特征在于,还包括S6步骤,计算优化后的mRNA序列的密码子适应指数。
5.根据权利要求1-4任一项所述的基于分治法的mRNA序列优化的方法,其特征在于,S4步骤中当密码子合并达到设定的阈值长度才开始检查是否有发夹结构生成以及是否具有影响蛋白表达的因素。
6.一种基于分治法的mRNA序列优化的装置,其特征在于,包括:
数据获取模块:用于获取一段待优化的mRNA序列,截取蛋白质编码区;
密码子频率确定模块:用于获取mRNA序列来源物种的相同蛋白质对应的密码子的使用频率;
序列均分模块:用于将mRNA序列连续均分若干次,最终均分得到仅含有1个密码子的序列片段;
密码子替换模块:将表达为相同蛋白质的密码子统一替换成密码子频率确定模块中使用频率最高的密码子;
密码子合并模块:用于逆向操作均分过程,从2个密码子开始进行合并直至合并形成与待优化的mRNA序列相同的长度,每次合并均检查是否有发夹结构生成以及是否具有影响蛋白表达的因素,若没有发夹结构和影响蛋白表达的因素则进入下一次合并,否则则将发夹结构处或者影响蛋白表达的因素处的密码子替换成与替换前的密码子相比使用频率更小的密码子;
结果输出模块:用于以密码子合并模块确定的mRNA序列作为优化后的mRNA序列。
7.根据权利要求6所述的基于分治法的mRNA序列优化的装置,其特征在于,密码子合并模块中每次合并检查时还检查GC含量,若GC含量不处于百分之三十和七十之间时,则将其中的至少一个密码子替换成与替换前的密码子相比使用频率更小的密码子,直至GC含量处于百分之三十和七十之间。
8.根据权利要求6或7所述的基于分治法的mRNA序列优化的装置,其特征在于,所述影响蛋白表达的因素包括:特定限制酶识别位点、Chi-site延伸重组热点、SD核糖体结合位点序列、CpG含量、TATA box、串联稀有密码子、起始密码子与终止密码子环境、核糖核酸酶E、真核表达中的PolyA结构和隐蔽剪切位点。
9.根据权利要求6-8任一项所述的基于分治法的mRNA序列优化的装置,其特征在于,还包括密码子适应指数计算模块,所述密码子适应指数计算模块用于计算优化后的mRNA序列的密码子适应指数。
10.根据权利要求6-9任一项所述的基于分治法的mRNA序列优化的装置,其特征在于,密码子合并模块中当密码子合并达到设定的阈值长度才开始检查是否有发夹结构生成以及是否具有影响蛋白表达的因素。
CN202110039347.7A 2021-01-18 2021-01-18 一种基于分治法的mRNA序列优化的方法与装置 Active CN112735525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110039347.7A CN112735525B (zh) 2021-01-18 2021-01-18 一种基于分治法的mRNA序列优化的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110039347.7A CN112735525B (zh) 2021-01-18 2021-01-18 一种基于分治法的mRNA序列优化的方法与装置

Publications (2)

Publication Number Publication Date
CN112735525A true CN112735525A (zh) 2021-04-30
CN112735525B CN112735525B (zh) 2023-12-26

Family

ID=75592769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110039347.7A Active CN112735525B (zh) 2021-01-18 2021-01-18 一种基于分治法的mRNA序列优化的方法与装置

Country Status (1)

Country Link
CN (1) CN112735525B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851190A (zh) * 2021-11-01 2021-12-28 四川大学华西医院 一种异种mRNA序列优化方法
CN114708909A (zh) * 2022-03-21 2022-07-05 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质
CN117497092A (zh) * 2024-01-02 2024-02-02 合肥微观纪元数字科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997048370A2 (en) * 1996-06-21 1997-12-24 Merck & Co., Inc. Vaccines comprising synthetic genes
WO2002098443A2 (de) * 2001-06-05 2002-12-12 Curevac Gmbh Stabilisierte mrna mit erhöhtem g/ c- gehalt und otimierter codon usage für die gentherapie
CN101134966A (zh) * 1997-10-20 2008-03-05 Gtc生物治疗学公司 修饰的核酸序列以及增加细胞系统中mRNA水平和蛋白质表达的方法
JP2009538131A (ja) * 2006-05-25 2009-11-05 インスティチュート フォー アドバンスド スタディ 配列モチーフを同定するための方法、およびその応用
US20110081708A1 (en) * 2009-10-07 2011-04-07 Genscript Holdings (Hong Kong) Limited Method of Sequence Optimization for Improved Recombinant Protein Expression using a Particle Swarm Optimization Algorithm
US20130123483A1 (en) * 2002-12-23 2013-05-16 Geneart Ag Method and device for optimizing a nucelotide sequence for the purpose of expression in a protein
CN104673802A (zh) * 2015-03-12 2015-06-03 山东大学第二医院 一种编码irisin蛋白的核酸分子以及利用该核酸分子高效表达irisin蛋白的方法
US20170016008A1 (en) * 2015-07-15 2017-01-19 The Penn State Research Foundation DESIGN OF mRNA SEQUENCES TO CONTROL CO-TRANSLATIONAL FOLDING OF PROTEINS
WO2018104385A1 (en) * 2016-12-07 2018-06-14 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Codon optimization
CN108363904A (zh) * 2018-02-07 2018-08-03 南京林业大学 一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法
WO2019020054A1 (zh) * 2017-07-25 2019-01-31 南京金斯瑞生物科技有限公司 一种基于免疫算法的密码子优化方法
CN110491447A (zh) * 2019-08-05 2019-11-22 浙江省农业科学院 一种用于异源基因体外表达的密码子优化方法及应用
TW202008379A (zh) * 2018-07-30 2020-02-16 大陸商南京金斯瑞生物科技有限公司 密碼子優化

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997048370A2 (en) * 1996-06-21 1997-12-24 Merck & Co., Inc. Vaccines comprising synthetic genes
CN101134966A (zh) * 1997-10-20 2008-03-05 Gtc生物治疗学公司 修饰的核酸序列以及增加细胞系统中mRNA水平和蛋白质表达的方法
WO2002098443A2 (de) * 2001-06-05 2002-12-12 Curevac Gmbh Stabilisierte mrna mit erhöhtem g/ c- gehalt und otimierter codon usage für die gentherapie
US20130123483A1 (en) * 2002-12-23 2013-05-16 Geneart Ag Method and device for optimizing a nucelotide sequence for the purpose of expression in a protein
JP2009538131A (ja) * 2006-05-25 2009-11-05 インスティチュート フォー アドバンスド スタディ 配列モチーフを同定するための方法、およびその応用
US20110081708A1 (en) * 2009-10-07 2011-04-07 Genscript Holdings (Hong Kong) Limited Method of Sequence Optimization for Improved Recombinant Protein Expression using a Particle Swarm Optimization Algorithm
CN104673802A (zh) * 2015-03-12 2015-06-03 山东大学第二医院 一种编码irisin蛋白的核酸分子以及利用该核酸分子高效表达irisin蛋白的方法
US20170016008A1 (en) * 2015-07-15 2017-01-19 The Penn State Research Foundation DESIGN OF mRNA SEQUENCES TO CONTROL CO-TRANSLATIONAL FOLDING OF PROTEINS
WO2018104385A1 (en) * 2016-12-07 2018-06-14 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Codon optimization
WO2019020054A1 (zh) * 2017-07-25 2019-01-31 南京金斯瑞生物科技有限公司 一种基于免疫算法的密码子优化方法
CN108363904A (zh) * 2018-02-07 2018-08-03 南京林业大学 一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法
TW202008379A (zh) * 2018-07-30 2020-02-16 大陸商南京金斯瑞生物科技有限公司 密碼子優化
CN110491447A (zh) * 2019-08-05 2019-11-22 浙江省农业科学院 一种用于异源基因体外表达的密码子优化方法及应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KATZ, L,等: "Widespread selection for local RNA secondary structure in coding regions of bacterial genes", GENOME RESEARCH, vol. 13, no. 9, pages 2042 - 2051, XP093050903, DOI: 10.1101/gr.1257503 *
杨云彭,等: "密码子优化策略在异源蛋白表达中的应用", 生物工程学报, no. 12, pages 2227 - 2237 *
肖景发,等: "遗传密码的新排列和起源探讨", 中国科学(C辑:生命科学), no. 08, pages 717 - 726 *
袁巧敏,等: "家蝇乙酰胆碱酯酶基因密码子优化及酶学特性表征", 中国食品学报, vol. 20, no. 12, pages 72 - 80 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113851190A (zh) * 2021-11-01 2021-12-28 四川大学华西医院 一种异种mRNA序列优化方法
CN114708909A (zh) * 2022-03-21 2022-07-05 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质
WO2023179273A1 (zh) * 2022-03-21 2023-09-28 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质
CN114708909B (zh) * 2022-03-21 2023-10-20 深圳市新合生物医疗科技有限公司 mRNA序列的优化方法及装置、设备、存储介质
CN117497092A (zh) * 2024-01-02 2024-02-02 合肥微观纪元数字科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统
CN117497092B (zh) * 2024-01-02 2024-05-14 微观纪元(合肥)量子科技有限公司 基于动态规划和量子退火的rna结构预测方法及系统

Also Published As

Publication number Publication date
CN112735525B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN112735525B (zh) 一种基于分治法的mRNA序列优化的方法与装置
Boldogkői et al. Long-read sequencing–a powerful tool in viral transcriptome research
JP5483628B2 (ja) 正確な配列データおよび修飾塩基位置決定の方法
CN105849276B (zh) 用于检测结构变异体的系统和方法
JP7171709B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
EP2668277A1 (en) Method for the construction of specific promoters
WO2016011378A1 (en) Systems and methods for detecting structural variants
CN110878334B (zh) 用于扩增子测序的引物及两步pcr建库方法
CN116179512B (zh) 靶标识别范围广的核酸内切酶及其应用
US20240254465A1 (en) Heat-resistant endonuclease and gene editing system mediated by heat-resistant endonuclease
CN116410955B (zh) 两种新型核酸内切酶及其在核酸检测中的应用
CN117210437A (zh) 两种基因编辑工具酶鉴定及其在核酸检测中的应用
CN115843318B (zh) 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用
CN113293200B (zh) 一种降低或消除二代测序中扩增产物污染的方法及应用
US11685948B2 (en) Method for analyzing a nucleic acid sequence
CN114214734A (zh) 一种单分子靶标基因建库方法及其试剂盒
CN113969311B (zh) 一种检测基因编辑后的突变的方法
CN116286991B (zh) 全基因组增强子筛选系统、筛选方法及应用
CN118599978A (zh) 一种piRNA的分析方法
Grybchuk et al. Analysis of Leishbuviridae from Trypanosomatids
CN118755698A (zh) Pam兼容性高的基因编辑核酸内切酶及其应用
Gvozdenov Genome‐Wide Mapping of 5′ Isoforms with 5′‐Seq
CN118345153A (zh) 基于ONT测序的动植物转录组poly(A)的测定分析方法
WO2024174032A1 (en) Sequence analysis of manufactured genetic constructs
Kahraman Evaluation of blood-based microRNAs toward clinical use as biomarkers in common and rare diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220208

Address after: 215000 unit 201, building 23, Tengfei Science Park, No. 388, Xinping street, Suzhou Industrial Park, Suzhou area, China (Jiangsu) pilot Free Trade Zone, Suzhou, Jiangsu Province

Applicant after: Suzhou Kerui Maide Biomedical Technology Co.,Ltd.

Address before: 215000 units 01, 2 / F and 05 & 06 & 07 & 08 & 09 & 10, 1 / F, building 23, Tengfei Science Park, No. 388, Xinping street, Suzhou Industrial Park, Jiangsu Province

Applicant before: JIANGSU PURECELL BIO MEDICINE TECHNOLOGY Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210430

Assignee: Shanghai Shenruilian Biopharmaceutical Co.,Ltd.

Assignor: Suzhou Kerui Maide Biomedical Technology Co.,Ltd.

Contract record no.: X2023310000140

Denomination of invention: A Method and Device for Optimizing mRNA Sequences Based on Divide and Conquer Method

License type: Exclusive License

Record date: 20230731

GR01 Patent grant
GR01 Patent grant