一种分子接头及其应用
技术领域
本发明涉及测序技术领域,用于受检样本建库中的分子接头及应用;同时应用于超低频基因突变检测的分子接头及应用;尤其是具有鉴别功能的分子接头制备及构建待测样本测序文库的方法。
背景技术
肿瘤是异质性细胞的混合体,测序可以检测其中的罕见突变,二代测序具有多样本、多基因的优势,同时还可以发现未知的突变位点,所以二代测序可以用于肿瘤的早期筛查和诊断,复发监控,疗效评估等。
ctDNA是肿瘤患者体液中游离的DNA(circulating tumor DNA,ctDNA),来自于肿瘤细胞坏死或凋亡等过程释放,存在于血液、尿液、脑脊液等体液中。ctDNA释放入血,携带有肿瘤的相关信息,因此通过ctDNA的检测可以反映肿瘤相关基因的特异性变异,进而了解肿瘤的特征。
因血浆中ctDNA含量极低,实验过程复杂,样本用量及实验次数受限制,且样本准备及测序前期文库构建及杂交捕获过程中存在损失,因此利用高通量测序(二代测序)技术获取的有效数据率偏低;加之血浆中ctDNA样本容易受基因组DNA的污染,导致测序背景噪音过高;此外测序过程中文库富集、后续的杂交捕获及测序都存在不同程度的氧化损伤,产生假阳性突变,将掩盖样本中的罕见突变,特别是血浆中有限的ctDNA,限制了检测灵敏度。因此受检样本连接上传统的接头只能通过分子标签区分不同的样本,然而因样本DNA量太低、背景信号过高、假阳性突变等原因,数据分析时很难剔除干扰,无法真实反映样本DNA所携带的肿瘤信息,尤其是ctDNA的检测。
发明内容
基于上述问题,本发明的目的是根据illumina测序平台,优化illumina测序接头设计出具有稳定性好、与样本DNA连接效率高、具有校正功能的分子接头。该分子接头能够检测突变频率低至0.05%突变位点。
一种分子接头,该分子接头是呈钥匙状结构的核苷酸序列,包括非互补环状序列、互补双链序列和位于互补双链序列5’端的校正标签,
(1)非互补环状序列中脱氧尿嘧啶dU两侧序列包含
CACACGTCTGAACTCCAGTCACdUACACTCTTTCCCTACACGACG;
(2)互补双链序列3’端含有能够与随机碱基互补配对的延伸区且3’端经化学修饰为具有防止核酸酶降解的功能;
(3)互补双链序列5’-3’依次为保护碱基、酶切识别碱基、4-12个随机碱基。
(4)校正标签5’→3’由保护碱基和4-12个随机碱基组成,且5’端经化学修饰为具有防止核酸酶降解的功能。
在一种实施方式中,所述非互补环状序列长度为42-54bp,所述互补双链序列长度为10-22bp。
在一种实施方式中,所述校正标签5’端经磷酸基团修饰;所述互补双链序列3’端倒数第一个碱基与倒数第二个碱基之间硫化修饰。
在一种实施方式中,校正标签中为8个随机碱基。
在一种优选的实施方式中,分子接头序列为:
PHO-5’-TTCTACAGTACNNNNNNNNAGATCGGAAGAG.....CACACGTCTGAACTCCAGTCACdUACACTCTTTCCCTACACGACG....CTCTTCCGATC*T-3……
注:PHO代表5’端磷酸化,这里的N表示A/T/G/C中任何一个碱基,dU代表脱氧尿嘧啶,dU左边与右边下划线为互补区域,*代表硫化修饰,虚线“……”代表延伸区,斜体部分为限制性内切酶识别区。
一种构建待测样本测序文库的方法,利用上述任一项所述的分子接头作为测序文库的接头,然后执行:
1)加入DNA聚合酶,梯度退火延伸后用能够产生T粘性末端的限制性内切酶酶切并纯化;
2)样本DNA打断,制备DNA混合物,DNA末端修复;
3)接头连接:接头与末端修复后的DNA连接;
4)USER酶切除脱氧尿嘧啶dU;
5)文库DNA引入上机barcode序列,PCR扩增;
6)PCR扩增之后的文库经测序并获取测序数据。
在一种实施方式中,测序文库的构建方法
在步骤1)中,所述的梯度退火中所用的退火延伸步骤见下表:
在步骤3)中所述的接头与末端修复后的DNA摩尔比为15:1。
在步骤5)中所述的barcode序列长度为6-8bp。
在步骤6)对所述的PCR扩增之后的文库进行150bp双端测序。
利用上述任一项所述的分子接头的应用,该分子接头用于鉴别样本测序文库构建过程中真实突变和操作过程引入的假阳性突变。
利用上述任一项所述的分子接头的应用,其特征在于:该分子接头连接血浆游离DNA或组织DNA。
本发明有益效果是:
(1)本发明设计了独特的钥匙状闭环接头,此外5’端磷酸化修饰、3’端硫代修饰可防止接头被核酸酶水解,相对于普通Y型接头更稳定;
(2)非互补环状区引入脱氧尿嘧啶dU碱基,该碱基经USER酶切开之后,暴露引物结合位点,可通过PCR扩增文库过程中引入不同的分子标签(barcode),便于标记多个不同样本,更充分体现二代测序的高通量特征之一,从而使得该分子接头具有更大适用性;
(3)最重要的是本发明在互补双链区域增加校正标签(即8个随机碱基),在样本原始的DNA分子上引入校正标签,给每一个DNA分子的每条链都做上独特标记,数据分析时通过此校正标签可以找到多条包含有样本同一个DNA分子单条链的原始数据信息;通过校正标签互补原则,可以找到另外一条互补链的数据信息,多条信息比对,可区分出真实突变和操作过程引入的假阳性突变,以此剔除干扰数据保留真实突变,增加低频突变检测灵敏度(详见图6和图7),使得最终所得突变信息更真实反映样本DNA所携带的肿瘤信息,尤其是ctDNA的检测。能够检测突变频率低至0.05%的突变位点,且检测结果准确。另外,本发明的标签接头制备简单,从而本发明的测序系统操作简单,实施容易;
(4)基于该分子接头构建待测样本测序文库,采用特殊的一步法退火延伸制备,对退火条件进行优化,操作简便且所制备接头片段单一,更有利于接头与样本DNA连接,磷酸化修饰及酶切产生黏性末端也增加了接头与样本DNA的连接效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如下。
附图说明
图1.是本发明钥匙状分子接头制备过程;
图2.是本发明钥匙状分子接头与血浆游离DNA连接文库2100结果图;
图3.是本发明钥匙状分子接头与组织DNA连接文库2100结果图;
图4.是本发明钥匙状分子接头与细胞DNA连接文库(0.1%掺和组)2100结果;
图5.是本发明文库两轮捕获后real-timePCR检测EGFR扩增曲线;
图6.是本发明分子接头校正原理示意图;
图7.是本发明分子接头校正实例(细胞DNA文库0.1%掺和组)。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1 接头退火延伸步骤
(1)钥匙状分子接头序列为SEQ ID No.1(图1):
PHO-5’-TTCTACAGTACNNNNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCACdUACACTCTTTCCCTACACGACGCTCTTCCGATC*T-3……
注:PHO代表5’端磷酸化,这里的N表示A/T/G/C中任何一个碱基,dU代表脱氧尿嘧啶,dU左边与右边下划线为互补区域,*代表硫化修饰,虚线“……”代表延伸区,斜体部分为限制性内切酶识别区。
(2)钥匙状接头采用一步法退火延伸所需试剂:
接头序列(金唯智生物科技有限公司合成)、KAPA HiFi Hotstat ReadyMix(KAPA公司kk2602)、灭菌超纯水
(3)钥匙状接头采用一步法退火延伸步骤:
将合成的干粉状接头序列加灭菌超纯水溶解,终浓度100uM。按照表1配比进行混合反应液,混合均匀,
表1 钥匙状接头一步法退火延伸体系
按照表2在PCR仪设置程序反应:
表2 钥匙状接头一步法退火延伸步骤
(4)退火延伸后纯化步骤:
退火延伸后得到的原始接头用2倍体积预冷无水乙醇和1/3体积3mol/ml醋酸钠进行纯化。-20℃沉降30min,4℃12000rpm离心20min,用70%无水乙醇洗涤两遍,4℃12000rpm离心5min。室温晾干,超纯水溶解。
(5)接头经酶切并纯化
上述接头经能够产生T粘性末端的限制性内切酶HPYCH4Ⅲ(NEB R0618S)37℃酶切3h得黏性末端,粘性末端提高接头与样本DNA连接效率,具体酶切体系如表3所示:
表3 接头酶切体系
组分 |
用量 |
接头DNA |
1ug |
10×cutsmart buffer |
5uL |
|
2uL |
灭菌水 |
2uL |
酶切完经无水乙醇纯化,具体步骤见上述步骤(4)。
实施例2 血浆和组织样本DNA文库构建
本实施例样本来自沈阳军区总医院,5例临床确诊为肺癌III期腺癌患者,取术前用药前配套血浆(2ml)和组织样本,提取游离DNA(cfDNA)和组织DNA,组织DNA经超声打断成150-250bp大小,cfDNA和组织打断DNA经安捷伦2100生物分析仪质控合格后,按照下述步骤分别构建文库。
(1)样本DNA末端修复
按照表4配置混合反应,采用KAPA LTP Library Preparation Kit(KK8233)EndRepair,血浆cfDNA全部投入,片段化DNA样本投入量100ng。
表4.样本DNA末端修复体系
片段化DNA样本(150bp) |
50ul |
KAPA End Repair Buffer(10X) |
7ul |
KAPA End Repair Enzyme Mix |
5ul |
Water |
8ul |
总体积 |
70ul |
放置于BioRAD PCR仪中20℃30分钟,使用120ul Agencourt AMPure XP beads磁珠(贝克曼公司A63881)进行纯化,30ul灭菌超纯水洗脱。
(2)接头连接
按照表5配置混合反应,接头与末端修复后的DNA摩尔比为10:1,放置PCR仪20℃15分钟。
表5.接头与样本DNA连接体系
末端修复后的DNA |
30ul |
5×KAPA Ligation Buffer |
10ul |
KAPA T4DNA Ligase |
5ul |
钥匙状接头 |
5ul |
总体积 |
50ul |
(3)USER酶(NEB公司M5505S)进行酶切
向上述连接反应液中加入3ul USER酶切除脱氧尿嘧啶dU,37℃30分钟。使用45ulAmpure XP beads进行纯化,15ul灭菌超纯水洗脱(按需求进行大小片段筛选)。
(4)文库富集
文库富集引物参考Illumina仪器及试剂中引物序列要求进行设计SEQ ID No.2:
Primeri5:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATC*T
SEQ ID No.3:
Primeri7:CAAGCAGAAGACGGCATACGAGATxxxxxxxx(index 8个碱基)GTGACTGGAGTTCAGACGTGTGCTCTTCCGAT*C
按照表6配置混合反应
表6.文库富集体系
上述连接后的DNA |
15ul |
2×KAPA HiFi Hotstat ReadyMix |
25ul |
10×Illumina i7primer/index primer |
5ul |
10×Illumina i5primer |
5ul |
总体积 |
50ul |
按照表7在PCR仪设置程序反应:
表7.文库富集PCR程序
使用45ul Ampure XP beads进行纯化。
文库浓度测定
取出2ul纯化之后的文库进行浓度测定,浓度测定采用dsDNA HS AssayKits(Q32854)在2.0Fluorometer仪器进行测定。
经测定本发明分子接头与样本DNA连接扩增之后,20ul灭菌超纯水洗脱,血浆样本游离DNA文库浓度为10-25ng/ul,组织样本DNA文库浓度35-65ng/ul,该浓度可用于后续上机测序。
实试例3 已知突变位点的细胞DNA灵敏度实验
用于本实施例的细胞样本来自中国科学院典型培养物保藏委员会细胞库,其中H1975细胞株(已知EGFR L858和T790M突变)、H1650细胞株(已知EGFR19号外显子缺失)、阴性MRC细胞株(无EGFR突变)。H1975细胞与H1650细胞提取DNA,超声打断后按照质量比1:1混合,再与阴性细胞株MRC片段化DNA样本按照1%、0.1%、0.05%、0%掺合,进行文库构建,再进行两轮特异性杂交捕获,捕获之后的文库通过荧光定量PCR法对相应变异位点进行检测,最后经双端测序,以此来判断分子接头检测灵敏度。
具体文库构建方法与实施例2同。
文库2100质检
取2ul文库进行Agilent 2100Bioanalyzer,结果见图2和图3。
从图2可以看出,本发明的钥匙状分子接头与血浆游离DNA连接文库目的片段落在260-450bp区间内,且主要集中在260-320bp,文库片段大小正常且可用于后续上机。从图3组织样本文库DNA片段主要集中在300-480bp,无接头残留,文库片段大小正常且可用于后续上机。从图4可以看出,本发明的钥匙状分子接头与细胞DNA(0.1%)连接构建文库目的片段落在300-550bp,无接头残留,文库片段大小正常且可用于后续上机。
文库经两轮特异性杂交捕获后real-time PCR检测
如图5所示,文库经两轮特异性杂交捕获后,1%、0.1%、0.05%三个阳性突变掺合组仍然可以特异性扩增出EGFR内控、L858R、T790M及19号外显子缺失,说明分子接头与样本DNA成功连接,且经文库构建、特异性捕获之后样本DNA突变信息未丢失。
双端测序
利用Illumina公司NextSeq500进行150bp双端测序,测序数据获得,样品区分及钥匙状分子接头的识别,针对上述获得的测序数据,运行Illumina bcl2fastq2ConversionSoftware v2.15软件进行样本区分,进一步,将高通量测序下机数据经过质控过滤,文库数据Q20平均值为0.98,得到最终测序数据。
校正假阳性
如图6.分子接头校正原理示意图显示了本发明分子接头的校正原理,校正标签给每一个DNA分子的每条链都做上独特的标记,数据分析时,通过此校正标签可以找到多条包含有样本同一个DNA分子单条链的原始数据信息,单条链的原始数据内部比对,可以初步反映单条链的可能突变情况。
通过校正标签互补配对的原则,可以找到另外一条互补链的数据信息,通过互补链内部的数据信息比对,可以初步反映互补链的可能突变情况。样本DNA两条链做最终比对,可区分出真实突变和操作过程引入的假阳性突变,以此剔除干扰数据保留真实突变,增加低频突变检测灵敏度,使得最终所得突变信息更真实反映样本DNA所携带的肿瘤信息,尤其是ctDNA的检测。图7为本发明分子接头校正假阳性突变的实例(细胞DNA文库0.1%掺和组),样本DNA因实验操作导致碱基A突变成T,经校正标签校正其为假阳性,将其剔除后得到真实结果。
样本突变频率情况
表8.针对样本已知的突变位点所在序列区域进行统计
样本 |
正常序列 |
突变序列 |
实际突变比例 |
理论突变比例 |
A(1%) |
7238 |
71 |
0.98% |
1% |
B(0.1%) |
6754 |
7 |
0.1% |
0.1% |
C(0.05%) |
6237 |
4 |
0.068% |
0.05% |
D(0%) |
6809 |
0 |
0 |
0 |
实际突变比例是由实际检测出的突变序列(已扣除假阳性)与正常序列数的比值,理论突变比例是混样时的预设置比例,从统计结果看出实际突变比例与理论突变比例一致。
<110> 江苏为真生物医药技术股份有限公司
<120> 一种分子接头及其应用
<160> 3
<210> 1
<211> 88
<212> DNA
<213> 人工序列
<220>
<223> 分子接头序列
<220>
<221> misc_feature
<222> (14)...(21)
<223> n =a或g或c或t
<400> 1
ttctacagta cnnnnnnnna gatcggaaga gcacacgtct gaactccagt cacyacactc 60
tttccctaca cgacgctctt ccgatcst 88
<210> 2
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<220>
<221> misc_feature
<222> (14)...(21)
<400> 1
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatc*t 58
<210> 3
<211> 65
<212> DNA
<213> 人工序列
<220>
<223> 引物序列
<220>
<221> misc_feature
<222> (14)...(21)
<223> x =a或g或c或t
caagcagaag acggcatacg agatxxxxxx xxgtgactgg agttcagacg tgtgctcttc 60
cgat*c 65