CN107750277B

CN107750277B - 使用无细胞dna片段大小来确定拷贝数变化

Info

Publication number: CN107750277B
Application number: CN201580075794.0A
Authority: CN
Inventors: D.I.丘杜瓦; C.巴巴西奥鲁; S.杜恩瓦尔德; D.A.康斯托克; R.P.拉瓦
Original assignee: Verinata Health Inc
Current assignee: Verinata Health Inc
Priority date: 2014-12-12
Filing date: 2015-12-11
Publication date: 2021-11-09
Anticipated expiration: 2035-12-11
Also published as: HK1244844B; US11072814B2; CY1121772T1; EP3230469B1; AU2015360298B2; CN114181997A; CA2970501C; CN107750277A; EP3567120A1; US20210371907A1; EP3230469A1; DK3230469T3; EP3502273B1; WO2016094853A1; MA40939A; EP3502273A1; CA2970501A1; AU2015360298A1; EP3567120B1; US20170362638A1

Abstract

公开的是用于确定已知或怀疑与多种医学状况相关的拷贝数变化(CNV)的方法。在一些实施方案中，提供方法用于使用包含母体和胎儿无细胞DNA的母体样本确定胎儿的拷贝数变化(CNV)。在一些实施方案中，提供方法用于确定已知或怀疑与多种医学状况相关的CNV。本文公开的一些实施方案提供方法以通过衍生片段大小参数，如大小范围内的大小加权的覆盖率或片段的分数来提高序列数据分析的灵敏度和/或特异性。在一些实施方案中，调整片段大小参数以去除样本内GC含量偏差。在一些实施方案中，去除样本内GC含量偏差基于为未受影响的训练样本之间常见的系统变异校正的序列数据。还公开的是用于评估目的序列的CNV的系统和计算机程序产品。

Description

使用无细胞DNA片段大小来确定拷贝数变化

对相关申请的交叉引用

本申请要求2014年12月12日提交的题为USING CELL-FREE DNA FRAGMENT SIZETO DETERMINE COPY NUMBER VARIATIONS的美国临时专利申请号62/091,380的根据35U.S.C.§119(e)的权益，为全部目的以其整体通过引用并入本文。

发明背景

人类医学研究的关键工作之一是发现遗传异常，其产生不良的健康后果。在许多情况下，在以异常拷贝数存在的部分基因组中鉴定了特定基因和/或关键的诊断标记。例如，在产前诊断中，整个染色体的额外或缺失拷贝是经常发生的遗传损伤。在癌症中，全部染色体或染色体区段的拷贝的缺失或增殖以及基因组特定区域的较高水平扩增是常见的事件。

关于拷贝数变化(CNV，copy number variation)的大多数信息已经通过允许识别结构异常的细胞遗传学解析来提供。用于遗传筛选和生物剂量测定的常规程序已经利用侵入性程序，例如羊膜穿刺术、脐穿刺或绒毛膜绒毛取样(CVS)，以获得用于核型分析的细胞。认识到对不需要细胞培养的更快速的测试方法的需要，已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列比较基因组杂交(阵列-CGH)作为分子细胞遗传学方法用于分析拷贝数变化。

人类医学研究的关键工作之一是发现遗传异常，其产生不良的健康后果。在许多情况下，在以异常拷贝数存在的部分基因组中鉴定了特定基因和/或关键的诊断标记。例如，在产前诊断中，整个染色体的额外或缺失的拷贝是经常发生的遗传损伤。在癌症中，全部染色体或染色体区段的拷贝的缺失或增殖以及基因组特定区域的较高水平扩增是常见的事件。

关于拷贝数变化(CNV)的大多数信息已经通过允许识别结构异常的细胞遗传学解析来提供。用于遗传筛选和生物剂量测定的常规程序已经利用侵入性程序，例如羊膜穿刺术、脐穿刺或绒毛膜绒毛取样(CVS)，以获得用于核型分析的细胞。认识到对不需要细胞培养的更快速的测试方法的需要，已经开发了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)和阵列比较基因组杂交(阵列-CGH)作为分子细胞遗传学方法用于分析拷贝数变化。

允许在相对短的时间内对整个基因组进行测序的技术的出现以及循环的无细胞DNA(cfDNA)的发现提供了将起源于一条染色体的遗传物质与另一条染色体的遗传物质进行比较而没有与侵入性取样方法相关风险的机会，这提供了诊断目的遗传序列的各种拷贝数变化的工具。

现有的非侵入性产前诊断方法的局限性，其包括源于有限水平的cfDNA的灵敏度不足，以及源于基因组信息固有性质的技术的测序偏差，这些都是继续需要提供任何或全部特异性、灵敏度和适用性以可靠地诊断多种临床环境中的拷贝数变化的非侵入性方法的基础。已经显示胎儿cfDNA片段的平均长度比孕妇血浆中的母体cfDNA片段短。在本文的实施方式中利用母体和胎儿cfDNA之间的这种差异来确定CNV和/或胎儿级分。本文公开的实施方案满足了上述一些需求。一些实施方案可以使用与配对末端DNA测序偶联的无PCR文库制备来实现。一些实施方案为非侵入性产前诊断和多种疾病的诊断提供高分析灵敏度和特异性。

发明概述

在一些实施方案中，提供了用于确定任何胎儿非整倍性的拷贝数变化(CNV)和已知或怀疑与多种医学状况相关联的CNV的方法。可以根据本方法确定的CNV包括1-22、X和Y染色体任何一条或多条的三体性和单体性，其他染色体多体性，以及任何一个条或多条染色体的区段的缺失和/或复制。在一些实施方案中，所述方法包括鉴定在测试样本中目的核酸序列，例如，临床相关序列的CNV。该方法评估特定目的序列的拷贝数变化。

在一些实施方案中，该方法在包括一个或多个处理器和系统存储器的计算机系统中实现，以评估包含一个或多个基因组的核酸的测试样本中目的核酸序列的拷贝数。

本公开内容的一个方面涉及用于确定测试样本中目的核酸序列的拷贝数变化的方法，所述测试样本包括源于两个或更多个基因组的无细胞核酸片段。该方法包括(a)接收通过测序测试样本中的无细胞核酸片段获得的序列读取(sequence read)；(b)将无细胞核酸片段的序列读取与包含目的序列的参考基因组比对，由此提供测试序列标签(testsequence tag)，其中所述参考基因组被分成多个箱体(bins)；(c)确定存在于所述测试样本中的无细胞核酸片段的大小；(d)基于从其获得标签的无细胞核酸片段的大小加权测试序列标签；(e)基于加权的测试序列标签计算所述箱体的覆盖率(coverage)；和(f)从所计算的覆盖率中鉴定目的序列中的拷贝数变化。在一些实施方案中，通过将覆盖率偏向从测试样本中一个基因组特征性的大小或大小范围的无细胞核酸片段获得的测试序列标签进行测试序列标签的加权。在一些实施方式中，通过将值1分配给从所述大小或大小范围的无细胞核酸片段获得标签，并将值0分配给其他标签进行测试序列标签的加权。也就是说，只计算所述大小或大小范围的片段以确定覆盖率。在一些实施方案中，覆盖率偏向来自片段大小谱(fragment size spectrum)较短末端(shorter end)的片段或短于特定值的标签。在一些实施方式中，覆盖率偏向来自片段大小范围中的片段的标签，并且其中范围的上限是约150个碱基对或更少碱基对。

在上述方法的一些实施方式中，加权测试序列标签包括从(e)的计算中排除从大小范围之外的无细胞核酸片段获得的标签。在一些实施方式中，加权测试序列标签包括从(e)的计算中排除比特定值大的大小的片段。在一些实施方式中，加权测试序列标签包括从(e)的计算中排除大于约150个碱基对的大小的片段。

在一些实施方式中，基于加权标签的覆盖率相比于未加权的覆盖率在确定拷贝数变化中提供了更高的灵敏度和更高的选择性。

在一些实施方式中，通过测序无细胞的核酸片段获得序列读取，而不首先使用PCR扩增无细胞核酸片段的核酸。在一些实施方式中，通过测序无细胞核酸片段至每个样本不超过约6M片段的深度来获得测序读取。在一些实施方式中，通过测序无细胞核酸片段至每个样本不超过约1M片段的深度来获得测序读取。在一些实施方式中，通过多重测序获得测序读取，其中多重化样本(sampele multiplexed)数至少约为24。在一些实施方式中，测试样本包括来自个体的血浆。

在一些实施方式中，该方法还包括从测试样本中获得无细胞核酸。在一些实施方式中，该方法还包括测序源于两个或更多个基因组的无细胞核酸片段。在一些实施方式中，测序包括配对末端测序。在一些实施方式中，两个或更多个基因组包含来自母亲和胎儿的基因组。在一些实施方式中，目的序列中的拷贝数变化包括胎儿基因组中的非整倍性。在一些实施方式中，两个或更多个基因组包含来自癌症和体细胞的基因组。

在一些实施方式中，该方法还包括使用癌基因组中的拷贝数变化来诊断癌症、监测癌症进展和/或确定癌症的治疗。

在一些实施方式中，拷贝数变化引起遗传异常。

在一些实施方式中，该方法进一步包括为目的序列的箱体提供全局覆盖谱，其中所述全局覆盖谱包括目的序列的至少箱体中的预期覆盖率，并且其中预期覆盖率从未受影响的训练样本的训练集获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，预期的覆盖率显示出从箱体到箱体的变化；以及使用至少目的序列箱体中的预期覆盖率调整(e)中计算的覆盖率，由此获得目的序列的全局谱校正的覆盖率，其中鉴定(f)中的拷贝数变化使用全局谱校正的覆盖率。

在一些实施方式中，该方法还包括：为目的序列的箱体提供全局大小谱，其中所述全局大小谱包括目的序列的至少箱体中的预期大小参数值，并且其中大小参数的预期值从未受影响的训练样本的训练集中的无细胞核酸片段的长度获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，预期的大小参数显示出从箱体到箱体的变化。该方法还包括使用至少目的序列的箱体中的预期大小参数来调整目的序列中的片段大小参数的值，由此获得用于目的序列的片段大小参数的全局谱校正的值。

在一些实施方式中，该方法还包括：使用测试样本中GC含量水平与覆盖率值之间的关系来调整在(e)中计算的覆盖率，由此获得目的序列的覆盖率的GC校正值，其中(f)中鉴定拷贝数变化使用GC校正的覆盖率。

在一些实施方式中，所述方法还包括：在包括目的序列的参考基因组的箱体中确定从测试样本中的无细胞核酸片段的量获得的片段大小参数的值，所述测试样本具有比阈值短或长或在片段大小范围内的片段大小，其中鉴定目的序列中的拷贝数变化包括使用在(e)中计算的片段大小参数以及覆盖率的值。在一些实施方式中，该方法还包括：基于GC含量水平调整片段大小参数的值，由此获得目的序列的GC校正的覆盖率和GC校正的片段大小参数值。在一些实施方式中，该方法进一步包括：提供目的序列的箱体的全局谱(globalprofile)，其中所述全局谱包括目的序列的箱体中片段大小参数的预期值，并且其中片段大小参数的预期值从未受影响的训练样本的训练集中获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，片段大小参数的预期值显示出从箱体到箱体的变化；和使用至少目的序列箱体中的参数预期值调整箱体的片段大小参数值，由此获得目的序列的全局谱校正的参数值，其中使用片段大小参数值鉴定拷贝数变化包括使用全局谱校正的片段大小参数值。在一些实施方式中，该方法还包括：使用测试样本中GC含量水平与覆盖率值之间的关系调整(e)中计算的覆盖率，由此获得目的序列的覆盖率的GC校正的值，其中(f)中鉴定拷贝数变化使用GC校正的覆盖率。

在一些实施方式中，该方法还包括：在包括目的序列的参考基因组的箱体中确定所述箱体中无细胞核酸片段的甲基化水平，其中鉴定目的序列中的拷贝数变化包括使用甲基化水平以及(e)中计算的覆盖率。在一些实施方式中，所述方法进一步包括：为目的序列的箱体提供全局甲基化谱，其中全局甲基化谱包括目的序列的至少箱体中的预期甲基化水平，并且其中预期的甲基化水平从未受影响的训练样本的训练集中的无细胞核酸片段获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，预期的甲基化水平显示出从箱体到箱体的变化；和使用至少目的序列箱体中预期的甲基化水平调整甲基化水平值，由此获得目的序列的全局谱校正的甲基化水平值，其中鉴定拷贝数变化包括使用全局谱校正的覆盖率和全局谱校正的甲基化水平。在一些实施方式中，该方法还包括：基于GC含量水平调整全局谱校正的覆盖率和全局谱校正的甲基化水平，由此获得目的序列的GC校正的覆盖率和GC校正的甲基化水平值，其中鉴定拷贝数变化包括使用GC校正的覆盖率和GC校正的甲基化水平。

在一些实施方式中，所述方法还包括：获得箱体的片段大小参数值，其中所述片段大小参数值中的每一个包括下述分数或比率，其包括具有短于或长于阈值的片段大小的测试样本中的无细胞核酸片段的量，其中鉴定目的序列中的拷贝数变化包括使用(i)(f)中获得的覆盖率和(ii)片段大小参数值。在一些实施方式中，箱体的片段大小参数值偏向来自片段大小谱较长末端的片段的标签。

与本公开内容的上述方面相关联描述的与样本处理、DNA测序、数据分析和诊断有关的方法适用于下面描述的公开内容的其他方面。

本公开内容的另一方面涉及用于确定测试样本中目的核酸序列的拷贝数变化的方法，所述测试样本包括源自两个或更多个基因组的无细胞核酸片段。该方法包括：(a)接收通过对测试样本中的无细胞核酸片段进行测序获得的序列读取；(b)将无细胞核酸片段的序列读取与包含目的序列的参考基因组进行比对，由此提供测试序列标签，同时将参考基因组分成多个箱体；(c)确定存在于测试样本中的无细胞核酸片段的大小；(d)在所述参考基因组的箱体，包括所述目的序列中的箱体中确定偏向基因组之一特征性的片段大小的片段大小参数值；(e)提供目的序列的箱体的全局谱，其中全局谱包括目的序列的箱体中参数的预期值，并且其中参数的预期值从未受影响的训练样本的训练集获得，所述未受影响的训练样品包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，所述参数的预期值显示出从箱体到箱体的变化；(f)使用至少目的序列箱体中的参数预期值调整测试序列标签的参数值，由此获得目的序列的全局谱校正的参数值；和(g)基于全局谱校正的参数值评估测试样本中目的序列的拷贝数，其中所述全局谱校正的参数值提高信号水平和/或降低噪音水平用于确定目的序列的拷贝数。在一些实施方式中，该方法还包括：使用测试样本中GC含量水平与参数值之间的关系调整测试序列的参数值，由此获得目的序列的参数的GC校正值，其中(g)中所用的全局谱校正的值是参数的GC校正值。

在一些实施方式中，片段大小参数偏向来自片段大小谱较短端的片段的片段或标签。在一些实施方式中，片段大小参数偏向来自短于特定值的大小的片段的片段或标签。在一些实施方式中，特定值为约150个碱基对或更少，或(ii)在包括110个碱基对的范围内。在一些实施方式中，通过基于其片段的大小加权标签并计数加权的标签来确定片段大小参数。在一些实施方式中，片段大小参数包括下述分数或比率，其包含测试样本中具有比阈值更短或更长的片段大小的部分无细胞核酸片段。在一些实施方式中，片段大小参数包括分数，其包含(i)包含110碱基对的第一大小范围内的测试样本中的片段数目，和(ii)在第二大小范围内的测试样本中的片段数目，所述第二大小范围包括在第一大小范围和第一大小范围之外的大小。

在一些实施方式中，片段大小参数是参考基因组，包括目的序列的箱体中的测试序列标签的覆盖率，其中所述箱体中的覆盖率偏向来自基因组之一特征性的大小或大小范围的无细胞核酸片段的测试序列标签。该方法还包括：使用第二个片段大小参数重复操作(d)-(f)，其中所述第二个片段大小参数包括分数或比率，其包含测试样本中具有比阈值更短或更长的片段大小的无细胞核酸片段的量，其中鉴定目的序列中的拷贝数变化包括使用(i)在(f)中从箱体中的覆盖率获得的全局谱校正的值，和(ii)在(f)中从第二个片段大小参数获得的全局谱校正的值。在一些实施方式中，箱体的片段大小参数偏向来自片段大小谱较长端的片段的标签。在一些实施方式中，箱体的片段大小参数偏向来自长于特定值的大小的片段的标签。在一些实施方式中，片段大小参数偏向来自片段大小范围中的片段的标签，并且其中所述范围的下限是约150个碱基对或更多。在一个实施方式中，所述方法还包括在参考基因组，包括目的序列的箱体中确定所述箱体中无细胞核酸片段的甲基化水平，其中鉴定目的序列中的拷贝数包括使用在(d)中确定的片段大小参数以及甲基化水平。

在一些实施方式中，鉴定拷贝数变化包括：提供目的序列的箱体的全局甲基化谱，其中所述全局甲基化谱包括至少目的序列的箱体中的预期甲基化水平，并且其中所述预期甲基化水平从未受影响的训练样本的训练集中的无细胞核酸片段的长度获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，预期的甲基化水平显示出从箱体到箱体的变化；使用至少目的序列箱体中的预期甲基化水平调整甲基化水平的值，由此获得目的序列的全局谱校正的甲基化水平值；和使用全局谱校正的片段大小参数和全局谱校正的甲基化水平鉴定拷贝数变化。

在一些实施方式中，使用全局谱校正的片段大小参数和全局谱校正的甲基化水平鉴定拷贝数变化还包括：基于GC含量水平调整全局谱校正的甲基化水平，由此获得目的序列的GC校正的甲基化水平值；和使用GC校正的甲基化水平鉴定拷贝数变化。

本公开内容的其他方面提供了用于确定包含源于两个或更多个基因组的无细胞核酸片段的测试样本中目的核酸序列的拷贝数变化的方法。所述方法包括：(a)接收通过对测试样本中的无细胞核酸片段进行测序获得的序列读取；(b)将无细胞核酸片段的序列读取与包含目的序列的参考基因组进行比对，由此提供测试序列标签，其中将参考基因组分成多个箱体；(c)确定存在于测试样本中的无细胞核酸片段的大小；(d)在所述参考基因组的箱体，包括所述目的序列中的箱体中确定偏向基因组之一特征性的片段大小的片段大小参数；(e)使用测试样本中GC含量水平与参数值之间的关系调整测试序列标签的片段大小参数值，由此获得目的序列的GC校正片段大小参数值；和(f)基于GC校正的片段大小参数值评估测试样本中目的序列的拷贝数，其中所述GC校正的片段大小参数值提高信号水平和/或降低噪音水平用于确定目的序列的拷贝数。在一些实施方式中，调整操作(e)中的片段大小参数值包括：将参考基因组中的箱体分组到多个GC组中，每个GC组包含多个箱体，其中所述多个箱体含有具有相似GC含量的测试序列标签；确定多个稳健常染色体(robustautosome)的每个GC组的预期片段大小参数值；和基于所确定的相同GC组的预期值调整每个GC组的操作(e)中的片段大小参数值，由此获得目的序列中GC校正的片段大小参数值。

在一些实施方式中，方法另外包括测序所述测试样本的所述核酸分子的至少一部分，以获得所述测试样本的所述胎儿和母体核酸分子的所述序列信息。测序可包括对来自母体测试样本的母体和胎儿核酸的大规模并行测序，以产生序列读取。

本公开内容的另一方面提供了一种计算机程序产品，其包括非暂时计算机可读介质，其上提供用于执行所述操作和本文所述的其他计算操作的程序指令。

本公开内容的另一方面提供了用于评估测试样本中目的核酸序列的拷贝数的系统。在一些实施方式中，系统包括用于从测试样本接收核酸的测序仪，所述测试样本提供来自样本的核酸序列信息，处理器；以及一个或多个计算机可读存储介质，其上存储有用于在处理器上执行的指令以使用本文所述的方法评估测试样本中的拷贝数。

虽然本文的实例涉及人类并且语言主要针对人类的关注点，但本文描述的概念适用于任何植物或动物的基因组。本公开内容的这些和其他目的和特征将通过以下描述和所附权利要求变得更加明确，或者可以通过下文阐述的公开内容的实践来了解。

通过参考并入

本文中参考的所有专利、专利申请和其他出版物，包括这些参考物中公开的所有序列以相同程度通过参考并入本文，就如同每一单个的出版物、专利或专利申请被明确和单独地说明被通过引用并入一样。所引用的所有文件在相关部分中，为了本文引用的上下文的目的，将其以其整体通过参考并入本文。然而，任何文件的引用不应被解释为承认它是关于本公开内容的现有技术。

附图简述

图1是用于确定包含核酸混合物的测试样本中拷贝数变化存在或缺失的方法100的流程图。

图2A主题性地说明配对的末端测序如何可以用于确定片段大小和序列覆盖率。

图2B显示了使用基于大小的覆盖来确定测试样本中目的核酸序列的拷贝数变化的方法的流程图。

图2C描述了用于评估拷贝数的目的核酸序列的片段大小参数的确定方法流程图。

图2D显示了工作流程的两个重叠途径的流程图。

图3A显示了用于减少来自测试样本的序列数据中的噪音的方法实例的流程图。

图3B-3K呈现了在图3A所述方法的不同阶段获得的数据的分析。

图4A显示了用于创建用于减少序列数据中的噪音的序列掩码(sequence mask)的方法流程图。

图4B显示了MapQ得分(score)与归一化覆盖量(normalized coveragequantities)的CV具有强的单一相关性(monotonous correlation)。

图5是用于处理测试样本并最终进行诊断的分散系统(dispersed system)的框图。

图6概要地说明了处理测试样本中的不同操作如何可以被分组以由系统的不同元件来处理。

图7A和7B显示了根据实施例1a(图7A)中描述的缩略方案以及实施例1b(图7B)中描述的方案制备的cfDNA测序文库的电泳图。

图8显示了与标准的实验室工作流程相比，NIPT的新版本的总体工作流程和时间线。

图9显示了作为输入提取的cfDNA的函数的测序文库产量(yield)，其表明与文库浓度至输入浓度的强线性相关性，具有高转化效率。

图10显示了如从具有雄性胎儿的妊娠的324个样本测量的cfDNA片段大小分布。

图11显示与来自小于150bp的配对末端读取的计数相比，定位配对末端读取的总计数的相对胎儿分数。

图12显示用于对三体性21样本检测以下各项的组合t统计非整倍性评分：(A)所有片段的计数；(B)仅短片段(<150bp)的计数；(C)短片段的分数(在80和150bp之间的计数/计数<250bp)；(D)(B)和(C)的组合t统计量；和(E)使用Illumina Redwood City CLIA实验室方法利用平均16M计数/样本获得的相同样本的结果。

图13显示了从所选择的箱体估计的胎儿分数相对于用X染色体的归一化染色体值(REF)测量的胎儿分数。使用组1(Set 1)校准胎儿分数值和独立组2来测试相关性。

发明详述

定义

除非另有说明，本文公开的方法和系统的实践涉及在分子生物学、微生物学、蛋白质纯化、蛋白质改造、蛋白质和DNA测序以及重组DNA领域中通常使用的常规技术和装置，其在现有技术内。这些技术和装置是本领域技术人员已知的，并且在许多文本和参考文献中有描述(参见例如Sambrook等，“Molecular Cloning：A Laboratory Manual”，第三版(ColdSpring Harbor)，[2001])；和Ausubel等，“Current Protocols in Molecular Biology”[1987])。

数字范围包括限定范围的数字。预期在本说明书中给出的每个最大数值限制包括每个较低的数值限制，就好像在本文中明确写出该较低的数值限制。在本说明书中给出的每个最小数值限制将包括每个较高的数值限制，就好像在本文中明确写出该较高的数值限制。在本说明书中给出的每个数值范围将包括落在这样更广泛数值范围内的每个较窄的数值范围，就好像在本文中全部明确写出该较窄的数值范围。

本文提供的标题不旨在限制本公开内容。

除非另有定义，否则本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同含义。包括本文中包括的术语的各种科学词典是本领域技术人员熟知的并且是可用的。尽管与本文所述的那些类似或等同的任何方法和材料在实践或测试本文公开的实施方案中有用，但是描述了一些方法和材料。

通过参考整个说明书更充分地描述了下面紧接着定义的术语。应当理解，本公开内容不限于所述的特定方法学、方案和试剂，因为它们根据本领域技术人员使用的上下文而变化。如本文所用，除非上下文另有明确指示，单数术语“一个”、“一种”和“该/所述”包括复数引用。

除非另有说明，核酸以5'至3'取向从左到右书写，并且氨基酸序列分别以氨基至羧基取向从左到右书写。

本文所用的术语“参数”表示其值或其他特性对诸如拷贝数变化的相关条件具有影响的物理特征。在某些情况下，术语参数用于参考影响数学关系或模型输出的变量，该变量可以是独立变量(即，模型的输入)或基于一个或多个独立变量的中间变量。根据模型的范围，一个模型的输出可能成为另一个模型的输入，由此成为其他模型的参数。

术语“片段大小参数”指与片段或片段的集合的大小或长度相关的参数；该核酸片段例如是从体液获得的cfDNA片段。如本文所使用，当以下情况时，参数“偏向片段大小或大小范围”：1)对于片段大小或大小范围有利地加权该参数，例如，当与所述大小或大小范围的片段相关联时，计数加权比对其他大小或范围多得多；或2)从对于片段大小或大小范围有利加权的值获得参数，例如，当与所述大小或大小范围的片段相关联时，从计数获得的比值加权多得多。当基因组产生相对于来自另一个基因组或相同基因组的另一部分的核酸片段富集或具有较高浓度的大小或大小范围的核酸片段时，片段大小或大小范围可以具有基因组或其部分的特征。

术语“加权”是指使用被认为是“权重”的一个或多个值或函数修改诸如参数或变量的数量。在某些实施方案中，参数或变量乘以权重。在其他实施例中，参数或变量被指数地修改。在一些实施例中，该函数可以是线性或非线性函数。可适用的非线性函数的实例包括但不限于赫维赛德阶跃函数(Heaviside step functions)、箱车函数(box-carfunctions)、阶梯函数(stair-case functions)或S形函数(sigmoidal functions)。加权原始参数或变量可以系统地增加或减少加权变量的值。在多个实施方案中，加权可产生正值，非负值或负值。

术语“拷贝数变化”在本文中是指与参考样品中存在的核酸序列的拷贝数相比，存在于测试样品中的核酸序列的拷贝数的变化。在某些实施方案中，核酸序列是1kb或更大。在一些情况下，核酸序列是整个染色体或其重要部分。“拷贝数变体”是指其中通过将测试样品中目的核酸序列与目的核酸序列的预期水平进行比较而发现拷贝数差异的核酸序列。例如，将测试样品中目的核酸序列的水平与合格样品中存在的核酸序列的水平进行比较。拷贝数变体/变化包括缺失，包括微量缺失、插入，包括微量插入、复制、增殖和易位。CNV包含染色体非整倍性和部分非整倍性。

术语“非整倍性”在本文中是指由整个染色体或染色体的一部分的丢失或获得引起的遗传物质的不平衡。

术语“染色体非整倍性”和“完整的染色体非整倍性”在本文中是指由整个染色体的丢失或获得引起的遗传物质的不平衡，并且包括种系非整倍性和镶嵌非整倍性。

术语“部分非整倍性”和“部分染色体非整倍性”在本文中是指由染色体的部分缺失或获得引起的遗传物质的不平衡，例如部分单体性和部分三体性，并且包括由易位、缺失和插入引起的不平衡。

术语“多个”是指多于一个元件。例如，本文中的术语用于参考下述许多核酸分子或序列标签，其使用本文公开的方法足以鉴定测试样本和合格样本中拷贝数变化的显著差异。在一些实施方案中，对于每个测试样本获得约20至40bp的至少约3×10 ⁶个序列标签。在一些实施方案中，每个测试样本提供至少约5x 10⁶、8x 10⁶、10x 10⁶、15x 10⁶、20x 10⁶、30x 10⁶、40x 10⁶或50x 10⁶个序列标签的数据，各序列标签包含约20-40bp。

术语“配对末端读取”是指来自从核酸片段的每个末端获得一个读取的配对末端测序的读取。配对末端测序可能涉及将多核苷酸链片段化成称为插入片段的短序列。对于相对短的多核苷酸如无细胞DNA分子，片段化是任选的或不必要的。

术语“多核苷酸”、“核酸”和“核酸分子”可互换使用，并且是指共价连接的核苷酸序列(即，用于RNA的核糖核苷酸和用于DNA的脱氧核糖核苷酸)，其中一个核苷酸的戊糖的3’位置通过磷酸二酯基团连接到下一个核苷酸的戊糖的5’位置。核苷酸包括任何形式的核酸的序列，包括但不限于RNA和DNA分子如cfDNA分子。术语“多核苷酸”包括但不限于单链和双链多核苷酸。

术语“测试样本”在本文中是指通常衍生自生物流体、细胞、组织、器官或生物体的样本，其包含核酸或包含待筛选其拷贝数变化的至少一个核酸序列的核酸混合物。在某些实施方案中，样本包含其拷贝数怀疑已经发生变化的至少一个核酸序列。这些样本包括但不限于痰/口腔液、羊水、血液、血液部分或细针活检样本(例如，手术活检，细针活检等)、尿液、腹膜液、胸膜液等等。尽管经常从人类受试者(例如患者)获取样本，但该检测可用于来自任何哺乳动物的样本中的拷贝数变化(CNV)，所述哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。如从生物来源获得，样本可以直接使用或在预处理改变样本的性质后使用。例如，这种预处理可以包括从血液制备血浆，稀释粘滞流体等。预处理的方法还可以包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冰冻、冻干、浓缩、扩增、核酸片段化、失活干扰组分、加入试剂、裂解等。如果对样本采用这种预处理方法，则这种预处理方法通常使得目的核酸保留在测试样本中，有时候是与未处理的测试样本(例如，即不经受任何这种预处理方法的样本)中的浓度成比例的浓度。对于本文所述的方法，这种“处理的”或“加工的”样本仍被认为是生物“测试”样本。

术语“合格样本(qualified sample)”或“未受影响的样本(unaffected sample)”在本文中是指包含以已知拷贝数存在的核酸混合物(测试样本中的核酸待与其进行比较)的样本，并且对于目的核酸序列，其是正常的，即非整倍体的样本。在一些实施方案中，合格样本用作训练集的未受影响的训练样本以导出序列掩码或序列谱。在某些实施方案中，合格样本用于鉴定正在考虑的染色体的一个或多个归一化染色体或区段。例如，合格样本可用于鉴定21号染色体的归一化染色体。在这种情况下，合格样本是非21三体性样本的样本。另一个实例包括仅使用女性作为X染色体的合格样本。合格样本也可以用于其他目的，例如确定调用受影响样本的阈值、鉴定在参考序列上定义掩码区的阈值、确定基因组不同区域的预期覆盖数等。

术语“训练集(training set)”在本文中是指可以包含受影响的和/或未受影响的样本并用于开发用于分析测试样本的模型的一组训练样本。在一些实施方案中，训练集包括未受影响的样本。在这些实施方案中，使用对目的拷贝数变化不受影响的样本训练集来建立用于确定CNV的阈值。训练集中的未受影响的样本可以用作合格样本来鉴定归一化序列，例如归一化染色体，并且未影响样本的染色体剂量用于设定用于每个目的序列(例如染色体)的阈值。在一些实施方案中，训练集包括受影响的样本。训练集中受影响的样本可用于验证受影响的测试样本可以容易地与未受影响的样本区分开来。

训练集也是目的群体中的统计学样本，所述统计学样本不与生物样本混淆。统计学样本通常包含多个个体，所述个体的数据用于确定推广至群体的一个或多个目的定量值。统计学样本是目的群体中个体的一个子集。所述个体可以是人、动物、组织、细胞、其他生物样本(即，统计学样本可以包括多个生物样本)以及为统计学分析提供数据点的其他单独实体。

一般地，训练集与验证集结合使用。术语“验证集”用于指统计学样本中的一组个体，所述个体的数据用于验证或评估使用训练集确定的目的定量值。在一些实施方案中，例如，训练集提供用于计算参考序列的掩码的数据，而验证集提供数据以评估掩码的可靠性或有效性。

“拷贝数的评估”在本文中用于参考与序列的拷贝数有关的遗传序列状态的统计学评估。例如，在一些实施方案中，评估包括确定遗传序列的存在或缺失。在一些实施方案中，评估包括确定遗传序列的部分或完全非整倍性。在其他实施方案中，评估包括基于遗传序列的拷贝数在两个或更多个样本之间进行辨别。在一些实施方案中，评估包括基于遗传序列的拷贝数的统计学分析，例如归一化和比较。

术语“合格核酸”可与“合格序列”互换使用，所述“合格序列”是目的序列或核酸的量与其进行比较的序列。合格序列是生物样品中优选以已知表现存在的序列，即合格序列的量是已知的。一般地，合格序列是“合格样品”中存在的序列。“合格的目的序列”是合格的序列，其量在所述合格样品中已知，并且是与对照受试者与具有医学状况的个体之间目的序列的差异相关的序列。

术语“目的序列”或“目的核酸序列”在本文中是指与健康与患病个体之间序列表现的差异相关的核酸序列。目的序列可以是在疾病或遗传条件中被错误地表现，即过度或过低表现的染色体上的序列。目的序列可以是染色体的一部分，即染色体区段，或整个染色体。例如，目的序列可以是在非整倍体条件下过度表现的染色体，或编码在癌症中过低表现的肿瘤抑制物的基因。目的序列包括在全部群体或受试者的细胞亚群中过度或过低表现的序列。“合格的目的序列”是合格样品中的目的序列。“目的测试序列”是测试样品中的目的序列。

术语“归一化序列”在本文中是指下述序列，其用于归一化定位到与归一化序列相关的目的序列上的序列标签的数量。在一些实施方案中，归一化序列包含稳健的染色体。“稳健的染色体”是不太可能是非整倍体的染色体。在涉及人类染色体的某些情况下，稳健的染色体是除X染色体、Y染色体、13号染色体、18号染色体和21号染色体之外的任何染色体。在一些实施方案中，归一化序列展示样品和测序运行中定位到其上的序列标签数量的变异性，其近似于用作归一化参数的目的序列的变异性。归一化序列可以将受影响的样品与一个或多个未受影响的样品区分开。在一些实施方案中，当与其他潜在归一化序列(诸如其他染色体)相比较时，归一化序列最好地或有效地区分受影响样品与一个或多个未受影响样品。在一些实施方案中，归一化序列的变异性被计算为样品和测序运行之间目的序列的染色体剂量变异性。在一些实施方案中，在一组未受影响的样品中鉴定归一化序列。

“归一化染色体”、“归一化标准染色体”或“归一化染色体序列”是“归一化序列”的实例。“归一化染色体序列”可以由单个染色体或一组染色体组成。在一些实施方案中，归一化序列包含两个或更多个稳健的染色体。在某些实施方案中，稳健的染色体都是除染色体X、Y、13号、18号和21号之外的常染色体染色体。“归一化区段”是“归一化序列”的另一个实例。“归一化区段序列”可以由染色体的单个区段组成，或者它可以由相同或不同染色体的两个或更多个区段组成。在某些实施方案中，归一化序列旨在对变异性进行归一化，诸如与方法相关的，染色体间(运行中(intra-run))和测序间(运行间(inter-run))的变异性。

术语“可辨性(differentiability)”在本文中是指归一化染色体的特征，其使得能够分辨一个或多个未受影响的，即正常的样品与一个或多个受影响的，即非整倍体的样品。展示最大“可辨性”的归一化染色体是染色体或染色体组，其提供了一组合格样品中目的染色体的染色体剂量分布与一个或多个受影响样品中的相应染色体中相同的目的染色体的染色体剂量分布之间的最大统计学差异。

术语“变异性”在本文中是指归一化染色体的另一个特征，其使得能够分辨一个或多个未受影响的，即正常的样品与一个或多个受影响的，即非整倍体的样品。在一组合格样本中测量的归一化染色体的变异性是指定位到其上的序列标签的数量的变异性，其近似于定位到用作归一化参数的目的染色体上的序列标签的数量的变异性。

术语“序列标签密度(sequence tag density)”在本文中是指定位到参考基因组序列的序列读取的数量，例如，21号染色体的序列标签密度是由定位的到参考基因组的21号染色体的测序方法产生的序列读取的数量。

术语“序列标签密度比(sequence tag density ratio)”在本文中是指定位到参考基因组的染色体(例如21号染色体)的序列标签的数量与参考基因组染色体长度的比率。

术语“序列剂量(sequence dose)”在本文中是指与序列标签的数量相关的参数或针对目的序列和序列标签数量鉴定的另一参数或针对归一化序列鉴定的其他参数。在一些情况下，序列剂量是目的序列的序列标签覆盖率或其他参数与归一化序列的序列标签覆盖率或其他参数的比率。在一些情况下，序列剂量是指将目的序列的序列标签密度与归一化序列的序列标签密度相关联的参数。“测试序列剂量”是将目的序列(例如21号染色体)的序列标签密度或其他参数与测试样品中确定的归一化序列(例如9号染色体)的序列标签密度相关联的参数。类似地，“合格序列剂量”是将目的序列的序列标签密度或其他参数与合格样品中确定的归一化序列的序列标签密度相关联的参数。

术语“覆盖率(coverage)”是指定位到定义的序列的序列标签的丰度。覆盖率可以通过序列标签密度(或序列标签的计数)、序列标签密度比、归一化覆盖量、调整覆盖值等定量表示。

术语“覆盖量(coverage quantity)”是指原始覆盖率的修改，并且通常表示在基因组的区域诸如箱体中序列标签(有时称为计数)的相对数量。可以通过归一化、调整和/或校正基因组区域的原始覆盖率或计数获得覆盖量。例如，可以通过将定位到该区域的序列标签计数除以定位到完整基因组的合计序列标签来获得该区域的归一化覆盖量。归一化的覆盖量允许比较不同样品之间箱体的覆盖率，其可能具有不同的测序深度。这与序列剂量不同，因为后者通常通过除以定位到完整基因组的子集的标签计数获得。该子集是一个或多个归一化区段或染色体。无论是否归一化，覆盖量可以针对基因组上的区域到区域的整体谱变异、G-C部分变异、稳健的染色体中的极端值等进行校正。

术语“下一代测序(NGS)”在本文中是指允许多个平行测序克隆扩增分子和单个核酸分子的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成测序以及连接测序。

术语“参数”在本文中是指表征系统特征的数值。通常，参数数字性地表征定量数据集和/或定量数据集之间的数值关系。例如，定位到染色体的序列标签的数量和标签被定位到的染色体的长度之间的比率(或比率的函数)是参数。

术语“阈值”和“合格阈值”在本文中是指用作表征样品(诸如含有疑似患有医学状况的生物的核酸的测试样品)的截断值的任何数字。可以将阈值与参数值进行比较，以确定产生这种参数值的样品是否提示生物体具有所述医学状况。在某些实施方案中，使用合格的数据集计算合格阈值，并且用作生物体中拷贝数变化(例如非整倍性)的诊断限度。如果通过本文公开的方法获得的结果超过了阈值，则可以用拷贝数变化，例如21三体性来诊断受试者。可以通过分析为样品的训练组计算的归一化值(例如染色体剂量，NCV或NSV)来鉴定用于本文所述方法的适当阈值。可以使用包含合格的(即未影响的)样品和受影响的样品两者的训练组中合格的(即，未影响的)样品来鉴定阈值。已知具有染色体非整倍性的训练组中的样品(即，受影响的样品)可用于验证所选择的阈值可用于区分测试组中受影响的与未受影响的样品(参见本文的实施例)。阈值的选择取决于用户希望进行分类的置信度。在一些实施例中，用于鉴定适当阈值的训练组包含至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000或更多合格样品。使用较大的合格样品集可能有利于提高阈值的诊断效用。

术语“箱体”是指序列区段或基因组的区段。在一些实施方案中，箱体在基因组或染色体内彼此邻接。每个箱体可以在参考基因组中定义一个核苷酸序列。根据特定应用所需的分析和序列标签密度，箱体的大小可以是1kb、100kb、1Mb等。除了它们在参考序列内的位置之外，箱体可以具有其他特征，诸如样品覆盖率和序列结构特征，例如G-C含量。

术语“掩蔽阈值(masking threshold)”在本文中用于指针对其比较基于序列箱体中序列标签的数量的值的数量，其中具有超过掩蔽阈值的值的箱体被掩蔽。在一些实施方案中，掩蔽阈值可以是百分比等级、绝对计数、定位质量得分或其他合适的值。在一些实施方案中，掩蔽阈值可以被定义为多个未受影响样本的变异系数的百分比等级。在其他实施方案中，掩蔽阈值可以被定义为定位质量得分，例如MapQ得分，其涉及将序列读取与参考基因组比对的可靠性。注意，掩蔽阈值不同于拷贝数变化(CNV)阈值，后者是表征含有来自怀疑患有与CNV相关的医学状况的生物的核酸的样本的截止。在一些实施方案中，相对于本文别处描述的归一化染色体值(NCV)或归一化区段值(NSV)定义CNV阈值。

术语“归一化值”在本文中是指将为目的序列(例如染色体或染色体区段)鉴定的序列标签的数量与为归一化序列(例如归一化染色体或归一化染色体区段)鉴定的序列标签的数量相关联的数值。例如，“归一化值”可以是本文别处描述的染色体剂量，或者它可以是NCV，或者它可以是如本文别处所述的NSV。

术语“读取”是指从核酸样本的一部分获得的序列。通常，虽然不一定，读取表示样本中连续的碱基对的短序列。读取可以由样本部分的碱基对序列(在A、T、C或G)中被符号表示。它可以存储在存储器中并且被适当地处理以确定其是否与参考序列匹配或符合其他标准。可以从测序装置直接获得读取，或者从存储的关于样本的序列信息间接获得。在一些情况下，读取是可用于鉴定较大序列或区域的足够长度(例如，至少约25bp)的DNA序列，例如，其可以比对和特异性分配给染色体或基因组区域或基因。

术语“基因组读取”用于参考个体的完整基因组中任何区段的读取。

术语“序列标签”在本文中与术语“定位的序列标签”可互换使用，用于指通过比对已经被特异性分配，即被定位到更大的序列，例如参照基因组的序列读取。定位的序列标签被唯一地定位到参考基因组，即它们被分配到参考基因组的单个位置。除非另有说明，定位到参考序列上相同序列的标签计数一次。标签可以作为数据结构或其他数据组合提供。在某些实施方案中，标签包含用于该读取的读取序列和相关信息，诸如基因组中序列的位置，例如染色体上的位置。在某些实施方案中，为正链方向指定位置。可以定义标签以允许在与参考基因组比对中有限量的错配。在一些实施方案中，可以定位到参考基因组上的多于一个位置的标签，即，不唯一定位的标签，可能不包括在分析中。

术语“非冗余序列标签”是指不定位到相同位点的序列标签，其在一些实施方案中被计数用于确定归一化染色体值(NCV)的目的。有时，多个序列读取与参考基因组上的相同位置比对，产生冗余或重复的序列标签。在一些实施方案中，为了确定NCV的目的，将定位到相同位置的重复序列标签省略或计数为一个“非冗余序列标签”。在一些实施方案中，计数与未排除的位点比对的非冗余序列标签，以产生用于确定NCV的“非排除位点计数”(NES计数)。

术语“位点”是指参考基因组上的唯一位置(即染色体ID、染色体位置和取向)。在一些实施方案中，可以为残基、序列标签或序列上的区段提供位点的位置。

“排除的位点”是在参考基因组的区域中发现的位点，为了计数序列标签目的其已经被排除。在一些实施方案中，在包含重复序列的染色体区域中发现排除的位点，例如着丝粒和端粒，以及多于一个染色体共有的染色体区域，例如存在于Y染色体也存在于X染色体上的区域。

“非排除位点”(NES)是为了计数序列标签的目的而在参考基因组中未被排除的位点。

“非排除位点计数”(NES计数)是定位到参照基因组上的NES的序列标签的数量。在一些实施例中，NES计数是定位到NES的非冗余序列标签的数量。在一些实施方案中，覆盖率和相关参数，例如归一化覆盖量、去除全局谱的覆盖量和染色体剂量基于NES计数。在一个实例中，染色体剂量被计算为目的染色体的NES计数与归一化染色体的计数的比率。

归一化染色体值(NCV)将测试样本的覆盖率与一组训练/合格样本的覆盖率相关联。在一些实施方案中，NCV基于染色体剂量。在一些实施方案中，NCV涉及测试样本中目的染色体的染色体剂量与一组合格样本中相应染色体剂量的平均值之间的差异，并且可以计算为：

其中对于一组合格样本中的第j个染色体剂量，

和

分别是估计平均值和标准偏差，并且对于测试样本i，x_ij是观察到的第j个染色体比率(剂量)。

在一些实施方案中，可以通过将测试样本中目的染色体的染色体剂量与在相同流动室上测序的多重样本中相应染色体剂量的中位数相关联来“即时”计算NCV：

其中M_j是用于在相同流动室上测序的一组多重样本中第j个染色体剂量的估计中位数；

是在一个或多个流动室上测序的一组或多组多重样本中第j个染色体剂量的标准偏差，并且x_ij是为测试样本i观察到的第j个染色体剂量。在该实施方案中，测试样本i是从其确定M_j的同一流动室上测序的多重样本之一。

例如，对于在一个流动室上作为64个多重样本中的一个测序的测试样本A中21号目的染色体，测试样本A中的21号染色体的NCV被计算为样本A中21号染色体的剂量减去在64个多重样本中确定的21号染色体的剂量的中位数除以对流动室1或另外的流动室上64个多重样本确定的21号染色体的剂量的标准偏差。

如本文所使用的，术语“比对”是指将读取或标签与参考序列进行比较的过程，由此确定参考序列是否含有读取序列。如果参考序列含有读取，则读取可以被定位到参考序列，或者在某些实施例中被定位到参考序列中的特定位置。在一些情况下，比对简单地说明读取是否是特定参考序列的成员(即读取在参考序列中存在还是缺失)。例如，读取与人13号染色体的参考序列的比对将判断读取是否存在于13号染色体的参考序列中。提供该信息的工具可以被称为集员测试器。在一些情况下，比对还指示读取或标签定位到其上的参考序列中的位置。例如，如果参考序列是整个人类基因组序列，则比对可以指示读取存在于13号染色体上，并且可以进一步指示读取在13号染色体的特定链和/或位点上。

比对的读取或标签是下述一个或多个序列，其在其核酸分子的顺序方面被鉴定为与来自参考基因组的已知序列的匹配。比对可以手动完成，尽管它通常由计算机算法来实现，因为在合理的时间段内不可能比对读取以实现本文公开的方法。来自比对序列的算法的一个实例是作为Illumina Genomics Analysis流水线的一部分分布的核苷酸数据(ELAND)计算机程序的高效局部比对(Efficient Local Alignment of Nucleotide Data(ELAND)computer program)。或者，可以使用布隆过滤器(Bloom filter)或类似的集员测试器来将读取比对到参考基因组上。参见2011年10月27日提交的美国专利申请号61/552,374，其全部内容通过引用并入本文。比对中序列读取的匹配可以是100％序列匹配或小于100％(非完全匹配)。

本文使用的术语“定位”是指通过比对将序列读取特异性地分配到较大序列，例如参考基因组上。

如本文所用，术语“参考基因组”或“参考序列”是指可用于参考来自受试者的鉴定序列的任何生物或病毒的任何特定已知基因组序列，无论是部分还是完全的。例如，用于人类受试者以及许多其他生物的参考基因组见于ncbi.nlm.nih.gov上的国家生物技术信息中心(National Center for Biotechnology Information)。“基因组”是指以核酸序列表达的生物或病毒的完整遗传信息。

在多个实施方案中，参考序列显著大于与其比对的读取。例如，其可以大至少约100倍、或至少约1000倍、或至少约10,000倍、或至少约10⁵倍、或至少约10⁶倍、或至少约10⁷倍。

在一个实例中，参考序列是全长人类基因组的参考序列。这些序列可以称为基因组参考序列。在另一个实例中，参考序列限于特定的人染色体，诸如13号染色体。在一些实施方案中，参考Y染色体是来自人类基因组版本hg19的Y染色体序列。这样的序列可以被称为染色体参考序列。参考序列的其他实例包括其他物种的基因组，以及任何物种的染色体，亚染色体区域(诸如链)等。

在不同的实施方案中，参考序列是共有序列或来自多个个体的其他组合。然而，在某些应用中，参考序列可以取自特定个体。

术语“临床相关序列”在本文中是指已知或怀疑与遗传或疾病状况相关或牵连的核酸序列。确定临床相关序列的缺少或存在可用于确定诊断或确认医学状况的诊断，或提供疾病发展的预后。

当在核酸或核酸混合物的上下文中使用时，术语“衍生”在本文中是指下述手段，由此从它们起源的来源获得所述核酸。例如，在一个实施方案中，衍生自两个不同基因组的核酸混合物意味着核酸，例如cfDNA通过天然存在的过程诸如坏死或细胞凋亡被天然释放。在另一个实施方案中，衍生自两个不同基因组的核酸混合物意味着从受试者的两种不同类型的细胞中提取核酸。

当在获得特定定量值的上下文中使用时，术语“基于”在本文中是指使用另一数量作为输入来计算特定定量值作为输出。

术语“患者样本”在本文中是指从患者，即医疗处理、护理或治疗的接受者获得的生物样本。患者样本可以是本文所述的任何样本。在某些实施方案中，患者样本通过非侵入性方法获得，例如外周血样本或粪便样本。本文描述的方法不必限于人类。因此，考虑到不同的兽医应用，在所述情况下，患者样本可以是来自非人哺乳动物(例如猫、猪、马、牛等)的样本。

术语“混合样本”在本文中是指含有衍生自不同基因组的核酸混合物的样本。

术语“母体样本”在本文中是指从怀孕的受试者例如，女人获得的生物样本。

术语“生物学流体”在本文中是指从生物来源获得的液体，并且包括例如血液、血清、血浆、痰液、灌洗液、脑脊液、尿液、精液、汗液、眼泪、唾液等。如本文所用，术语“血液”、“血浆”和“血清”明确地包括其级分或加工部分。类似地，当从活组织检查、拭子、涂片等获取样本时，“样本”明确地包括衍生自所述活组织检查、拭子、涂片等的加工级分或部分。

术语“母体核酸”和“胎儿核酸”在本文中分别指怀孕女性受试者的核酸和由怀孕女性携带的胎儿的核酸。

如本文所用，术语“对应于”有时指存在于不同受试者的基因组中的核酸序列，例如基因或染色体，并且其在所有基因组中不一定具有相同的序列，但是用于提供目的序列(例如基因或染色体)的身份而不是遗传信息。

如本文所用，术语“胎儿分数”是指存在于包含胎儿和母体核酸的样本中的胎儿核酸的部分。胎儿级分经常用于表征母亲血液中的cfDNA。

如本文所用，术语“染色体”是指衍生自包含DNA和蛋白质组分(特别是组蛋白)的染色质链的活细胞的携带遗传的基因载体。本文中采用常规的国际认可的独特的人类基因组染色体编号系统。

术语“受试者”在本文中是指人类受试者以及非人类受试者，诸如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。虽然本文的实例涉及人类并且文字主要针对人类的关注，但是本文公开的概念适用于来自任何植物或动物的基因组，并且用于兽医学、动物科学、研究实验室等领域。

术语“状况”在本文中是指作为一个包括所有疾病和病征的广泛术语的“医学状况”，但可以包括损伤和正常的健康状况，诸如怀孕，其可能影响一个人的健康，受益于医疗援助，或有对医学治疗有影响。

当用于参考染色体非整倍性时，术语“完全”在本文中是指完整染色体的获得或丢失。

当用于参考染色体非整倍性时，术语“部分”在本文中是指是指染色体的部分，即区段的获得或丢失。

术语“镶嵌的”在本文中是指表示在从单个受精卵发育的一个个体中存在具有不同核型的两个细胞群。镶嵌现象可以由发育过程中的突变引起，其仅传播到成年细胞的一个子集。

术语“非镶嵌的”在本文中是指由一种核型的细胞组成的生物体，例如人胎儿。

本文所用的术语“灵敏度”是指当存在目的状况时测试结果将为阳性的概率。它可以被计算为真阳性的数量除以真正阳性和假阴性的总和。

本文使用的术语“特异性”是指当目的状况不存在时测试结果将为负的概率。它可以被计算为真阴性的数量除以真阴性和假阳性的总和。

术语“富集”在本文中是指扩增母体样本部分中所含的多态性靶核酸，并将扩增产物与去除该部分的母体样本的其余部分组合的方法。例如，母体样本的其余部分可以是原始的母体样本。

术语“原始母体样本”在本文中是指从怀孕受试者(例如女性)获得的非富集生物样本，其作为去除部分以扩增多态性靶核酸的来源。“原始样本”可以是从怀孕受试者获得的任何样本及其加工级分，例如从母体血浆样本中提取的纯化的cfDNA样本。

本文所用的术语“引物”是指分离的寡核苷酸，当置于诱导延伸产物合成的条件(例如，条件包括核苷酸，诱导剂如DNA聚合酶，以及合适的温度和pH)下时能够作为起始合成的点。引物优选是单链的，用于扩增的最大效率，但也可以是双链的。如果是双链的，则在用于制备延伸产物之前首先处理引物以分离其链。优选地，引物是寡脱氧核糖核苷酸。引物必须足够长以在诱导剂存在下引发延伸产物的合成。引物的确切长度将取决于许多因素，包括温度、引物来源、方法的使用以及用于引物设计的参数。

引言和背景

人类基因组中的CNV显著影响人类多样性和针对疾病的易感性(Redon等，Nature23：444-454[2006]，Shaikh等，Genome Res 19：1682-1690[2009])。这些疾病包括但不限于癌症、感染性和自身免疫性疾病、神经系统疾病、代谢和/或心血管疾病等。

已知CNV通过不同的机制对遗传疾病有贡献，导致在大多数情况下基因剂量的不平衡或基因破坏。除了其与遗传病征的直接相关性外，已知CNV介导可能是有害的表型变化。最近，几项研究已经报道，与正常对照相比，复杂病征诸如自闭症、ADHD和精神分裂症中罕见或从头CNV的负担增加，突出了罕见或独特CNV的潜在致病性(Sebat等，316：445-449[2007]；Walsh等，Science 320：539-543[2008])。CNV起源于基因组重排，主要是由于缺失、复制、插入和不平衡易位事件。

已经显示，胎儿来源的cfDNA片段平均比母体来源的片段短。基于NGS数据的NIPT(非侵入性产前检测)已经成功实施。目前的方法学包括使用短的读取(25bp-36bp)测序母体样本，与基因组比对，相比于与正常二倍体基因组相关的预期归一化覆盖率计算和归一化亚染色体覆盖率，并最终评估目标染色体(13/18/21/X/Y)的过表达。因此，传统的NIPT测定和分析依赖于计数或覆盖率来评估胎儿非整倍性的可能性。

由于母体血浆样本代表母体和胎儿cfDNA的混合物，任何给定的NIPT方法的成功取决于其对检测低胎儿级分样本中的拷贝数变化的敏感性。对于基于计数的方法，通过(a)测序深度和(b)数据归一化的能力确定它们的灵敏度以减少技术偏差。本公开内容通过从例如配对末端读取导出片段大小信息并在分析流水性中使用该信息来提供用于NIPT和其他应用的分析方法。改进的分析灵敏度提供了以降低的覆盖率(例如，降低的测序深度)应用NIPT方法的能力，其使得能够使用该技术来进行平均风险怀孕的较低成本测试。

本文公开了用于确定测试样本中不同目的序列的拷贝数和拷贝数变化(CNV)的方法、装置和系统，所述测试样本包含衍生自两个或更多个不同基因组的核酸的混合物，并且已知或怀疑所述方法、装置和系统在一个或多个目的序列的数量上不同。由本文公开的方法和装置确定的拷贝数变化包括完整染色体的获得或丢失，涉及非常大的显微镜可见的染色体区段的改变，以及大小从单核苷酸到千碱基(kb)，到兆碱基(Mb)的DNA区段的亚显微镜拷贝数变化的丰度。

在一些实施方案中，提供了使用含有母体和胎儿无细胞DNA的母体样本来确定胎儿的拷贝数变化(CNV)的方法。一些实施方式使用cfDNA的片段长度(或片段大小)来提高对从母体血浆中cfDNA检测胎儿非整倍性的敏感性和特异性。一些实施方案用与配对末端DNA测序偶联的无PCR文库制备来实现。在一些实施方案中，利用片段大小和覆盖率来增强胎儿非整倍性检测。在一些实施方案中，所述方法包括将较短片段的独立计数与基因组上箱体中的较短片段的相对分数组合。

本文公开的一些实施方案提供通过去除样本内GC含量偏差来提高序列数据分析的灵敏度和/或特异性的方法。在一些实施方案中，样本内GC含量偏差的去除是基于为未受影响的训练样本上共有的系统变异校正的序列数据。

所公开的一些实施方案提供了从无细胞核酸片段导出具有高信噪比的参数的方法，用于确定与拷贝数和CNV相关的不同遗传状况，相对于常规方法其具有提高的灵敏度、选择性和/或效率。参数包括但不限于覆盖率、片段大小加权覆盖率、在限定范围内的片段的分数或比例、片段的甲基化水平。已经发现所描绘的方法在提高来自所考虑的基因组(例如，胎儿的基因组)的具有相对低的DNA级分的样本中的信号方面特别有效。这种样本的一个实例是来自怀有双卵性双胎、三胎等的个体的母体血液样本，其中该方法评估一种胎儿的基因组中的拷贝数变化。

在一些实施方案中，可以使用非常低的不需要PCR扩增的cfDNA输入以简单的文库制备来实现高分析灵敏度和特异性。无PCR方法简化了工作流程，改善了周转时间并消除了PCR方法固有的偏差。在一些实施方案中，可以使得从母体血浆中检测胎儿非整倍性比常规方法更稳健和有效，需要较少的独特cfDNA片段。结合起来，以显著较低数量的cfDNA片段，以非常快的周转时间实现了提高的分析灵敏度和特异性。这可能允许以显著较低的成本进行NIPT，以促进在一般产科人群中的应用。

评估CNV

用于确定CNV的方法

使用本文公开的方法所提供的序列覆盖率值、片段大小参数，和/或甲基化水平，相对于使用通过常规方法获得的序列覆盖率值，可以确定与序列、染色体或染色体区段的拷贝数和CNV相关的不同遗传状况，其具有提高的灵敏度、选择性和/或效率。例如，在一些实施方案中，掩蔽的参考序列用于确定包含胎儿和母体核酸分子的母体测试样本中任何两种或更多种不同的完全胎儿染色体非整倍性的存在或缺失。下面提供的示例性方法将读取与参考序列(包括参考基因组)比对。可以在未掩蔽或掩蔽的参考序列上进行比对，由此产生定位到参考序列的序列标签。在一些实施例中，仅考虑落在参考序列的未掩蔽区段上的序列标签以确定拷贝数变化。

在一些实施方案中，评估CNV的核酸样本涉及通过三种类型的调用(calls)之一来表征染色体或片段非整倍性的状态：“正常的”或“未受影响的”、“受影响的”和“无调用的”。通常设置用于调用正常的和受影响的阈值。在样本中测量与非整倍性或其他拷贝数变化相关的参数，并将测量值与阈值进行比较。对于复制型非整倍性，如果染色体或区段剂量(或其他测量值序列含量)高于为受影响样本设定的确定阈值，则进行受影响的调用。对于这样的非整倍性，如果染色体或区段剂量低于为正常样本设定的阈值，则进行正常的调用。相反，对于缺失型非整倍性，如果染色体或区段剂量低于受影响样本的确定阈值，则进行受影响的调用，如果染色体或区段剂量高于为正常样本设定的阈值，则进行正常的调用。例如，在存在三体性的情况下，“正常”调用由参数的值确定，例如，低于用户定义的可靠性阈值的测试染色体剂量，并且“受影响的”调用由参数确定，例如，测试染色体剂量，其高于用户定义的可靠性阈值。“无调用的”结果由参数确定，例如位于用于进行“正常的”或“受影响的”调用的阈值之间的测试染色体剂量。术语“无调用的”与“未分类的”互换使用。

可用于确定CNV的参数包括但不限于覆盖率、片段大小偏差/加权的覆盖率、在确定的大小范围内的片段的级分或比率以及片段的甲基化水平。如本文所讨论，从与参考基因组的区域比对的读取计数获得覆盖率，并任选地归一化以产生序列标签计数。在一些实施方案中，序列标签计数可以通过片段大小来加权。

在一些实施方案中，片段大小参数偏向特征为基因组之一的片段大小。片段大小参数是与片段的大小相关的参数。当以下情况时，参数偏向于片段大小：1)参数对于片段大小有利地加权，例如，对于除其他大小以外的大小而言，计数加权更重；或2)从对片段大小有利地加权的值获得参数，例如，从对于大小加权更重的计数获得的比率。当相对于另一基因组或相同基因组的另一部分，该基因组具有富集的或更高浓度所述大小的核酸时，大小的特征是基因组。

在一些实施方案中，用于确定母体测试样本中任何完整的胎儿染色体非整倍性的存在或缺失的方法包括(a)获得母体测试样本中胎儿和母体核酸的序列信息；(b)使用上述序列信息和方法来鉴定从1-22号、X和Y染色体选出的每个染色体的多个序列标签、序列覆盖量、片段大小参数或另一个参数，并鉴定一个或多个归一化染色体序列的多个序列标签或另一个参数；(c)使用为每个目的染色体鉴定的序列标签数量或其他参数和为每个归一化染色体鉴定的序列标签数量或其他参数来为每个目的染色体计算单个染色体剂量；和(d)将每个染色体剂量与阈值进行比较，并由此确定母体测试样本中任何完整胎儿染色体非整倍性的存在或缺失。

在一些实施方案中，上述步骤(a)可以包括测序测试样本的核酸分子的至少一部分，以获得测试样本的胎儿和母体核酸分子的所述序列信息。在一些实施方案中，步骤(c)包括将每个目的染色体的单个染色体剂量计算为为每个目的染色体鉴定的序列标签数量或其他参数和为归一化染色体鉴定的序列标签数量或其他参数的比率。在一些其他实施方案中，染色体剂量基于衍生自序列标签的数量或另一参数的经处理的序列覆盖量。在一些实施方案中，仅使用唯一的非冗余序列标签来计算经处理的序列覆盖量或另一参数。在一些实施方案中，经处理的序列覆盖量是序列标签密度比，其是通过序列长度标准化的序列标签的数量。在一些实施方案中，经处理的序列覆盖量或另一参数是归一化序列标签或另一归一化参数，其是序列标签的数量或目的序列的其他参数除以全部或大部分基因组。在一些实施方案中，根据目的序列的全局谱来调整经处理的序列覆盖量或其他参数，诸如片段大小参数。在一些实施方案中，根据所测试样本的GC含量和序列覆盖率之间的样本内相关性来调整经处理的序列覆盖量或其他参数。在一些实施方案中，经处理的序列覆盖数量或其他参数来自这些方法的组合，其在本文别处进一步描述。

在一些实施方案中，染色体剂量被计算为为每个目的染色体处理的序列覆盖率或其他参数与为归一化的染色体序列处理的序列覆盖率或其他参数的比率。

在上述实施方案的任何一个中，完整的染色体非整倍性选自完整的染色体三体性、完整的染色体单体性和完整的染色体多体性。完整的染色体非整倍性选自1-22号、X和Y染色体中任一个的完全非整倍性。例如，所述不同的完整胎儿染色体非整倍性选自2三体性、8三体性、9三体性、20三体性、21三体性、13三体性、16三体性、18三体性、22三体性、47，XXX、47，XYY和X单体性。

在上述实施方案的任何一个中，对来自不同母体受试者的测试样本重复步骤(a)-(d)，并且该方法包括确定每个测试样本中任何两种或更多种不同的完整胎儿染色体非整倍性的存在或缺失。

在上述实施方案的任何一个中，该方法还可包括计算归一化的染色体值(NCV)，其中使用NCV将染色体剂量与一组合格样本中相应染色体剂量的均值相关联：

其中

和

分别是一组合格样本中第j个染色体剂量的均值和标准偏差，并且x_ij是测试样本i观察到的第j个染色体剂量。

在一些实施方案中，可以通过将测试样本中目的染色体的染色体剂量与在相同流动室上测序的多重样本中的相应染色体剂量的中位数相关联来“即时”计算NCV：

是在一个或多个流动室上测序的一组或多组多重样本中第j个染色体剂量的标准偏差，并且x_i是为测试样本i观察到的第j个染色体剂量。在该实施方案中，测试样本i是从其确定M_j的同一流动室上测序的多重样本之一。

在一些实施方案中，提供了一种用于确定包含胎儿和母体核酸的母体测试样本中不同部分胎儿染色体非整倍性的存在或缺失的方法。该方法涉及与如上所述的用于检测完全非整倍性的方法类似的程序。然而，分析染色体的区段，而不是分析完整的染色体。参见通过参考并入的美国专利申请公开号2013/0029852。

图1显示了根据一些实施方案用于确定拷贝数变化的存在的方法。图1所示的过程100使用基于序列标签数量(即，序列标签计数)的序列标签覆盖率来确定CNV。然而，与上述用于计算NCV的描述类似，可以使用其他变量或参数，诸如大小、大小比和甲基化水平，而不是覆盖率。在一些实施方式中，组合两个或更多个变量以确定CNV。此外，可以基于从其衍生标签的片段大小来加权覆盖率和其他参数。为了便于阅读，在图1所示的过程100中仅引用覆盖率，但应该注意可以使用其他参数，诸如大小、大小比和甲基化水平、通过大小加权的计数等代替覆盖率。

在操作130和135中，确定合格的序列标签覆盖率(或另一参数的值)和测试序列标签覆盖率(或另一参数的值)。本公开内容提供了方法来确定覆盖量，所述方法相对于常规方法提高的灵敏度和选择性。操作130和135用星号标记，并用粗线框加以强调，以表明这些操作有助于改进现有技术。在一些实施方案中，归一化、调整、整理并另外处理序列标签覆盖量以提高分析的灵敏度和选择性。这些方法在本文其他地方有进一步的描述。

从全局视角来看，该方法在确定测试样本的CNV中利用合格训练样本的归一化序列。在一些实施方案中，合格的训练样本不受影响并且具有正常的拷贝数。归一化序列提供了对运行内和运行间变化进行归一化测量的机制。使用从已知包含任何一个目的序列，例如染色体或其区段的正常拷贝数的细胞的受试者获得的一组合格样本的序列信息来鉴定归一化序列。在图1所示方法的实施方案的步骤110、120、130、145和146中概述归一化序列的确定。在一些实施方案中，归一化序列用于计算测试序列的序列剂量。参见步骤150。在一些实施方案中，归一化序列也用于计算针对其比较测试序列的序列剂量的阈值。参见步骤150。从归一化序列和测试序列获得的序列信息用于确定测试样本中染色体非整倍性的统计学上有意义的鉴定(步骤160)。

转到根据一些实施方案确定拷贝数变化的存在的方法细节，图1提供了用于确定生物样本中目的序列，例如染色体或其区段的CNV的实施方案的流程图100。在一些实施方案中，生物样本从受试者获得，并且包含由不同基因组贡献的核酸的混合物。不同的基因组可以由两个个体贡献给样本，例如不同的基因组由胎儿和携带胎儿的母亲所贡献。同样，不同基因组可以由三个或更多个体贡献给样本，例如不同的基因组由两个或更多个胎儿和携带胎儿的母亲所贡献。或者，通过非整倍体癌细胞和来自相同受试者的正常整倍体细胞(例如来自癌症患者的血浆样本)向样本贡献基因组。

除了分析患者的测试样本之外，为每个可能的目的染色体选择一个或多个归一化染色体或一个或多个归一化染色区段。鉴定归一化染色体或区段与来自患者样本的正常测试不同时，后者可能在临床环境中发生。换句话说，归一化染色体或区段在测试患者样本之前被鉴定。保存归一化染色体或区段与目的染色体或区段之间的关联用于在测试期间使用。如下所解释，这种关联通常维持在跨越许多样本的测试的时间段内。以下讨论涉及用于为各目的染色体或区段选择归一化染色体或染色体区段的实施方案。

获得一组合格的样本以鉴定合格的归一化序列并提供方差值用于确定测试样本中CNV的统计学上有意义的鉴定。在步骤110中，从已知包含具有任何一个目的序列的正常拷贝数的细胞的多个受试者获得多个生物合格样本。在一个实施方案中，从怀有胎儿的母亲获得合格的样本，已经使用细胞遗传学手段证实所述胎儿具有正常拷贝数的染色体。生物合格样本可以是生物流体，例如血浆，或如下所述的任何合适的样本。在一些实施方案中，合格的样本包含核酸分子的混合物，例如cfDNA分子。在一些实施方案中，合格样本是含有胎儿和母体cfDNA分子混合物的母体血浆样本。通过使用任何已知的测序方法测序至少一部分核酸，例如胎儿和母体核酸来获得归一化染色体和/或其区段的序列信息。优选地，本文别处描述的下一代测序(NGS)方法中的任何一种用于将胎儿和母体核酸测序为单个或克隆扩增的分子。在多个实施方案中，在测序之前和期间如下所公开处理合格样本。可以使用本文公开的装置、系统和试剂盒处理它们。

在步骤120中，对合格样本中包含的所有合格核酸中的每一种的至少一部分进行测序以产生数百万次的序列读取，例如36bp读取，其与参考基因组例如hg18比对。在一些实施方案中，序列读取包含20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp,about90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预计技术进步将使得单端读取大于500bp，在产生配对末端读取时使得能够读取大于约1000bp。在一个实施方案中，定位的序列读取包括36bp。在另一个实施方案中，定位的序列读取包括25bp。

序列读取与参考基因组比对，并且唯一定位到参考基因组的读取被称为序列标签。落在掩蔽参考序列的掩蔽区段上的序列标签不计入CNV的分析。

在一个实施方案中，从唯一地定位到参考基因组的读取获得包含20-40bp读取的至少约3×10⁶个合格序列标签、至少约5×10⁶个合格序列标签、至少约8×10⁶个合格序列标签、至少约10×10⁶个合格序列标签、至少约至少约20x 10⁶个合格序列标签、至少约30x 10⁶个合格序列标签、至少约40x 10⁶个合格序列标签、或至少约50x 10⁶个合格序列标签。

在步骤130中，计数从测序合格样本中的核酸获得的所有标签以获得合格的序列标签覆盖率。类似地，在操作135中，计数从测试样本获得的所有标签以获得测试序列标签覆盖率。本公开内容提供方法以确定覆盖量，所述方法相对于常规方法提供提高的灵敏度和选择性。操作130和135用星号标记并用粗线框加以强调，以表明这些操作有助于改进现有技术。在一些实施方案中，归一化、调整、整理并另外处理序列标签覆盖量以提高分析的灵敏度和选择性。这些方法在本文其他地方有进一步的描述。

由于所有合格的序列标签在每个合格样本中被定位和计数，所以将合格样本中目的序列(例如临床相关序列)的序列标签覆盖率确定为随后从其鉴定归一化序列的额外序列的序列标签覆盖率。

在一些实施方案中，目的序列是与完整染色体非整倍性，例如21号染色体相关的染色体，并且合格的归一化序列是与染色体非整倍性无关并且其序列标签覆盖率的变化近似于目的序列(即染色体)，例如21号染色体的序列标签覆盖率的变化的完整染色体。所选择的归一化染色体可以是最接近目标序列的序列标签覆盖变化的一个或组。1-22号、X和Y染色体中的任何一个或多个可以是目的序列，并且一个或多个染色体可以被鉴定为合格样本中任何一个1-22号、X和Y染色体中的每一个的归一化序列。归一化染色体可以是单个染色体或者它可以是本文别处描述的一组染色体。

在另一个实施方案中，目的序列是与部分非整倍性(例如，染色体缺失或插入,或不平衡染色体易位)相关的染色体的区段，并且归一化序列是下述染色体区段(或区段组)，其与部分非整倍性不相关并且其序列标签覆盖率的变化近似于与部分非整倍性有关的染色体区段的序列标签覆盖率的变化。所选择的归一化染色体区段可以是最接近目的序列的序列标签覆盖率的变化的一个或多个。任何一个或多个1-22号、X和Y染色体的任何一个或多个区段可以是目的序列。

在其他实施方案中，目的序列是与部分非整倍性相关的染色体的区段并且归一化序列是整个染色体或多个染色体。在仍然其他实施方案中，目的序列是与非整倍性相关的整个染色体并且归一化序列是与非整倍性不相关的染色体区段或多个区段。

无论在合格样本中是否将单个序列或一组序列鉴定为任何一个或多个目的序列的归一化序列，可以选择合格的归一化序列以具有序列标签覆盖率的变化或最大或有效地近似合格样本中确定的目标序列的片段大小参数。例如，当用于归一化目标序列时，合格的归一化序列是在合格样本中产生最小变异性的序列，即归一化序列的可变性最接近合格样本中确定的目的序列的变异性。换言之，合格的归一化序列是选择用于在合格样本中产生序列剂量的最小变化(对于目标序列)的序列。因此，该过程选择下述序列，当用作归一化染色体时，期望其产生目标序列的批次染色体剂量中的最小变异性。

在合格样本中为任何一个或多个目的序列鉴定的归一化序列仍然是所选的归一化序列，其用于确定在几天、几周、几个月并且可能在几年内测定样本中非整倍性的存在或缺失，只要产生测序文库所需的程序和测序样本随着时间基本上都不变。如上所述，为样本，例如不同样本，和测序运行，例如在同一天和/或不同日期发生的测序运行之间定位其上的序列标签或片段大小参数值的变异性(其最接近为其用作归一化参数的目标序列的可变性)选择用于确定非整倍体存在的归一化序列(可能还有其他原因)。这些过程中的重大改变将影响定位到所有序列的标签的数量，其又将决定同一天或不同日期中相同和/或不同测序运行中哪一个或序列组在样本间具有变异性，其最接近于目的序列的变异性，这将要求重新确定归一化序列组。程序的重大改变包括用于制备测序文库的实验室方案的变化，其包括与制备用于多重测序，而不是单次测序的样本相关的变化，以及测序平台的变化，其包括用于测序的化学变化。

在一些实施方案中，选择用于归一化特定目的序列的归一化序列是最佳区分一个或多个合格样本与一个或多个受影响样本的序列，其暗示归一化序列是具有最大可辩性(differentiability)的序列，即归一化序列的可辩性使得其在受影响的测试样本中为目的序列提供最佳区分，以容易地将受影响的测试样本与其他未受影响的样本区分开。在其他实施方案中，归一化序列是具有最小变异性和最大可辨性的组合的序列。

可辩性的水平可以被确定为合格样本群体中的序列剂量，例如染色体剂量或区段剂量与如下所述和实施例中所示的一个或多个测试样本中的染色体剂量之间的统计学差异。例如，可辩性可以数字表示为t检验值，其代表合格样本群体中的染色体剂量与一个或多个测试样本中的染色体剂量之间的统计学差异。类似地，可辩性可以基于区段剂量而不是染色体剂量。或者，可辩性可以数字表示为归一化染色体值(NCV)，其是用于染色体剂量的z-分数，只要NCV的分布是正常的。类似地，在染色体区段是目的序列的情况下，区段剂量的可辩性可以数字表示为归一化区段值(NSV)，其是用于染色体区段剂量的z-分数，只要NSV的分布是正常的。在确定z-分数时，可以使用一组合格样本中染色体或区段剂量的平均值和标准偏差。或者，可以使用包括合格样本和受影响样本的训练集中的染色体或区段剂量的平均值和标准偏差。在其他实施方案中，归一化序列是具有最小变异性和最大可辨性或小变异性和大可辩性的最佳组合的序列。

该方法鉴定了下述序列，其固有地具有相似特征并且在样本和测序运行之间易于相似变化，并且其可用于确定测试样本中的序列剂量。

确定序列剂量

在一些实施方案中，如图1所示的步骤146中所述，在所有合格样本中确定一个或多个染色体或目的区段的染色体或区段剂量，并且在步骤145中鉴定归一化染色体或区段序列。在计算序列剂量之前提供一些归一化序列。然后根据下面进一步描述的各种标准来鉴定一个或多个归一化序列，参见步骤145。在一些实施方案中，例如，所鉴定的归一化序列导致所有合格样本中目的序列的序列剂量的最小变异性。

在步骤146中，基于计算的合格标签密度，将目标序列的合格序列剂量，即染色体剂量或区段剂量确定为目标序列的序列标签覆盖率与额外序列的合格序列标签覆盖率的比率，随后在步骤145中从所述额外序列鉴定归一化序列。随后使用鉴定的归一化序列来确定测试样本中的序列剂量。

在一个实施方案中，合格样本中的序列剂量是染色体剂量，其计算为目的染色体的序列标签的数量或片段大小参数与合格样本中归一化染色体序列的序列标签的数量的比率。归一化染色体序列可以是单个染色体，一组染色体，一条染色体的区段，或来自不同染色体的一组区段。因此，在合格样本中将目的染色体的染色体剂量确定为为目的染色体的标签的数量与(i)由单个染色体组成的归一化染色体序列，(ii)由两条或多条染色体组成的归一化染色体序列，(iii)由染色体的单个区段组成的归一化区段序列，(iv)由来自(form)一条染色体的两个或更多个区段构成的归一化区段序列，或(v)由两条或多条染色体的两个或更多个区段组成的归一化区段序列的标签数量的比率。根据(i)-(v)确定21号目的染色体的染色体剂量的实例如下：目的染色体，例如21号染色体的染色体剂量被确定为21号染色体的序列标签覆盖率与以下序列标签覆盖率之一的比率：(i)所有剩余染色体中的每一个，即1-20号染色体、22号染色体、X染色体和Y染色体；(ii)两个或更多个剩余染色体的所有可能组合；(iii)另一染色体，例如9号染色体的区段；(iv)一条其他染色体的两个区段，例如9号染色体的两个区段；(v)两条不同染色体的两个区段，例如9号染色体的区段和14号染色体的区段。

在另一个实施方案中，合格样本中的序列剂量是与染色体剂量相反的区段剂量，所述区段剂量被计算为目的区段(其不是整个染色体)的序列标签数量与合格样本中归一化区段序列的序列标签数量的比率。归一化区段序列可以是上文讨论的任何归一化染色体或区段序列。

归一化序列的鉴定

在步骤145中，为了目的序列鉴定归一化序列。在一些实施方案中，例如，归一化序列是基于所计算的序列剂量的序列，例如，其导致所有合格训练样本中目的序列的序列剂量的最小变异性。该方法鉴定下述序列，其固有地具有相似特征并且在样本和测序运行之间易于相似变化，并且其可用于确定测试样本中的序列剂量。

可以在一组合格样本中鉴定一个或多个目的序列的归一化序列，并且随后使用在合格样本中鉴定的序列来计算每个测试样本中一个或多个目的序列的序列剂量(步骤150)以确定每个测试样本中非整倍性的存在或缺失。当使用不同的测序平台和/或当待测序的核酸的纯化和/或测序文库的制备存在差异时，为目的染色体或区段鉴定的归一化序列可能不同。不考虑所使用的样本制备和/或测序平台，根据本文描述的方法使用归一化序列提供了染色体或其区段的拷贝数变化的特异且灵敏的措施。

在一些实施方案中，鉴定多于一个归一化序列，即可以为一个目的序列确定不同的归一化序列，并且可以为一个目的序列确定多个序列剂量。例如，当使用14号染色体的序列标签覆盖率时，21号目的染色体的染色体剂量中的变化，例如变异系数(CV＝标准偏差/平均值)最小。然而，可以鉴定2、3、4、5、6、7、8或多个归一化序列用于确定测试样本中目的序列的序列剂量。作为实例，可以使用7号染色体、9号染色体、11号染色体或12号染色体作为归一化染色体序列来确定任何一个测试样本中21号染色体的第二剂量，因为这些染色体都具有接近14号染色体的CV的CV。

在一些实施方案中，当选择单个染色体作为目的染色体的归一化染色体序列时，归一化染色体序列将是下述染色体，其导致在所测试的所有样本，例如合格样本之间具有最小变异性的目的染色体的染色体剂量。在一些情况下，最佳归一化染色体可能不具有最小的变异，但是可以具有下述合格剂量分布，其将测试样本或多个样本与合格样本进行最佳区别，即最佳归一化染色体可能不具有最低的变异，但是可能具有最大的可辩性。

在一些实施方案中，归一化序列包括一个或多个稳健的常染色体序列或其区段。在一些实施方案中，稳健的常染色体包括除目的染色体之外的所有常染色体。在一些实施方案中，稳健的常染色体菌包括除X、Y、13号、18号和21号之外的所有常染色体。在一些实施方案中，稳健的常染色体包括从待衍生自正常二倍体状态的样本确定的那些以外的所有常染色体，其可用于确定相对于正常二倍体基因组具有异常拷贝数的癌症基因组。

测试样本中非整倍性的测定

基于合格样本中归一化序列的鉴定，在包含来源于在一个或多个目的序列上不同的基因组的核酸混合物的测试样本中确定目的序列的序列剂量。

在步骤115中，从怀疑或已知携带目的序列的临床相关CNV的受试者获得测试样本。测试样本可以是生物流体，例如血浆，或如下所述的任何合适的样本。如所解释的，可以使用非侵入性方法诸如简单的抽血获得样本。在一些实施方案中，测试样本含有核酸分子，例如cfDNA分子的混合物。在一些实施方案中，测试样本是含有胎儿和母体cfDNA分子的混合物的母体血浆样本。

在步骤125中，如为合格样本所述测序测试样本中至少一部分测试核酸以产生数百万次序列读取，例如36bp读取。在多个实施方案中，使用2×36bp的配对末端读取用于配对末端测序。如在步骤120中，从测序测试样本中的核酸产生的读取被唯一地定位或比对到参考基因组以产生标签。如步骤120中所述，从唯一定位到参考基因组的读取获得包含20-40bp读取的至少约3×10⁶个合格序列标签、至少约5×10⁶个合格序列标签、至少约8×10⁶个合格序列标签、至少约10×10⁶个合格序列标签、至少约15个x 10⁶个合格序列标签、至少约20×10⁶个合格序列标签、至少约30×10⁶个合格序列标签、至少约40×10⁶个合格序列标签、或至少约50×10⁶个合格序列标签。在某些实施方案中，由测序装置产生的读取以电子格式提供。使用如下所讨论的计算装置来实现比对。将个体读取与参考基因组进行比较以鉴定其中读取与参考基因组唯一对应的位点，所述参考基因组通常是巨大的(数百万个碱基对)。在一些实施方案中，比对过程允许读取与参考基因组之间的有限的错配。在一些情况下，读取中的1、2或3个碱基对被允许错配参考基因组中相应的碱基对，并且仍然进行定位。

在步骤135中，计数从测序测试样本中的核酸获得的全部或大部分标签，以使用如下所述的计算装置来确定测试序列标签覆盖率。在一些实施方案中，每个读取与参考基因组(大多数情况下是染色体或区段)的特定区域比对，并且通过将位点信息附加到读取来将读取转换为标签。随着该过程的展开，计算设备可以保持对定位到参考基因组(大多数情况下是染色体或区段)的每个区域的标签/读取的数量的连续计数。为每个目的染色体或区段和每个对应的归一化染色体或区段存储计数。

在某些实施方案中，参考基因组具有作为真实生物基因组一部分但不包括在参考基因组中的一个或多个排除区域。不计数可能与这些排除的区域比对的读取。排除区域的实例包括长重复序列的区域，X和Y染色体之间的相似区域等。使用通过上述掩蔽技术获得的掩蔽参考序列，仅考虑参考序列的未掩蔽区段上的标签用于CNV分析。

在一些实施方案中，当多个读取与参考基因组或序列上的相同位点比对时，该方法确定是否多次计数标签。有时候两个标签具有相同的序列，因此与参考序列上的相同位点比对。用于计数标签的方法可能在某些情况下排除衍生自相同序列样本的相同标签的计数。如果给定样本中不相称的标签数量相同，则表明程序中存在强烈偏差或其他缺陷。因此，根据某些实施方案，计数方法不计算来自给定样本的与来自以前计数的样本的标签相同的标签。

可以设置各种标准来选择何时从单个样本中忽略相同的标签。在某些实施方案中，所计数的标签的确定百分比必须是唯一的。如果超过此阈值的标签不是唯一的，则忽略它们。例如，如果确定的百分比要求至少50％是唯一的，则相同的标签不会被计数，直到唯一标签的百分比超过样本的50％。在其他实施方案中，唯一标签的阈值数至少约为60％。在其他实施方案中，唯一标签的阈值百分比至少为约75％、或至少约90％、或至少约95％、或至少约98％、或至少约99％。21号染色体的阈值可以设置为90％。如果30M标签与21号染色体比对，那么它们中的至少27M标签必须是唯一的。如果3M计数的标签不是唯一的并且3000万和第一个标签不是唯一的，则不被计数。可以使用适当的统计分析来选择用于确定何时不计数其他相同标签的特定阈值或其他标准的选项。影响该阈值或其他标准的一个因素是测序样本与标签可以与其比对的基因组大小的相对量。其他因素包括读取的大小和类似的考虑。

在一个实施方案中，定位到目的序列的测试序列标签的数量被归一化为它们被定位到的目标序列的已知长度，以提供测试序列标签密度比。如对合格样本所述，不需要归一化为目的序列的已知长度，并且可以将其包括为减少数量中的位数以简化其用于人类解释的步骤。由于所有定位的测试序列标签在测试样本中被计数，所以确定测试样本中目的序列，例如临床相关序列的序列标签覆盖率，如对应于在合格样本中鉴定的至少一个归一化序列的额外序列的序列标签覆盖率。

在步骤150中，基于合格样本中至少一个归一化序列的同一性，确定测试样本中目的序列的测试序列剂量。在多个实施方案中，使用目的序列的序列标签覆盖率和如本文所述的对应的归一化序列来计算确定测试序列剂量。负责这一工作(undertaking)的计算设备将以电子方式访问目标序列与其相关联的归一化序列之间的关联，其可以存储在数据库、表、图表中，或作为代码包含在程序指令中。

如本文别处所述，至少一个归一化序列可以是单个序列或一组序列。测试样本中目的序列的序列剂量是为测试样本中目的序列确定的序列标签覆盖率与测试样本中确定的至少一个归一化序列的序列标签覆盖率的比率，其中测试样本中的归一化序列对应于在合格样本中为特定目标序列鉴定的归一化序列。例如，如果确定为合格样本中21号染色体鉴定的归一化序列是染色体，例如14号染色体，则将21号染色体(目的序列)的测试序列剂量确定为在测试样本中各自确定的21号染色体的序列标签覆盖率与14号染色体的序列标签覆盖率的比率。类似地，确定13号、18号、X、Y染色体和与染色体非整倍性相关的其他染色体的染色体剂量。目的染色体的归一化序列可以是一个或一组染色体，或一个或一组染色体区段。如前所述，目的序列可以是染色体的一部分，例如染色体区段。因此，染色体区段的剂量可以确定为为测试样本中区段确定的序列标签覆盖率与测试样本中归一化染色体区段的序列标签覆盖率的比率，其中测试样本中的归一化区段对应于在合格样本中为特定目的区段鉴定的归一化区段(单个或一组区段)。染色体区段的大小可以从千碱基(kb)变化到兆碱基(Mb)(例如约1kb至10kb，或约10kb至100kb，或约100kb至1Mb)。

在步骤155中，阈值衍生自为多个合格样本确定的合格序列剂量和为已知对目的序列是非整倍体的样本确定的序列剂量建立的标准差值。请注意，此操作通常与患者测试样本的分析不同时进行。例如，可以与从合格样本选择归一化序列同时进行。精确分类取决于不同类别，即非整倍性的类型的概率分布之间的差异。在一些实例中，从每种类型的非整倍性，例如，21三体性的经验分布中选择阈值。如实施例所述为分类13三体性、18三体性、21三体性和单体性X非整倍性而建立的可能阈值，其描述了通过测序从包含胎儿和母体核酸的混合物的母体样本提取的cfDNA来确定染色体非整倍性的方法的用途。为染色体非整倍体性确定区分受影响样本的阈值可以与为不同非整体性的阈值相同或可以与之不同。如实施例所示，从样本和序列运行之间目的染色体的剂量的变异性确定每条目的染色体的阈值。任何目的染色体的染色体剂量越少变异，那么所有未受影响的样本之间目的染色体的剂量范围越窄，其用于设置用于确定不同非整倍性的阈值。

返回到与步骤160中划分患者测试样本相关联的过程流程，通过将目标序列的测试序列剂量与从合格序列剂量建立的至少一个阈值进行比较以在测试样本中确定目标序列的拷贝数变化。该操作可以由用于测量序列标签覆盖率和/或计算区段剂量的相同计算设备来执行。

在步骤160中，将测试目的序列的计算剂量与设置为根据用户定义的“可靠性阈值”选择的阈值比较以将样本分类为“正常的”“受影响的”或“无调用的”。“无调用的”样本是利用可靠性不能做出明确诊断的样本。每种类型的受影响样本(例如，21三体性、部分21三体性、单体性X)具有其自身阈值，一个用于调用正常的(未受影响的)样本，并且另一个用于调用受影响的样本(尽管在一些情况下两个阈值一致)。如本文其他地方所描述的，在一些情况下，如果测试样本中核酸的胎儿级分足够高，则无调用的可转换为调用的(受影响的或正常的)。测试序列的分类可以由在该过程流程的其他操作中使用的计算设备来报告。在一些情况下，分类是以电子格式报告的，并且可能会向感兴趣人员(interest persons)展示、发送电子邮件、发文本等。

在一些实施方案中，CNV的确定包括计算将染色体或区段剂量与如上所述的一组合格样本中的相应染色体或区段剂量的平均值相关联的NCV或NSV。然后可以通过将NCV/NSV与预定的拷贝数评估阈值进行比较来确定CNV。

可以选择拷贝数评估阈值以优化假阳性率和假阴性率。拷贝数评估阈值越高，假阳性发生的可能性就越小。类似地，阈值越低，假阴性发生的可能性就越小。因此，在高于其仅划分真正阳性的第一理想阈值与低于其仅划分真正阴性的第二理想阈值之间存在权衡(trade-off)。

主要根据如在一组未受影响的样本中确定的特定目的染色体的染色体剂量的变异性来设置阈值。变异性取决于许多因素，包括样本中存在的胎儿cDNA的级分。变异性(CV)由未受影响样本群体的染色体剂量的平均值或中位数和标准偏差确定。因此，用于分类非整倍性的阈值根据以下使用NCV：

(其中对于一组合格样本中第j个染色体剂量，

和

X分别是估计的平均值和标准偏差，并且对于测试样本i，x_ij是观察到的第j个染色体剂量)

其相关联胎儿分数为：

因此，对于目的染色体的每个NCV，可以基于在未受影响的样本群体上目的染色体的染色体比率的平均值和标准偏差从CV计算与给定NCV值相关联的预期胎儿分数。

随后，基于胎儿分数和NCV值之间的关系，可以选择一个判定边界，高于所述判定边界基于正态分布分位数将样本确定为阳性(受影响的)。如上所述，在一些实施方案中，设置阈值以在真阳性的检测和假阴性结果的比率之间进行最佳权衡。即，选择阈值以最大化真阳性和真阴性的总和，或最小化假阳性和假阴性的总和。

某些实施方案提供了用于在包含胎儿和母体核酸分子的生物样本中提供胎儿染色体非整倍性的产前诊断的方法。基于以下进行诊断：从来源于生物测试样本(例如母体血浆样本)的胎儿和母体核酸分子的混合物的至少一部分获得序列信息，从测序数据计算一个或多个目的染色体的归一化染色体剂量，和/或一个或多个目的染色体的归一化区段剂量，并分别确定测试样本中目的染色体的染色体剂量和/或目的区段的区段剂量之间的统计学显著性差异，以及在多个合格(正常)样本中建立的阈值，并且基于统计学差异提供产前诊断。如方法的步骤160所述，进行正常或受影响的诊断。在不能可靠地进行正常或受影响的诊断的情况下提供“无调用”。

在一些实施方案中，可以选择两个阈值。选择第一个阈值以最小化假阳性率，高于所述阈值样本将被分类为“受影响的”，并且选择第二阈值以最小化假阴性率，低于所述阈值将被分类为“不受影响的”。具有高于第二阈值但低于第一阈值的NCV的样本可以分类为“非整倍性疑似”或“无调用”样本，对于其可以通过独立手段证实非整倍性的存在或缺失。第一和第二阈值之间的区域可以被称为“无调用”区域。

在一些实施方案中，在表1中显示怀疑的和无调用的阈值。如可以看出，NCV的阈值在不同的染色体之间变化。在一些实施方案中，如上所解释，阈值根据样本的FF而变化。本文应用的阈值技术在一些实施方案中有助于提高的灵敏度和选择性。

表1.怀疑的和受影响的NCV阈值包围无调用范围

片段大小和序列覆盖率分析

如上所提及，可以使用片段大小参数以及覆盖率来评估CNV。无细胞核酸片段(例如cfDNA片段)的片段大小可以通过配对末端测序，电泳(例如，基于微芯片的毛细管电泳)和本领域已知的其他方法获得。图2A主要说明配对的末端测序如何用于确定片段大小和序列覆盖率。

图2Aa的上半部分示出了无胎儿细胞的DNA片段和无母体细胞的DNA片段的图，其为配对末端测序方法提供模板。通常，将长核酸序列片段化成较短的序列以成为配对末端测序方法中的读取。这些片段也称为插入物。片段化对于无细胞DNA是不必要的，因为它们早已经存在于主要短于300个碱基对的片段中。已经显示，母体血浆中的无胎儿细胞的DNA片段比无母体细胞的DNA片段长。如图2A上部所示，胎儿来源的无细胞DNA具有约167个碱基对的平均长度，而母体来源的无细胞DNA具有约175个碱基对的平均长度。在某些平台上的配对末端测序中，例如如下文进一步描述的通过合成平台进行的Illumina测序，接头序列、索引序列和/或基本序列(prime sequences)连接到片段的两个末端(图2A中未示出)。首先在一个方向读取片段，从片段的一个末端提供读取1。然后从片段的另一端开始第二次读取，提供rea 2序列。读取1和读取2之间的对应关系可以通过它们在流动室中的坐标来鉴定。然后，如图2A的下半部分所示，读取1和读取2定位到参考序列作为彼此靠近的一对标签。在一些实施方案中，如果读取足够长，则两个读取可以在插入物的中间部分重叠。在对与参考序列比对后，可以从两个读取的位置确定两个读取之间的相对距离和片段的长度。因为配对末端读取提供相同读取长度的单末端读取的两倍的碱基对，它们有助于提高比对质量，特别是对于具有许多重复序列或非唯一序列的序列。在许多实施方案中，将参考序列划分为诸如100K碱基对箱体的箱体。配对末端读取与参考序列比对后，可以确定与箱体比对的读取数量。也可以为箱体确定插入物(例如，cfDNA片段)的数量以及长度。在一些实施方案中，如果插入物横跨两个箱体，则插入物的一半可归因于每个箱体。

图2B示出了提供用于使用基于大小的覆盖率来确定测试样本中目的核酸序列的拷贝数变化的实施方案，所述测试样本包括源自两个或更多个基因组的无细胞核酸片段。如本文所公开的，当以下情况时，参数“偏向于片段大小或大小范围”：1)对于片段大小或大小范围有利地加权参数，例如，当与所述大小或大小范围的片段相关联时，比其他大小或范围的片段加权更大的计数；或2)从对于片段大小或大小范围有利地加权的值获得参数，例如，当与所述大小或大小范围的片段相关联时，从加权更大的计数获得的比率。当基因组产生相对于来自另一基因组或相同基因组的另一部分的核酸片段富集或具有较高浓度的大小或大小范围的核酸片段时，片段大小或大小范围的特征可以是基因组或其部分。

方法200通过接收通过对测试样本中的无细胞核酸片段进行测序获得的序列读取开始。参见框222。测试样本中的两个或更多个基因组可以是怀孕母亲的基因组和怀孕母亲携带的胎儿的基因组。在其他应用中，测试样本包括来自肿瘤细胞和未受影响的细胞的无细胞DNA。在一些实施方案中，由于偏向大小的覆盖率提供的高信噪比，进行无细胞核酸片段的测序而不需要使用PCR扩增核酸片段。方法200进一步包括将无细胞核酸片段的序列读取与包括目的序列的参考基因组进行比对，并将其分成多个箱体。成功比对产生测试序列标签，其包括序列及其在参考序列上的位置。参见框224。然后通过确定存在于测试样本中的无细胞核酸片段的大小来进行加工的220。应用配对末端测序的一些实施方案提供与序列标签相关联的插入物的长度。参见框226。术语“大小”和“长度”当它们参照核酸序列或片段使用时可互换使用。在本文说明的实施例中，方法220进一步包括基于从其获得标签的无细胞核酸片段的大小来加权测试序列标签。参见框228。如本文所用，“加权”是指使用一个或多个变量或函数修改数量。一个或多个变量或函数被认为是“权重”。“在许多实施方案中，变量乘以权重。在其他实施方案中，变量可以按指数或其他方式修改。在一些实施方案中，通过将覆盖率偏置到从测试样本中大小或大小范围一个基因组特征性的无细胞核酸片段获得的测试序列标签来进行加权测试序列标签。如本文所公开的，当基因组相对于另一个基因组或相同基因组的另一部分具有所述大小的富集的或较高浓度的核酸时，大小是基因组特征性的。

在一些实施方案中，加权函数可以是线性或非线性函数。适用的非线性函数的实例包括但不限于赫维赛德阶跃函数、厢式车函数、阶梯函数或S形函数。在一些实施方案中，使用赫维赛德阶跃函数或厢式车函数，使得特定大小范围中的标签乘以权重1，并且在该范围之外的标签乘以权重0。在一些实施方案中，给予在80-150个碱基对之间的片段权重1，而给予该范围之外的片段权重0。在这些实例中，加权是谨慎的，根据所有值的参数是落入特定范围内还是外，其为0或1。或者，权重计算为片段大小或相关参数值的其他方面的连续函数。

在一些实施方案中，一个大小范围内的片段的权重是正的，另一个范围中的权重是负的。当两个基因组之间的差异方向具有相反的符号时，这可以用于帮助增强信号。例如，对于80-150个碱基对插入物，读取计数的权重为1，而对于160-200个碱基对插入物，读取计数的权重为-1。

可以给予计数以及其他参数权重。例如，加权也可以应用于使用片段大小的分数或比率参数。例如，该比率可以给予某些子范围内的片段比给予片段和其他大小的箱体更大的权重。

然后基于加权的测试序列标签计算箱体的覆盖率。参见框230。这种覆盖率被认为是大小偏差的。如上所解释，当对片段大小或大小范围有利地加权参数时，值偏向片段大小或大小范围。方法200进一步涉及从所计算的覆盖率鉴定目的序列中的拷贝数变化。参见框232。在一些实施方案中，如下文结合图2C、3A-3K和4进一步解释的，可以调整或校正覆盖率以消除数据中的噪音，由此增加信噪比。在一些应用中，基于在方法220中获得的加权标签的覆盖率在确定拷贝数变化时提供比未加权覆盖率更高的灵敏度和/或更高的选择性。在一些应用中，下面提供的实例工作流可进一步提高灵敏度和选择性用于CNV分析。

用于分析片段大小和/或序列覆盖率的工作流实例

公开的一些实施方案提供确定具有低噪音和/或高信号的序列覆盖量的方法，提供数据以确定与拷贝数和CNV相关的各种遗传状况，所述方法相对于通过常规获得的序列覆盖量具有提高的灵敏度、选择性和/或效率。在某些实施方案中，加工来自测试样本的序列以获得序列覆盖量。

该方法利用可从其他来源获得的某些信息。在一些实施方式中，从已知不受影响的样本训练集(例如，不是非整倍体)获得所有这些信息。在其他实施方案中，从其他测试样本获得一些或全部信息，由于可以在同一过程中分析多个样本，可以“在运行中”提供所述信息。

在某些实施方案中，使用序列掩码来减少数据噪音。在一些实施方案中，目的序列及其归一化序列都被掩蔽。在一些实施方案中，当考虑不同目的染色体或区段时，可以利用不同的掩码。例如，当13号染色体是目的染色体时可以利用一个掩码(或掩码组)，并且21号染色体是目的染色体时，可以使用不同的掩码(或掩码组)。在某些实施方案中，掩码以箱体的分辨率来定义。因此，在一个实例中，掩码分辨率为100kb。在一些实施方案中，可以将不同的掩码应用于Y染色体。可以以更精细的分辨率(1kb)为Y染色体比为其他目的染色体提供掩蔽的排除区域，如2013年6月17日提交的美国临时专利申请61/836,057[代理人档案号ARTEP008P]中所述。以鉴定排除的基因组区域的文件的形式提供掩码。

在某些实施方案中，该方法利用归一化覆盖率的预期值以去除目的序列谱中的从箱体到箱体的变化(bin-to-bin variation)，所述变化不提供信息用于测试样本的CNV的确定。该方法根据完整基因组中每个箱体的归一化覆盖率的预期值或至少参考基因组中稳健染色体的箱体(用于下面的操作317)来调整归一化覆盖量。除了覆盖率之外的参数也可以通过这个方法来改进。可以从未受影响的样本的训练集确定预期值。作为实例，预期值可以是训练集样本的中位数值。可以将样本的预期覆盖率值确定为与一个箱体比对的唯一非冗余标签的数量除以与参考基因组的稳健染色体中的所有箱体比对的唯一非冗余标签的总数。

图2C描绘了用于确定目的序列的片段大小参数的方法200的流程图，所述参数用于在框214中评估测试样本中目的序列的拷贝数。该方法消除了未受影响的训练样本常见的系统变化，所述变化增加了CNV评估分析中的噪音。它还消除了测试样本特有的GC偏差，由此提高了数据分析中的信噪比。值得注意的是，方法200也可以应用于覆盖率，而不管覆盖率是否受大小的限制。类似地，图2D、3和4中的方法同样适用于覆盖率、片段大小加权的覆盖率、片段大小、在限定大小范围内的片段的分数或比率、片段的甲基化水平等。

方法200通过提供如框202所示的测试样本的序列读取来开始。在一些实施方案中，通过测序从孕妇血液获得的DNA区段(包括母亲和胎儿的cfDNA)来获得序列读取。进行该方法以将序列读取与参考基因组，包括目的序列进行比对，提供测试序列标签。框204。在一些实施方案中，排除与多于一个位点比对的读取。在一些实施方案中，比对到相同位点的多个读取被排除或减少到单个读取计数。在一些实施方案中，也排除与排除的位点比对的读取。因此，在一些实施方案中，仅计数与非排除的位点比对的唯一比对的非冗余标签，以提供未排除的位点计数(NES计数)用于确定每个箱体的覆盖率或其他参数。

方法200提供存在于测试样本中的无细胞核酸片段的大小。在使用配对末端测序的一些实施方案中，可以从插入物末端的一对读取的位置获得插入物大小/长度。其他技术可用于确定片段大小。参见框205。然后，在参考基因组的箱体中，包括目的序列中的箱体，方法200确定偏向特征为基因组之一的片段大小的片段大小参数的值。术语“片段大小参数”是指与片段或片段，如核酸片段；例如从体液获得的cfDNA片段集合的大小或长度相关的参数。如本文所使用的，当在以下情况时，参数“偏向片段大小或大小范围”：1)参数对于片段大小或大小范围有利地加权，例如，当与所述大小或大小范围的片段相关联时，比对其他大小或范围加权更大的计数；或2)从对于片段大小或大小范围有利地加权的值获得参数，例如，当与所述大小或大小范围的片段相关联时，从加权更大的计数获得的比率。当基因组产生相对于来自另一基因组或相同基因组的另一部分的核酸片段富集或具有较高浓度的大小或大小范围的核酸片段时，片段大小或大小范围的特征可以是基因组或其部分。

在一些实施方案中，片段大小参数是大小加权的计数。在一些实施方案中，范围内的片段加权1，而范围外的加权0。在其他实施方案中，片段大小参数是大小范围内的片段的分数或比率。参见框206。在一些实施方案中，每个箱体的片段大小参数(或如上所述的覆盖率)的值除以相同样本中归一化序列的参数的值，提供归一化参数。

然后，方法200提供目的序列的全局谱。全局谱包括从未受影响的训练样本的训练集获得的每个箱体中的预期参数值。框208。方法200通过根据预期参数值调整测试序列标签的归一化参数值来消除训练样本中的常见变化，以获得目的序列的参数的全局谱校正值。框210。在一些实施方案中，从框208中提供的训练集获得的参数的预期值是训练样本之间的中位数。在一些实施方案中，操作2010通过从参数的归一化值减去参数的预期值来调整参数的归一化值。在其他实施方案中，操作210将参数的归一化值除以每个箱体的参数的预期值，以产生参数的全局谱校正值。

除了全局谱校正之外或代替全局谱校正，方法200通过调整参数值来消除测试样本特有的GC偏差。如框212所示，该方法基于GC含量水平与存在于测试样本中的全局谱校正覆盖率之间的关系来调整全局谱校正参数值，由此获得片段大小参数的样本GC校正值。在对未受影响的训练样本和受试者内GC偏差中常见的系统变异进行调整后，该方法提供对全局谱和/或GC变量校正的片段大小值，所述值用于以更高的灵敏度和特异性来评估样本的CNV。

使用多个参数进行CNV检测的多通道方法

如上所强调，本文公开的方法适用于使用多个参数确定CNV，包括但不限于覆盖率、片段大小加权的覆盖率、片段大小、在限定大小范围内的片段的分数或比率、片段的甲基化水平等。这些参数中的每一个可以被单独处理以单独地促进最终的拷贝数变化确定。

在一些实施方案中，类似的方法可以应用于大小加权的覆盖率分析和片段大小分析，两者都是片段大小参数。图2D显示了工作流程600的两个重叠通路的流程图，通路1用于大小加权的覆盖率并且通路2用于片段大小分析。在另一实施方案中，此处未显示，甲基化水平可以在一个额外通路中进行处理。两个通路可以包括可比较的操作，以获得调整后的覆盖率信息，CNV的确定基于所述覆盖率信息。

方法的初始单通路部分通过接收序列数据开始，参见框602，并且如上所述通过计算计数而继续，参见框612。在此之后，如上所述，所描绘的方法分为两个通路。返回到方法的初始部分，工作流将测序数据转换为序列读取。当测序数据来源于多重测序时，序列读取也被去多重化以鉴定数据的来源。参见框604。然后将序列读取比对到参考序列，其中所述比对的序列读取提供为序列标签。参见框606。然后对序列标签进行过滤以获得非排除的位点(NES)，其是明确定位的非重复的序列标签。序列标签被组织成特定序列长度的箱体，例如1kb、100kb或1Mb。参见框610。在涉及综合征特异性区域分析的一些实施方案中，所述箱体为100kb。在一些实施方案中，可以使用从多个未受影响的样本获得的序列掩码以如图3A、框313所述的方式来掩蔽呈现高变异性的箱体。然后计算NES中的标签，以为CNV分析提供待归一化和调整的覆盖率。参见框612。

在所描述的实施方案中，执行操作604、606、610和612一次，并且大部分剩余操作被执行两次，一次对于大小加权的覆盖率分析(通路1)，并且一次用于片段大小分析(通路2)。在其他实施方案中，显示为在两个通路中执行的一个或多个操作仅执行一次，并且结果在两个处理中共享。这种共享操作的实例包括操作614、616和618。

在所描绘的实施方案中，NES的获得的覆盖率(大小加权的计数)或片段大小参数(大小分数或比率)通过例如将箱体的值NES除以基因组或一组归一化染色体的NES而被归一化。在一些实施方案中，仅归一化覆盖率，而不需要归一化片段大小参数，因为它不以与覆盖率相同的方式受测序深度的影响。参见框614。然后，在一些实施方案中，去除包括未受影响的样本的训练集常见的变量，所述变量与目的CNV无关。在所描绘的实施方案中，常见变量被表示为以与上述全局波谱(global wave profile)相似的方式从未受影响的样本获得的全局波谱。在图6所示的一些实施方案中，用于获得全局波谱的未受影响的样本包括来自相同流动室或处理批次的样本。参见框616。下文进一步说明流动室特异的全局波的计算。在所描绘的实施方案中，在已经去除全局波形谱之后，在样本特异基础上校正GC水平的覆盖率。参见框616。在下文中与图3A、框319相关的文本进一步详细描述用于GC校正的一些算法。

在所描述的实施方案中，在用于加权的覆盖率分析的通路1和用于片段大小分析的通路2中，对于单个样本特异的噪音，可以进一步过滤数据，例如，可以从分析中去除具有与其他箱体极大不同的覆盖率的逸出(outlier)箱体的数据，所述差异不能归因于目的拷贝数变化。参见框622。该样本内过滤操作可以对应于图3A中的框321。

在一些实施方案中，在单个样本过滤之后，相对于参考，在靶信号中富集了通路1的加权覆盖率值和通路2的片段大小参数。参见框624和628。然后，染色体的覆盖率和片段大小参数各自用于计算如上所述的染色体剂量和归一化染色体值(NCV)。然后可以将NCV与标准进行比较，以确定指示CNV概率的得分。参见框626和630。然后可以将来自两个通路的得分组合起来以提供复合的最终得分，其确定是否应该调用非整倍性。在一些实施方案中，626和630的得分为t检验统计量或Z值。在一些实施方案中，最终得分是卡方值。在其他实施方案中，最终得分是两个t值或z得分的均方根。组合来自两个路径的两个得分的其他手段可以用于提高CNV检测中的总体灵敏度和选择性。或者，可以通过逻辑操作，例如AND操作或OR操作来组合来自两个通路的两个得分。例如，当优选高灵敏度以确保低假阴性时，当通路1或通路2的得分满足调用标准时，可以进行CNV调用。另一方面，如果需要高选择性以确保低假阳性，则只有当来自通路1和通路2的得分满足调用标准时才能进行CNV调用。

值得注意的是，使用上述逻辑操作存在灵敏度和选择性之间的权衡。在一些实施方案中，应用两步测序方法来克服如下文进一步描述的权衡。简单地说，将样本的初始得分与设计用于增加灵敏度的相对较低的第一阈值进行比较，并且如果样本得分高于第一阈值，则其进行比第一次更深的第二轮测序。然后在类似于上述的工作流程中重新处理和分析这样的样本。然后将得到的得分与设计用于提高灵敏度的相对较高的第二阈值进行比较。在一些实施方案中，经历第二轮测序的样本在得分高于第一阈值的样本中得分相对较低，由此减少需要重新测序的样本数量。

在一些实施方案中，可以采用使用第三个参数的第三个通路。该第三个通路的一个实例是甲基化。甲基化可以直接通过测量来自样本的核酸的甲基化或间接地作为与无细胞核酸的片段大小相关的参数来确定。

在一些实施方案中，该第三个参数是第二个覆盖率或基于计数的参数，其中所述计数基于在基于第一个计数的参数中使用的初级片段大小外的片段大小。当80-150个碱基对之间的片段用于产生计数或覆盖率参数时，它们从测序中排除了约70％的读取。在这些被排除的读取仍然具有一些潜在有用信号的程度上，它们可以用于第三个参数，其包括排除的读取或基于大小的分数中的读取，其在用于第一个参数中的基于大小的分数之外或与其重叠。在这方面，可以给予从排除的片段获取的读取和相关覆盖率值较低的权重。换句话说，使用这些读取计算的拷贝数变化参数在进行最终拷贝数变化调用时可能不太重要。或者，如上所述，当两个基因组在两个大小范围内具有相反的特征时，第一个参数中大小范围之外的标签可以为负值。

在各种实施方式中，方法200、220和600中的覆盖率偏向来自在片段大小谱的较短端上的片段的标签。在一些实施方案中，覆盖率偏向来自大小比特定值小的片段的标签。在一些实施方案中，覆盖率偏向来自片段大小范围的片段的标签，并且范围的上限是约150个碱基对或更少。

在方法200、220和600的各种实施方式中，在首先不使用PCR扩增无细胞核酸片段的核酸的情况下通过对无细胞核酸片段进行测序来获得序列读取。在多个实施方案中，通过将无细胞核酸片段测序到不大于每个样本约6M片段的深度来获得测序读取。在一些实施方案中，测序深度不大于每个样本约1M片段。在一些实施方案中，通过多重测序获得测序读取，并且多重样本的数量至少为约24。

在方法200、220和600的各种实施方式中，测试样本包括来自个体的血浆。在一些实施方案中，所述方法还包括从测试样本获得无细胞核酸。在一些实施方案中，所述方法还包括测序起源于两个或更多个基因组的无细胞核酸片段。

在方法200、220和600的各种实施方式中，两个或更多个基因组包括来自母亲和胎儿的基因组。在一些实施方式中，目的序列中的拷贝数变化包括胎儿基因组中的非整倍性。

在方法200、220和600的一些实施方式中，两个或更多个基因组包含来自癌症和体细胞的基因组。在一些实施方式中，包括使用癌基因组中的拷贝数变化来诊断癌症、监测癌症进展，和/或确定癌症治疗的方法。在一些实施方案中，拷贝数变化引起遗传异常。

在方法200、220和600的一些实施方式中，覆盖率偏向来自片段大小谱较长端的片段的标签。在一些实施方式中，覆盖率偏向来自大于特定值的片段的标签。在一些实施方式中，覆盖率偏向来自片段大小范围内的片段的标签，并且其中该范围的下限为约150个碱基对或更多。

在方法200、220和600的一些实施方式中，所述方法还包括：在参考基因组，包括目的序列的箱体中确定所述箱体中无细胞核酸片段的甲基化水平，和使用甲基化水平(除了或代替所计算的覆盖率或片段大小参数的值)来鉴定拷贝数变化。在一些实施方式中，使用甲基化水平鉴定拷贝数变化包括提供目的序列的箱体的全局甲基化谱。全局甲基化谱包括至少目的序列的箱体中甲基化的预期水平。在一些实施方式中，从包含核酸(其以与测试样本的核酸片段基本上相同的方式被测序和比对)的未受影响训练样本的训练集中的无细胞核酸片段的长度获得甲基化的预期水平，甲基化的预期水平显示从箱体到箱体的变化。在一些实施方式中，所述方法包括使用至少目的序列的箱体中的预期甲基化水平来调节甲基化水平的值，由此获得目的序列的甲基化水平的全局谱校正值。该方法还包括使用全局谱校正覆盖率和全局谱校正的甲基化水平来鉴定拷贝数变化。在一些实施方式中，使用全局谱校正的覆盖率和全局谱校正的甲基化水平来鉴定拷贝数变化进一步包括：调整基于GC含量水平的全局谱校正覆盖率和全局谱校正甲基化水平，由此获得GC校正的覆盖率和GC校正的目的序列甲基化水平的值；和使用GC校正的覆盖率和GC校正的甲基化水平鉴定拷贝数变化。

在方法200、220和600的一些实施方式中，片段大小参数包括分数或比率，其包括测试样本中具有短于或长于阈值的片段大小的无细胞核酸片段的一部分。在一些实施方式中，片段大小参数包括分数，其包括(i)在包括110个碱基对的第一大小范围内的测试样本中的多个片段，和(ii)包含第一大小范围的第二大小范围和第一大小范围外的测试样本中的多个片段。

确定序列覆盖率的示例性方法的细节

图3A呈现了用于减少来自测试样本的序列数据中的噪音的方法301的实例。图3B-3J呈现了该方法各个阶段的数据分析。这提供了可以在诸如图2D所描述的多通路方法中使用的方法流程的一个实例。

图3A中所示的方法301使用基于序列标签的数量的序列标签覆盖率来评估拷贝数。然而，与上面关于用于参考图1确定CNV的方法100的描述类似，可以使用其他变量或参数，诸如大小、大小比率和甲基化水平，而不是用于方法400的覆盖率。在一些实施方式中，两个或更多个变量可以分别进行相同的方法以导出指示CNV的概率的两个分数，如上面参考图2D所示。然后可以组合两个分数来确定CNV。此外，可以基于从其导出标签的片段的大小来加权覆盖率和其他参数。为了便于阅读，在方法300中仅引用覆盖率，但是应当注意，可以使用其他参数，诸如大小、大小比率和甲基化水平、按大小加权的计数等来代替覆盖率。

如图3A所示，所描述的方法开始于从一个或多个样本中提取cfDNA。参见框303。在本文其他地方描述了合适的提取方法和装置。在一些实施方案中，在2013年3月15日提交的美国专利申请号61/801,126中描述的方法(通过引用整体并入本文)提取了cfDNA。在一些实施方式中，该装置将来自多个样本的cfDNA一起处理以提供多重文库和序列数据。参见图3A中的框305和307。在一些实施方案中，该装置并行处理来自八个或更多个测试样本的cfDNA。如本文别处所述，测序系统可以处理提取的cfDNA以产生编码(例如条形码)的cfDNA片段的文库。测序仪测序cfDNA的文库以产生非常多个的序列读取。每个样本编码允许对多重样本中的读取进行去多重化(demultiplexing)。八个或更多样本中的每一个可以具有数十万或数百万次的读取。该方法可以在图3A中的附加操作之前过滤读取。在一些实施方案中，读取过滤是通过在测序仪中执行的软件程序实现的质量过滤过程，以过滤掉错误和低质量的读取。例如，Illumina’s Sequencing Control Software(SCS)和ConsensusAssessment of Sequence and Variation软件程序通过将测序反应产生的原始图像数据转换为强度分数、碱基调用、质量得分比对和额外的格式来为下游分析提供生物学上的相关信息。

在测序仪或其他装置产生样本的读取之后，系统的元件将读取计算比对到参考基因组。参见框309。在本文其他地方描述了比对。比对产生标签，其包含具有指定参照基因组上的唯一位置的注释位置信息的读取序列。在某些实施方式中，系统进行第一遍比对，而不考虑重复读取(具有相同序列的两个或更多个读取)，并且随后去除重复的读取或将重复读取计数为单个读取以产生非重复的序列标签。在其他实施方式中，系统不会删除重复的读取。在一些实施方案中，该方法从与基因组上的多个位置比对的读取中去除以产生唯一比对的标签。在一些实施方案中，认为定位到未排除位点(NES)的唯一比对的非冗余序列标签产生未排除的位点计数(NES计数)，其提供数据以估计覆盖率。

如其他地方所解释，排除的位点是在参考基因组的区域中发现的，为计数序列标签的目的其已经被排除。在一些实施方案中，在包含重复序列(例如着丝粒和端粒)的染色体区域以及多于一条染色体(例如存在于Y染色体上也存在于X染色体上的区域)共有的染色体的区域中发现排除位点。未排除的位点(NES)是为了计数序列标签的目的而在参照基因组中不排除的位点。

接下来，系统将比对的标签划分为参考基因组上的箱体。参见框311。该箱体沿着参考基因组的长度间隔开。在一些实施方案中，完整参考基因组被划分成可以具有确定相同大小(例如，100kb)的连续箱体。或者，这些箱体可能在每个样本的基础上具有动力学上确定的长度。测序深度影响最佳箱体大小选择。动力学大小的箱体其大小由文库大小所决定。例如，将箱体大小确定为平均容纳1000个标签所需的序列长度。

每个箱体都有来自正在考虑的样本的许多标签。反映比对序列的“覆盖率”的标签数量作为过滤和另外清理样本数据的起点，以可靠地确定样本中的拷贝数变化。图3A显示了框313至321中的清理操作。

在图3A所描述的实施方案中，该方法将掩码应用于参考基因组的箱体。参见框313。在以下处理操作中的一些或全部中，系统可以排除在所考虑的掩蔽箱体中的覆盖率。在许多情况下，不认为来自掩蔽箱体的覆盖率值是图3A中的任何剩余操作。

在各种实施方式中，应用一个或多个掩码以去除发现展示样本间高变异性的基因组区域的箱体。为目的染色体(例如chr13、18和21)和其他染色体提供这样的掩码。如其他地方所解释，目的染色体是正在考虑的染色体，因为其潜在地携带拷贝数变化或其他畸变。

在一些实施方式中，使用以下方法从合格样本的训练集合鉴定掩码。最初，根据图3A中的操作315至319处理和过滤每个训练集样本。然后为每个箱体记录归一化的和校正的覆盖量，并且为每个箱体计算诸如标准偏差、中位数绝对偏差和/或变异系数的统计。可以针对每个目的染色体评估各种过滤器组合。过滤器组合为目的染色体的箱体提供一个过滤器，并为所有其他染色体的箱体提供不同的过滤器。

在一些实施方式中，在获得掩码之后重新考虑归一化染色体(或染色体组)的选择(例如，为如上所述目的染色体选择截断)。在应用序列掩码之后，可以如本文别处所述进行选择归一化染色体或多条染色体的方法。例如，染色体的所有可能组合被评估为归一化染色体，并根据其鉴别受影响和未受影响样本的能力进行测序。该方法可能(或可能不)找到不同的最佳归一化染色体或染色体组。在其他实施方案中，归一化染色体是导致所有合格样本的目的序列的序列剂量的最小变异性的染色体。如果鉴定了不同的归一化染色体或染色体组，则该方法可任选地执行上述箱体到过滤器的鉴定。新的归一化染色体可能产生不同的截断。

在某些实施方案中，将不同的掩码应用于Y染色体。合适的Y染色体掩码的实例描述于2013年6月17日提交的美国临时专利申请号61/836,057[代理人案号ARTEP008P]，其通过引用并入本文用于所有目的。

在系统计算掩蔽箱体之后，它计算归一化未被掩码排除的箱体中的覆盖率值。参见框315。在某些实施方案中，系统针对参考基因组或其部分中的大部分或全部覆盖率(例如，参考基因组的稳健染色体中的覆盖率)将每个箱体中的测试样本覆盖率值(例如，每个箱体的NES计数)归一化。在一些情况下，系统通过将所考虑的箱体的计数除以与参考基因组中所有稳健染色体比对的所有未排除的位点的总数将测试样本覆盖率值(每个箱体)归一化。在一些实施方案中，系统通过执行线性回归来将测试样本覆盖率值(每个箱体)归一化。例如，系统首先将稳健染色体中子箱体集的覆盖率计算为y_a＝截距+斜率*gwp_a，其中y_a是箱体a的覆盖率，并且gwp_a是同一箱体的全局谱。系统然后将归一化覆盖率z_b计算为：z_b＝y_b/(截距+斜率*gwp_b)–1。

如上所解释，稳健的染色体是不太可能是非整倍体的染色体。在某些实施方案中，稳健的染色体都是除13、18和21号染色体之外的所有常染色体。在一些实施方案中，稳健染色体是除了确定为偏离正常二倍体基因组的染色体以外的所有常染色体。

箱体的转化计数值或覆盖率被称为“归一化覆盖量”用于进一步处理。使用每个样本唯一的信息执行归一化。通常，不使用来自训练集的信息。归一化允许具有不同文库大小(并因此不同数量的读取和标签)的样本的覆盖量以相等的基准被处理。后续过程操作中的一些使用来自训练样本的覆盖量，可以从比用于所考虑的测试样本的文库大或小的文库测序所述训练样本。在没有基于与完整参考基因组(或至少稳健的染色体)比对的读取数量的归一化的情况下，使用衍生自训练集的参数进行的处理在一些实施方式中可能不可靠或不可推广。

图3B说明了许多样本的21、13和18号染色体的覆盖率。一些样本彼此不同地被处理。因此，可以在任何给定的基因组位置看到广泛的样本与样本的变化。归一化去除了一些样本到样本的变化。图3C的左图描述了完整基因组的归一化覆盖量。

在图3A的实施方案中，系统从从操作315产生的归一化覆盖量中去除或减少“全局谱”。参见框317。该操作消除了由基因组结构、文库产生方法和测序方法引起的归一化覆盖量中的系统偏差。此外，该操作被设计用于校正任何给定样本中与预期谱的任何系统线性偏差。

在一些实施方式中，全局谱去除包括将每个箱体的归一化覆盖量除以每个箱体的相应预期值。在其他实施方案中，全局谱去除包括从每个箱体的归一化覆盖量减去每个箱体的预期值。可以从未受影响的样本的训练集(或X染色体的未受影响的雌性样本)获得预期值。未受影响的样本是来自已知对目的染色体不具有非整倍性的个体的样本。在一些实施方式中，全局谱去除包括从每个箱体的归一化覆盖量中减去每个箱体(从训练集获得)的预期值。在一些实施方案中，该方法使用如使用训练集确定的每个箱体的归一化覆盖量的中值。换句话说，中值是预期值。

在一些实施方案中，使用用于样本覆盖率对全局谱的依赖性的线性校正实现全局谱去除。如所指出的，全局谱是如从训练集确定的每个箱体的预期值(例如，每个箱体的中值)。这些实施方案可以使用通过针对每个箱体获得的全局中值谱拟合测试样本的归一化覆盖量获得的稳健线性模型。在一些实施方案中，通过针对全局中值(或其他预期值)谱回归样本观察到的归一化覆盖量来获得线性模型。

线性模型基于以下假设：样本覆盖量与全局谱值具有线性关系，应该对稳健的染色体/区域和目的序列保持所述线性关系。参见图3D。在这种情况下，样本归一化覆盖量对全局谱的期望覆盖量的回归将产生具有斜率和截距的线。在某些实施方案中，这种线的斜率和截距用于从箱体的全局谱值计算“预测的”覆盖量。在一些实施方式中，全局谱校正包括将箱体的预测覆盖量建模每个箱体体的归一化覆盖量。在一些实施方式中，通过以下来调整测试序列标签的覆盖率：(i)获得测试序列标签的覆盖率相对于一个或多个稳定染色体或区域中的多个箱体中的期望覆盖率之间的数学关系，和(ii)将数学关系应用于目的序列中的箱体。在一些实施方式中，使用来自未受影响的训练样本的预期覆盖率值和稳健染色体或基因组的其他稳健区域中的测试样本的覆盖率值之间的线性关系来校正测试样本中覆盖率的变异。调整产生全局谱校正的覆盖率。在一些情况下，调整如下包括获得稳健的染色体或区域中箱体子集的测试样本的覆盖率：

y_a＝截距+斜率*gwp_a

其中ya是在一个或多个稳健染色体或区域中测试样本的箱体a的覆盖率，并且gwpa是未受影响的训练样本的箱体a的全局谱。然后，该方法为目的序列或区域将全局谱校正的覆盖率zb计算为：

z_b＝y_b/(截距+斜率*gwp_b)–1

其中yb是目的序列中测试样本的箱体b的观察覆盖率(其可以驻留在稳健的染色体或区域之外)，并且gwpb是未受影响的训练样本的箱体b的全局谱。分母(截距+斜率*gwpb)是基于从基因组的稳健区域估计的关系，预测在未受影响的测试样本中观察到的箱体b的覆盖率。在携带拷贝数变化的目的序列的情况下，观察到的覆盖率以及因此箱体b的全局谱校正的覆盖率值将显著偏离未受影响样本的覆盖率。例如，在受影响的染色体上的箱体是三体性样本的情况下，校正的覆盖率zb将与胎儿分数成比例。该方法通过计算在稳健染色体上的截距和斜率在样本内进行归一化，然后评估目的基因组区域如何偏离为同一样本中稳健染色体保持的关系(如通过斜率和截距所描述)。

如图3D所示，从一条线获得斜率和截距。图3C中描述了全局谱去除的实例。左图显示了许多样本间归一化覆盖量的高箱体之间的变化。右图在如上所述全局谱去除之后显示相同的归一化覆盖量。

在系统消除或减少框317上的全局谱变化之后，其校正样本内GC(鸟嘌呤-胞嘧啶)含量变化。参见框319。每个箱体都有自己的GC分值贡献。通过将一个箱体中的G和C核苷酸的数量除以一个箱体中的核苷酸总数(例如，100,000)来确定该分数。一些箱体会比其他箱体有更大的GC分数。如图3E和3F所示，不同的样本呈现不同的GC偏差。将在下面进一步解释这些差异及其校正。图3E-G显示全局谱校正的归一化覆盖量(每个箱体)作为GC分数(每个箱体)的函数。令人惊讶的是，不同的样本呈现不同的GC依赖性。一些样本显示单调递减的依赖性(如图3E所示)，而其他样本呈现逗号形(comma shaped)依赖性(如图3F和3G所示)。由于这些谱对于每个样本可能是唯一的，因此对于每个样本单独且唯一地进行该步骤中描述的校正。

在一些实施方案中，系统基于如图3E-G所示的GC分数计算排列箱体。然后使用具有类似GC含量的其他箱体的信息来校正箱体的全局谱校正的归一化覆盖数量。该校正应用于每个未掩蔽的箱体。

在一些方法中，以下列方式对每个箱体进行GC含量校正。系统计算选择具有与所考虑的箱体的GC分数相似的GC分数的箱体，并且然后根据所选择的箱体中的信息确定校正参数。在一些实施方案中，使用任意定义的相似度截断值来选择具有相似GC分数的那些箱体。在一个实例中，选择了所有箱体的2％。这些箱体是2％的GC含量箱体最相似于所考虑的箱体。例如，选择具有稍高GC含量和1％具有略低GC含量的1％的箱体。

使用所选择的箱体，系统计算地确定校正参数。在一个实例中，校正参数是所选择的箱体中的归一化覆盖量(全局谱去除之后)的代表值。这种代表性值的示例包括所选择的箱体中的归一化覆盖量的中值或平均值。该系统将所考虑的箱体的计算校正参数应用于正在考虑的箱体的归一化覆盖量(全局谱去除之后)。在一些实施方式中，从正在考虑的箱体的归一化覆盖量中减去代表值(例如，中值)。在一些实施方案中，仅使用稳健的常染色体染色体(除13、18和21号染色体以外的所有常染色体)的覆盖量选择归一化覆盖量的中值(或其他代表值)。

在使用例如100kb箱体的一个实例中，每个箱体将具有GC分数的唯一值，并且基于其GC分数含量将箱体分成组。例如，这些箱体被分成五0组，其中组的边界对应于％GC分布的(0、2、4、6、...和100)分位数。对于从定位到相同GC组(样本中)的稳健的常染色体的每组计算中位数归一化覆盖量，并然后从归一化覆盖量中减去中值(对于完整基因组中相同GC组中的所有箱体)。这将从任何给定样本中的稳健染色体估计的GC校正应用于同一样本中潜在受影响的染色体。例如，将GC含量在0.338660到0.344720之间的稳健染色体上的所有箱体分组在一起，计算该组的中位数，并从该GC范围内的箱体的归一化覆盖率中减去，所述箱体可以见于基因组(不包括13、18、21号和X染色体)的任何地方。在某些实施方案中，Y染色体从该GC校正过程中排除。

图3G显示了使用中位数归一化覆盖量作为刚刚描述的校正参数的GC校正的应用。左图显示未校正的覆盖量相对于GC分数谱。如所示，谱具有非线性形状。右图显示校正的覆盖量。图3H显示了GC分数校正前(左图)和GC分数校正后(右图)许多样本的归一化覆盖率。图3I显示了在GC分数校正(红色)之前和GC分数校正(绿色)之后许多测试样本的归一化覆盖率的变异系数(CV)，其中GC校正导致归一化覆盖率的实质上更小的变化。

上述方法是GC校正的相对简单的实施方式。校正GC偏差的替代方法采用样条(spline)或其他非线性拟合技术，其可以应用于连续GC空间中，并且不涉及通过GC含量框并覆盖量。合适技术的实例包括连续黄土校正和平滑样条校正。拟合函数可以从所考虑的样本的逐个箱体归一化覆盖量相对于GC含量衍生。通过将考虑的箱体的GC含量应用于拟合函数来计算每个箱体的校正。例如，可以通过减去所考虑的箱体的GC含量处的样条的期望覆盖率值来调整归一化覆盖量。或者，可以通过根据样条拟合划分期望覆盖率值来实现调整。

在操作319中校正GC依赖性之后，系统计算地去除在考虑的样本中的逸出箱体-参见框321。该操作可以被称为单样本过滤或整修。图3J显示即使在GC校正之后，覆盖率仍然在小区域内具有样本特异性变化。参见例如12号染色体上位置1.1e8处的覆盖率，其中出现与预期值意想不到的高偏差。这种偏差有可能来自材料基因组中的小拷贝数变化。或者，这可能是由于与拷贝数变化无关的测序中的技术原因。通常，此操作仅应用于稳健的染色体。

作为一个实例，系统计算地过滤具有GC校正的归一化覆盖量的任何箱体，其在携带正在考虑用于过滤的箱体的染色体中的所有箱体上具有与GC校对的归一化覆盖量的中位数多于3个中位数的绝对偏差。在一个实例中，截断值定义为被调整为与标准偏差一致的3个中位数绝对偏差，所以实际上截断值是与中位数的1.4826*绝对偏差。在某些实施方案中，该操作应用于样本中的所有染色体，包括稳健的染色体和疑似非整倍性的染色体。

在某些实施方式中，进行可被表征为质量控制的附加操作。参见框323。在一些实施方案中，质量控制度量涉及检测任何潜在分母染色体，即“归一化染色体”或“稳健染色体”是否为非整倍体或者另外不适合于确定测试样本在目的序列中是否具有拷贝数变化。当该方法确定稳健的染色体不合适时，所述方法可以忽略测试样本并且不进行调用。或者，该QC度量的失败可能触发使用一组替代的归一化染色体进行调用。在一个实例中，质量控制方法将稳健的染色体的实际归一化覆盖率值与稳健的常染色体的预期值进行比较。可以通过将多变量正态模型拟合到未受影响的训练样本的归一化谱中，根据数据或贝叶斯准则(Bayesian criteria)的可能性选择最佳模型结构(例如，使用Akaike信息标准或可能的贝叶斯信息标准选择模型)，并修正用于QC的最佳模型来获得预期值。可以通过例如使用鉴定正常样本中染色体覆盖率的平均值和标准偏差的概率函数的聚类技术来获得稳健染色体的正常模型。当然，可以使用其他模型形式。该方法评估给定固定模型参数的任何进入测试样本中观察到的归一化覆盖率的可能性。它可以通过用模型对每个进入的测试样本进行评分来获得可能性，并由此鉴定相对于正常样本集的逸出值。测试样本与训练样本可能性的偏差可能提示归一化染色体的异常或样本处理/测定赝象(artifact)，其可能导致不正确的样本分类。该QC度量可用于减少与这些样本赝象相关联的分类中的错误。图3K，右图，显示了x轴染色体数目，y轴显示了基于与如上所述获得的QC模型进行比较的归一化染色体覆盖率。图表显示了2号染色体的覆盖率过大的一个样本和20号染色体覆盖率过大的其他样本。这些样本将使用本文所述的QC度量消除，或转移到使用一组替代的归一化染色体。图3K的左图显示了NCV相对于染色体的可能性。

图3A中描绘的序列可用于基因组中所有染色体的所有箱体。在某些实施方案中，将不同的方法应用于Y染色体。为了计算染色体或片段剂量、NCV和/或NSV，使用来自在剂量、NCV和/或NSV中使用的染色体或区段中的箱体的校正的归一化覆盖量(如图3A中测定)。参见框325。在某些实施方案中，从目的染色体中的所有箱体中计算平均归一化覆盖量，归一化染色体、目的区段和/或归一化区段用于计算在本文其他地方描述的序列剂量、NCV和/或NSV。

在某些实施方案中，Y染色体被不同地处理。可以通过掩蔽Y染色体独有的一组箱体来过滤。在一些实施方案中，根据先前通过引用并入的美国临时专利申请号61/836,057中的方法来确定Y染色体过滤器。在一些实施方案中，过滤器掩蔽比其他染色体的过滤器中的那些小的箱体。例如，Y染色体掩码可以在1kb水平进行过滤，而其他染色体掩码可以在100kb水平进行过滤。然而，可以与其他染色体(例如，100kb)相同箱体大小归一化Y染色体。

在某些实施方案中，经过过滤的Y染色体在图3A的操作315中如上所述被归一化。然而，另外，Y染色体不能被进一步校正。因此，Y染色体箱体不经历全局谱去除。类似地，Y染色体箱体不经过GC校正或其后进行的其他过滤步骤。这是因为当样本被处理时，该反复不知道样本是男性还是女性。女性样本应没有与Y参考染色体比对的读取。

创建序列掩码

本文中公开的一些实施方案采用使用序列掩码来滤除(或掩蔽)目的序列上的非判别序列读取的策略，其导致相对于通过常规方法计算的值用于CNV评估的覆盖率值中较高的信号和较低的噪音。可以通过各种技术来鉴定这样的掩码。在一个实施方案中，使用图4A-4B所示的技术来鉴定掩码，如下面进一步详细描述。

在一些实施方式中，使用已知具有目的序列的正常拷贝数的代表性样本的训练集来鉴定掩码。可以使用首先使训练集样本归一化，然后校正跨序列范围(例如，谱)的系统变化的技术来鉴定掩码，并且然后如下所述校正它们的GC变异性。对来自训练集的样本进行归一化和校正，而不是测试样本。该掩码被鉴定一次，并然后应用于许多测试样本。

图4A显示了用于创建这样的序列掩码的方法400的流程图，其可以应用于一个或多个测试样本，以在评估拷贝数时去除考虑的目的序列上的箱体。图4所示的方法400使用基于序列标签的数量的序列标签覆盖率来获得序列掩码。然而，与上面关于用于参考图1确定CNV的方法100的描述类似，除了方法400的覆盖率之外或替代方法400的覆盖率，可以使用其他变量或参数，例如大小、大小比和甲基化水平。在一些实施方式中，为两个或更多个参数中的每一个生成一个掩码。此外，可以基于从其导出标签的片段大小来加权覆盖率和其他参数。为了便于阅读，在方法400中仅引用覆盖率，但是应当注意，可以使用其他参数，诸如大小、大小比，和甲基化水平，按大小加权的计数等替代覆盖率。

方法400通过提供包括来自多个未受影响的训练样本的序列读取的训练集开始。框402。然后，该方法将训练集的序列读取比对到包括目的序列的参考基因组，由此为训练样本提供训练序列标签。框404。在一些实施方案中，仅将唯一比对的非冗余标签定位到非排除位点用于进一步分析。该方法包括将参考基因组划分成多个箱体，并为每个未受影响的训练样本确定每个训练样本的每个箱体中训练序列标签的覆盖率。框406。该方法还为每个箱体确定所有训练样本的训练序列标签的期望覆盖率。框408。在一些实施方案中，每个箱体的期望覆盖率是训练样本的中位数或均值。期望的覆盖率构成全局谱。然后，该方法通过去除全局谱的变化来调整每个训练样本的每个箱体中的训练序列标签的覆盖率，由此获得每个训练样本的训练序列标签的全局谱校正覆盖率。然后，该方法产生包括参考基因组上的未掩蔽和掩蔽的箱体的序列掩码。每个被掩蔽的箱体具有超过掩蔽阈值的分布特性。为训练样本的箱体中的训练序列标签的调整覆盖率提供分布特征。在一些实施方式中，掩蔽阈值可以涉及在训练样本的箱体内归一化覆盖率的观察到的变化。可以基于各自度量的经验分布来鉴定在样本之间具有高变异系数或归一化覆盖率的中位数绝对偏差的箱体。在一些可选实施方式中，掩蔽阈值可以涉及在训练样本的箱体内归一化覆盖率的观察到的变化。可以基于各自度量的经验分布来掩蔽在样本之间具有高变异系数或归一化覆盖率的中位数绝对偏差的箱体。

在一些实施方式中，为目的染色体和所有其他染色体定义用于鉴定掩蔽的箱体的单独的截断，即掩蔽阈值。此外，可以分别针对每个目的染色体定义单独的掩蔽阈值，以及针对所有未受影响的染色体的集合定义单个掩蔽阈值。作为实例，针对13号染色体定义基于某些掩蔽阈值的掩码，并且使用另一掩蔽阈值来定义其他染色体的掩码。未受影响的染色体也可以具有每个染色体定义的其掩蔽阈值。

可以针对每个目的染色体评估各种掩蔽阈值组合。掩蔽阈值组合为目的染色体的箱体提供一个掩码，并为所有其他染色体的箱体提供不同的掩码。

在一种方法中，变异系数(CV)或样本分布截断的量度的值范围被定义为箱体CV值的经验分布的百分位数(例如，95、96、97、98、99)，并且这些截断值应用于不包括目的染色体的所有常染色体。此外，对于经验CV分布定义了CV的百分位数截断值的范围，并且将这些截断值应用于目的染色体(例如chr 21)。在一些实施方案中，目的染色体是X染色体和13、18和21号染色体。当然，可以考虑其他方法；例如，可以对每个染色体进行单独的优化。总的来说，待平行优化的范围(例如，所考虑的目的染色体的一个范围和所有其他染色体的另一范围)限定了CV截断组合的网格。参见图4B。在两个截断(一个用于归一化染色体(或目的染色体以外的常染色体)，而另一个用于目的染色体)上评估系统对训练集的性能，并选择最佳性能组合进行最终配置。对于每个目的染色体，该组合可以是不同的。在某些实施方案中，性能在验证集而不是训练集上进行评估，即交叉验证用于评估性能。

在一些实施方案中，被优化以确定截断范围的性能是染色体剂量的变异系数(基于归一化染色体的初步选择)。该方法选择使用当前选择的归一化的染色体(或多条染色体)使目的染色体的染色体剂量的CV最小化(例如，比率)的截断的组合。在一种方法中，该方法如下测试网格中每个截断组合的性能：(1)应用截断的组合来定义所有染色体的掩码，并应用这些掩码来过滤训练集的标签；(2)通过将图3A的方法应用于经过滤的标签来计算未受影响样本的训练集之间的归一化覆盖率；(3)通过，例如，对正在考虑的染色体的箱体的归一化覆盖率进行求和来确定每个染色体的代表性归一化覆盖率；(4)使用目前的归一化染色体计算染色体剂量，和(5)确定染色体剂量的CV。该方法可以通过将它们应用于从训练集的原始部分分离的一组测试样本来评估所选择的过滤器的性能。也就是说，该方法将原始训练集分为训练和测试子集。如上所述，训练子集用于定义掩码截断。

在可选实施方案中，代替基于覆盖率的CV定义掩码，可以通过来自箱体内的训练样本之间比对结果的定位质量得分的分布来定义掩码。定位质量得分反映了读取定位到参考基因组的唯一性。换句话说，定位质量得分量化读取错误比对的概率。低定位质量得分与低唯一性(高的错误比对概率)相关。唯一性解释了读取序列中的一个或多个错误(由测序仪生成)。定位质量得分的详细呈现在Li H,Ruan J,Durbin R.(2008)Mapping short DNAsequencing reads and calling variants using mapping quality scores.GenomeResearch 18:1851-8中，以其整体通过引用并入本文。在一些实施方式中，本文的定位质量得分被称为MapQ得分。图4B显示MapQ得分与加工覆盖率的CV具有强烈的单调相关性。例如，具有高于0.4的CV的箱体几乎完全聚集在图4B的图的左侧，其具有低于约4的MapQ得分。因此，具有小MapQ的掩蔽箱体可以产生与通过具有高CV的掩蔽箱体定义的掩码非常相似的掩码。

样本和样本处理

样本

用于确定CNV，例如染色体非整倍性、部分非整倍性等的样本可以包括取自待确定一个或多个目的序列的拷贝数变化的任何细胞、组织或器官的样本。期望地，样本含有存在于细胞和/或“无细胞”的核酸(例如，cfDNA)中的核酸。

在一些实施方案中，获得无细胞核酸，例如无细胞DNA(cfDNA)是有利的。无细胞核酸，包括无细胞DNA，可以通过本领域已知的各种方法从生物学样本(包括但不限于血浆、血清和尿液)获得(参见例如，Fan等,Proc Natl Acad Sci 105:16266-16271[2008]；Koide等,Prenatal Diagnosis 25:604-607[2005]；Chen等,Nature Med.2:1033-1035[1996]；Lo等,Lancet 350:485-487[1997]；Botezatu等,Clin Chem.46:1078-1084,2000；和Su等,JMol.Diagn.6:101-107[2004])。为了从样本中的细胞中分离出无细胞的DNA，可以使用包括但不限于分馏、离心(例如，密度梯度离心)、DNA特异性沉淀或高通量细胞分选和/或其他分离方法的各种方法。可得到用于手动和自动分离cfDNA的市售试剂盒(Roche Diagnostics,Indianapolis,IN,Qiagen,Valencia,CA,Macherey-Nagel,Duren,DE)。包含cfDNA的生物样本已经用于测定中以通过可以检测染色体非整倍性和/或各种多态性的测序测定来确定染色体异常，例如21三体性的存在或缺失。

在多个实施方案中，样本中存在的cfDNA可以在使用前(例如在制备测序文库之前)特异性或非特异性富集。样本DNA的非特异性富集是指可以用于在制备cfDNA测序文库之前提高样本DNA水平的样本的基因组DNA片段的全基因组扩增。非特异性富集可以是存在于包含多于一个基因组的样本中的两个基因组之一的选择性富集。例如，非特异性富集可以选择母体样本中的胎儿基因组，这可以通过已知方法获得以增加样本中胎儿与母体DNA的相对比例。或者，非特异性富集可以是样本中存在的两个基因组的非选择性扩增。例如，非特异性扩增可以是样本中的胎儿和母体DNA的非特异性扩增，所述样本包含来自胎儿和母体基因组的DNA的混合物。全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的实例。在一些实施方案中，包含来自不同基因组的cfDNA的混合物的样本对于存在于混合物中的基因组的cfDNA是未富集的。在其他实施方案中，包含来自不同基因组的cfDNA的混合物的样本对于存在于样本中的任何一个基因组是非特异性富集的。

包含本文描述的方法对其应用的核酸的样本通常包含生物样本(“测试样本”)，例如，如上所述。在一些实施方案中，待筛选一种或多种CNV的核酸通过许多众所周知的方法中的任何一种进行纯化或分离。

因此，在某些实施方案中，样本包含纯化或分离的多核苷酸或由其组成，或者其可以包含样本，例如组织样本、生物流体样本、细胞样本等。合适的生物流体样本包括但不限于血液、血浆、血清、汗液、眼泪、痰液、尿液、痰液、耳流液(ear flow)、淋巴、唾液、脑脊液、ravages、骨髓悬液、阴道流液、经宫颈灌洗、脑流液、腹水、牛奶、呼吸道，肠道和泌尿生殖道的分泌物、羊水、牛奶和白细胞样本。在一些实施方案中，样本是通过非侵入性方法容易获得的样本，例如血液、血浆、血清、汗液、眼泪、痰液、尿液、痰液、耳流液、唾液或粪便。在某些实施方案中，样本是外周血样本，或外周血样本的血浆和/或血清级分。在其他实施方案中，生物样本是拭子或涂片、活检标本或细胞培养物。在另一个实施方案中，样本是两种或多种生物样本的混合物，例如生物样本可以包括生物流体样本、组织样本和细胞培养样本中的两种或更多种。如本文所用，术语“血液”、“血浆”和“血清”明确地包括其级分或加工部分。类似地，当从活组织检查、拭子、涂片等获取样本时，“样本”明确地包括衍生自活组织检查、拭子、涂片等的加工级分或部分。

在某些实施方案中，可以从以下来源获得样本，包括但不限于来自不同个体的样本、来自相同或不同个体的不同发育阶段的样本、来自不同患病个体(例如，具有癌症或怀疑具有遗传疾病的个体)，正常个体的样本、在个体中疾病的不同阶段获得的样本、从经历疾病不同治疗的个体获得的样本、来自经受不同环境因素的个体的样本、来自患有病理倾向的个体的样本、暴露于感染性疾病因素(例如，例如HIV)的样本个体等。

在一个示例性但非限制性的实施方案中，样本是从孕妇(例如孕妇)获得的母体样本。在这种情况下，可以使用本文所述的方法分析样本，以提供胎儿中潜在染色体异常的产前诊断。母体样本可以是组织样本、生物流体样本或细胞样本。作为非限制性实例，生物流体包括血液、血浆、血清、汗液、泪液、痰液、尿液、痰液、耳流液、淋巴、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫颈内灌洗、脑流液、腹水、牛奶、呼吸道，肠道和泌尿生殖道的分泌物和白细胞样本。

在另一个示例性但非限制性的实施方案中，母体样本是两个或更多个生物样本的混合物，例如，生物样本可以包含生物流体样本、组织样本和细胞培养样本中的两种或更多种。在一些实施方案中，样本是通过非侵入性方法容易获得的样本，例如血液、血浆、血清、汗液、泪液、痰液、尿液、牛奶、痰液、耳流液、唾液和粪便。在一些实施方案中，生物样本是外周血样本，和/或其血浆和血清级分。在其他实施方案中，生物样本是拭子或涂片、活检标本或细胞培养物样本。如上所公开，术语“血液”、“血浆”和“血清”明确地包括其级分或加工部分。类似地，当从活组织检查、拭子、涂片等获取样本时，“样本”明确地包括衍生自活组织检查、拭子、涂片等的加工级分或部分。

在某些实施方案中，也可以从体外培养的组织、细胞或其他含多核苷酸的来源获得样本。培养的样本可以从包括但不限于维持在不同培养基和条件(例如pH、压力或温度)下的培养物(例如，组织或细胞)、维持用于不同时期长度的培养物(例如，组织或细胞)、用不同因子或试剂(例如，候选药物或调节剂)处理的培养物(例如，组织或细胞)，或不同类型组织和/或细胞的培养物获取。

从生物来源分离核酸的方法是众所周知的，并且将根据来源的性质而不同。本领域技术人员可以根据本文所述的方法需要从来源容易地分离核酸。在一些情况下，将核酸样本中的核酸分子进行片段化可以是有利的。片段化可以是随机的，或者可以是特异性的，如通过使用限制性内切酶消化而实现。随机片段化的方法是本领域熟知的，并且包括例如有限的DNA酶消化、碱处理和物理剪切。在一个实施方案中，样本核酸作为不经过片段化的cfDNA获得。

测序文库制备

在一个实施方案中，本文描述的方法可以利用下一代测序技术(NGS)，其允许将多个样本作为基因组分子单独测序(即，单序列测序)或在单次测序运行中作为包含索引基因组分子的合并样本(例如，多重测序)。这些方法可以产生高达数亿次的DNA序列读取。在多个实施方案中，可以使用例如本文所述的下一代测序技术(NGS)确定基因组核酸和/或索引的基因组核酸的序列。在各种实施方案中，可以使用本文所述的一个或多个处理器来进行使用NGS获得的多个序列数据的分析。

在多个实施方案中，这种测序技术的使用不包括测序文库的制备。

然而，在某些实施方案中，本文考虑的测序方法包括测序文库的制备。在一个示例性方法中，测序文库制备包括产生准备被测序的adapter修饰的DNA片段(例如多核苷酸)的随机集合。可以从DNA或RNA，包括等同物、DNA或cDNA的类似物，例如通过逆转录酶的作用从RNA模板产生互补或拷贝DNA的DNA或cDNA来制备多核苷酸的测序文库。多核苷酸可以起源于双链形式(例如，dsDNA，例如基因组DNA片段、cDNA、PCR扩增产物等)，或者在某些实施方案中，多核苷酸可以起源于单链形式(例如，ssDNA、RNA等)，并已转化为dsDNA形式。通过说明，在某些实施方案中，单链mRNA分子可以复制到适合用于制备测序文库的双链cDNA中。初始多核苷酸分子的精确序列通常不是文库制备方法的材料，并且可以是已知的或未知的。在一个实施方案中，多核苷酸分子是DNA分子。更具体地，在某些实施方案中，多核苷酸分子代表生物体的全部遗传互补物或基本上整个生物体的遗传互补物，并且是基因组DNA分子(例如，细胞DNA、无细胞DNA(cfDNA)等)，其通常包括内含子序列和外显子序列(编码序列)以及非编码调节序列，例如启动子和增强子序列。在某些实施方案中，初级多核苷酸分子包含人基因组DNA分子，例如，存在于怀孕受试者的外周血中的cfDNA分子。

通过使用包含特定范围的片段大小的多核苷酸促进一些NGS测序平台的测序文库的制备。这种文库的制备通常包括大的多核苷酸(例如细胞基因组DNA)的片段化，以获得所需大小范围的多核苷酸。

可以通过本领域技术人员已知的多种方法中的任何一种来实现片段化。例如，可以通过机械手段包括但不限于喷雾、超声处理和水剪切来实现片段化。然而，机械片段化通常在C-O、P-O和C-C键处切割DNA主链，产生C-O、P-O和C-C键破裂的平末端与3’-和5’-突出末端的异质混合物(参见例如Alnemri和Liwack,J Biol.Chem 265:17323-17333[1990]；Richards and Boyer,J Mol Biol 11:327-240[1965])，其可能需要修复，因为它们可能缺乏必需的5’-磷酸以用于随后的酶反应，例如，测序接头的连接，其为制备用于测序的DNA所需。

相反，cfDNA通常以小于约300个碱基对的片段存在，因此，使用cfDNA样本产生测序文库通常不需要片段化。

通常，无论多核苷酸是否被强制片段化(例如在体外片段化)，或者作为片段天然存在，它们被转化成具有5’-磷酸和3’-羟基的平末端DNA。标准方案，例如使用例如本文别处所述的Illumina平台进行测序的方案，指示用户末端修复样本DNA，以在dA加尾之前纯化末端修复的产物，并在文库制备的接头连接步骤之前纯化dA加尾产物的产物。

本文描述的序列文库制备方法的多个实施方案消除了进行标准方案通常要求的一个或多个步骤以获得可由NGS测序的修饰的DNA产物的需要。缩略方法(ABB方法)、1步法和2步法是用于制备测序文库的方法的实例，可以见于2012年7月20日提交的专利申请13/555,037，以其整体通过引用整体并入本文。

用于跟踪和验证样本完整性的标记核酸

在多个实施方案中，样本的完整性和样本追踪的验证可以通过将样本基因组核酸(例如cfDNA)与已经加入到样本中的伴随标记核酸的混合物例如在处理之前进行测序来实现。

标记核酸可以与测试样本(例如，生物源样本)组合并进行包括例如分级生物源样本的一个或多个步骤的方法，例如从全血样本中获得基本上无细胞的血浆级分，从分级的(例如血浆)，或未分级的生物来源样本(例如组织样本)纯化核酸并测序。在一些实施方案中，测序包括制备测序文库。与源样本组合的标记分子的序列或序列的组合被选择为对源样本是唯一的。在一些实施方案中，样本中的唯一标记分子全部具有相同的序列。在其他实施方案中，样本中的唯一标记分子是多个序列，例如2、3、4、5、6、7、8、9、10、15、20个或更多个不同序列的组合。

在一个实施方案中，可以使用具有相同序列的多个标记核酸分子来验证样本的完整性。或者，可以使用多个标记核酸分子来验证样本的身份，所述标记核酸分子具有至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少25个、至少30个、至少35个、至少40个、至少50个或更多个不同的序列。对多个生物样本(即两个或更多个生物样本)的完整性的验证要求使两个或更多个样本中的每一个标记有标记核酸，所述标记核酸具有对于被标记的多个测试样本的每一个唯一的序列。例如，可以用具有序列A的标记核酸标记第一个样本，并且可以用具有序列B的标记核酸标记第二个样本。或者，可以用全部具有序列A的标记核酸分子标记第一个样本，并可以用序列B和C的混合物标记第二个样本，其中序列A、B和C是具有不同序列的标记分子。

可以在文库制备(如果要制备文库)和测序之前发生的样本制备的任何阶段将标记核酸加入到样本中。在一个实施方案中，标记分子可以与未加工的源样本组合。例如，可以在用于收集血液样本的收集管中提供标记核酸。或者，可以在抽血后将标记核酸加入到血液样本中。在一个实施方案中，将标记核酸加入到用于收集生物流体样本的容器中，例如，将标记核酸加入到用于收集血液样本的采血管中。在另一个实施方案中，将标记核酸加入生物流体样本的级分中。例如，将标记核酸加入到血液样本的血浆和/或血清级分，例如母体血浆样本中。在又一个实施方案中，将标记分子加入到纯化的样本中，例如已经从生物样本中纯化的核酸样本。例如，将标记核酸加入到纯化的母体和胎儿cfDNA的样本中。类似地，可以在加工样本之前将标记核酸加入活检标本中。在一些实施方案中，标记核酸可以与将标记分子递送到生物样本的细胞中的载体组合。细胞递送载体包括pH敏感的和阳离子脂质体。

在多个实施方案中，标记分子具有反基因组序列，其是生物源样本基因组中不存在的序列。在示例性实施方案中，用于验证人类生物源样本完整性的标记分子具有人类基因组中不存在的序列。在可选实施方案中，标记分子具有在源样本和任何一种或多种其他已知基因组中不存在的序列。例如，用于验证人类生物源样本完整性的标记分子具有在人类基因组和小鼠基因组中不存在的序列。可选方案允许验证包含两个或更多个基因组的测试样本的完整性。例如，可以使用具有人类基因组和在受影响细菌的基因组中不存在的序列的标记分子来验证从受病原体(例如细菌)影响的受试者获得的不含人细胞的DNA样本的完整性。许多病原体(例如细菌、病毒、酵母、真菌、原生动物等)的基因组序列可以在ncbi.nlm.nih.gov/genomes的万维网上公开获得。在另一个实施方案中，标记分子是具有在任何已知基因组中不存在的序列的核酸。标记分子的序列可以在算法上随机生成。

在多个实施方案中，标记分子可以是天然存在的脱氧核糖核酸(DNA)、核糖核酸或人造核酸类似物(核酸模拟物)，包括肽核酸(PNA)、吗啉代核酸、锁定核酸、乙二醇核酸和苏糖核酸，其通过对不具有磷酸二酯骨架的分子或DNA模拟物的骨架的改变与天然存在的DNA或RNA区分开来。脱氧核糖核酸可以来自天然存在的基因组，或者可以通过使用酶或通过固相化学合成在实验室中产生。也可以使用化学方法来产生在自然界中没有发现的DNA模拟物。DNA的衍生物是可用的，其中磷酸二酯键被替换，但其中保留脱氧核糖，所述DNA的衍生物包括但不限于具有由硫代甲缩醛(thioformacetal)或羧酰胺键形成的主链的DNA模拟物，其已被证明是良好的结构DNA模拟物。其他DNA模拟物包括吗啉代衍生物和含有基于N-(2-氨基乙基)甘氨酸的假肽主链的肽核酸(PNA)(Ann Rev Biophys Biomol Struct 24:167-183[1995])。PNA是DNA(或核糖核酸[RNA])的非常好的结构模拟物，并且PNA寡聚体能够与Watson-Crick互补DNA和RNA(或PNA)寡聚体形成非常稳定的双链结构，并且它们也可以通过螺旋侵入结合双链DNA中的靶标(Mol Biotechnol 26:233-248[2004]。可以用作标记分子的DNA类似物的另一个很好的结构模拟物/类似物是硫代磷酸酯DNA，其中非桥接氧原子之一被硫替代。这种修饰减少了核酸内切酶和核酸外切酶2，包括5’-3’和3’-5’DNAPOL1核酸外切酶、核酸酶S1和P1、RNA酶、血清核酸酶和蛇毒磷酸二酯酶的作用。

标记分子的长度可以与样本核酸的长度不同或模糊(indistinct)，即所述标记分子的长度可以与样本基因组分子的长度相似，或者其可以大于或小于样本基因组分子的长度。通过构成标记分子的核苷酸或核苷酸类似物碱基的数目来测量标记分子的长度。具有不同于样本基因组分子长度的标记分子可以使用本领域已知的分离方法与源核酸区分开。例如，标记物和样本核酸分子的长度差异可以通过电泳分离(例如毛细管电泳)来确定。大小分化对于量化和评估标记物和样本核酸的质量可能是有利的。优选地，标记核酸比基因组核酸短，并且具有足够的长度以排除它们被定位到样本的基因组。例如，由于需要将30个碱基人序列唯一地定位到人类基因组。因此，在某些实施方案中，用于测序人样本生物测定的标记分子的长度应至少为30bp。

标记分子长度的选择主要通过用于验证源样本完整性的测序技术决定。也可以考虑正在测序的样本基因组核酸的长度。例如，一些测序技术使用多核苷酸的克隆扩增，这可能要求被克隆扩增的基因组多核苷酸具有最小长度。例如，使用Illumina GAII序列分析仪的测序包括通过桥式PCR(也称为簇扩增(cluster amplification))具有最小长度为110bp的多核苷酸的体外克隆扩增，将衔接子连接到其上以提供可以被克隆扩增和测序的至少200bp和小于600bp的核酸。在一些实施方案中，衔接物连接的标记分子的长度为约200bp至约600bp、约250bp至550bp、约300bp至500bp之间，或约350至450。在其他实施方案中，连接标记分子约为200bp。例如，当对母体样本中存在的胎儿cfDNA进行测序时，可以选择标记分子的长度与胎儿cfDNA分子的长度相似。因此，在一个实施方案中，在包含多个平行测序母体样本中cfDNA以确定胎儿染色体非整倍性存在或缺失的测定中使用的标记分子的长度可以为约150bp、约160bp、170bp、约180bp、约190bp或约200bp；优选地标记分子为约170pp。其他测序方法，例如SOLiD测序、Polony测序和454测序使用乳液PCR来克隆扩增DNA分子用于测序，并且每项技术决定待扩增分子的最小和最大长度。作为克隆扩增核酸测序的标记分子的长度可以高达约600bp。在一些实施方案中，待测序的标记分子的长度可以大于600bp。

在大多数情况下，单分子测序技术(不使用分子的克隆扩增，并且能够在非常宽的模板长度范围内对核酸进行测序)不要求待测序的分子具有任何特定的长度。然而，每单位质量的序列产率取决于3’末端羟基的数目，并因此具有相对较短的模板用于测序比具有长模板更有效。如果以超过1000nt的核酸开始，通常建议将核酸剪切至100至200nt的平均长度，以便可以从相同质量的核酸产生更多的序列信息。因此，标记分子的长度可以从几十个碱基到几千个碱基。用于单分子测序的标记分子的长度可以高达约25bp、高达约50bp、高达约75bp、高达约100bp、高达约200bp、高达约300bp、高达约400bp、直至约500bp、高达约600bp、高达约700bp、高达约800bp、高达约900bp、高达约1000bp或更长。

为标记分子选择的长度也由正在测序的基因组核酸的长度决定。例如，cfDNA作为细胞基因组DNA的基因组片段在人血流中循环。在孕妇血浆中发现的胎儿cfDNA分子通常比母体cfDNA分子短(Chan等,Clin Chem 50:8892[2004])。循环胎儿DNA的大小分级已经确认循环胎儿DNA片段的平均长度小于300bp，而母体DNA估计在约0.5-1Kb之间(Li等,ClinChem,50:1002-1011[2004])。这些发现与Fan等的发现一致，他们使用NGS确定胎儿cfDNA很少>340bp(Fan等,Clin Chem 56:1279-1286[2010])。用标准的基于二氧化硅的方法从尿液中分离的DNA由两部分组成，起源于脱落细胞的高分子量DNA和transrenal DNA(Tr-DNA)的低分子量(150-250碱基对)部分(Botezatu等,Clin Chem.46:1078-1084,2000；and Su等,JMol.Diagn.6:101-107,2004)。应用新开发的用于从体液分离无细胞核酸到分离transrenal核酸的技术已经揭示出尿液中存在比150个碱基对短得多的DNA和RNA片段(美国专利申请公开号20080139801)。在实施方案中，其中cfDNA是测序的基因组核酸，所选择的标记分子可以高达约cfDNA的长度。例如，作为单核酸分子或克隆扩增核酸测序的母体cfDNA样本中使用的标记分子的长度可以在约100bp和600之间。在其他实施方案中，样本基因组核酸是较大分子的片段。例如，测序的样本基因组核酸是片段化的细胞DNA。在实施方案中，当片段化的细胞DNA被测序时，标记分子的长度可以高达DNA片段的长度。在一些实施方案中，标记分子的长度是将序列读取唯一地定位到适当参考基因组所需的至少最小长度。在其他实施方案中，标记分子的长度是排除标记分子定位到样本参考基因组所需的最小长度。

此外，标记分子可以用于验证未通过核酸测序测定的样本，并且可以通过除测序之外的常规生物技术(例如，实时PCR)来验证标记分子。

样本对照(例如，用于测序和/或分析的方法阳性对照)。

在多个实施方案中，例如如上所述，引入样本的标记序列可作为阳性对照作用于验证测序和随后的加工和分析的准确性和有效性。

因此，提供组合物和方法用于提供用于测序样本中DNA的过程内阳性对照(IPC)。在某些实施方案中，提供阳性对照用于测序含有基因组混合物的样本中的cfDNA。可以使用IPC将从不同样本集合，例如在不同测序运行中在不同时间测序的样本获得的序列信息中的基线偏移相关联。因此，例如，IPC可以将为母体测试样本获得的序列信息与从在不同时间测序的一组合格样本获得的序列信息相关联。

类似地，在区段分析的情况下，IPC可以将从受试者的特定区段获得的序列信息与从不同时间测序的一组合格样本(相似序列)获得的序列相关联。在某些实施方案中，IPC可以将从受试者的特定癌症相关基因座获得的序列信息与从一组合格样本(例如，已知的扩增/缺失等)获得的序列信息相关联。

此外，IPC可以用作通过测序方法跟踪样本的标记。IPC还可以为目的染色体的一个或多个非整倍性，例如，21三体性、13三体性、18三体性提供定性的阳性序列剂量值，例如NCV，以提供适当的解释，并确保数据的可靠性和准确性。在某些实施方案中，可以创建IPC以包含来自雄性和雌性基因组的核酸，以在母体样本中为X和Y染色体提供剂量以确定胎儿是否是男性。

过程中对照的类型和数量取决于所需测试的类型或性质。例如，对于需要测序来自包含基因组混合物的样本的DNA以测定是否存在染色体非整倍性的测试，所述过程中对照可以包含从已知包含正在测试的相同染色体非整倍性的样本获得的DNA。在一些实施方案中，IPC包括来自已知包含目的染色体的非整倍性的样本的DNA。例如，对于用于确定母体样本中胎儿三体性(例如，21三体性)存在或缺失的测试的IPC包括从具有21三体性的个体获得的DNA。在一些实施方案中，IPC包含从具有不同非整倍性的两个或更多个个体获得的DNA的混合物。例如，对于确定13三体性、18三体性、21三体性和X单体性的存在或缺失的测试，IPC包括从孕妇获得的DNA样本的组合，每个孕妇携带具有被测试三体性之一的胎儿。除了完整的染色体非整倍性外，可以产生IPC以提供阳性对照，用于测试以确定部分非整倍性的存在或缺失。

可以使用从作为非整倍体基因组的贡献者的两个受试者获得的细胞基因组DNA的混合物来产生用作检测单一非整倍性的对照的IPC。例如，可以通过将来自携带三体性染色体的男性或女性受试者的基因组DNA与已知不携带三体性染色体的雌性受试者的基因组DNA组合来产生作为测试来确定胎儿三体性(例如，21三体性)的对照的IPC。可以从两个受试者的细胞中提取基因组DNA，并剪切以提供约100-400bp、约150-350bp或约200-300bp之间的片段，以模拟母体样本中的循环cfDNA片段。选择来自携带非整倍性，例如21三体性的受试者的片段化DNA的比例，以模拟在母体样本中发现的循环胎儿cfDNA的比例，以提供IPC，其包含约5％、约10％、约15％、约20％、约25％、约30％的来自携带非整倍性的受试者的DNA。IPC可以包含来自不同受试者的DNA，每个受试者携带不同的非整倍性。例如，IPC可以包含约80％的未受影响的雌性DNA，而剩余20％可以是来自三个不同受试者的DNA，每个携带受试者21三体性染色体、13三体性染色体和18三体性染色体。制备片段化DNA的混合物用于测序。片段化DNA的混合物的加工可以包括制备测序文库，其可以使用任何大规模并行方法以单一或多重方式进行测序。可以存储基因组IPC的贮存液并将其用于多个诊断测试。

或者，可以使用从已知携带具有已知染色体非整倍性的胎儿的母亲获得的cfDNA来产生IPC。例如，可以从携带具有21三体性的胎儿的孕妇获得cfDNA。从母体样本中提取cfDNA，并克隆到细菌载体中并在细菌中生长以提供IPC的持续来源。可以使用限制酶从细菌载体中提取DNA。或者，克隆的cfDNA可以通过例如PCR扩增。可以在与待分析染色体非整倍性存在或缺失的测试样本的cfDNA相同的运行中处理IPC DNA用于测序。

虽然上文关于三体性描述了IPC的产生，但是应当理解可以产生IPC以反映其他部分非整倍性，包括例如各种区段扩增和/或缺失。因此，例如，当已知各种癌症与特定扩增(例如，与20Q13相关的乳腺癌)相关联时，可以产生IPC，其掺入那些已知的扩增。

测序方法

如上所述，将制备的样本(例如，测序文库)作为鉴定拷贝数变化的方法的一部分被测序。可以利用许多测序技术中的任何技术。

可以商业获得一些测序技术，例如来自Affymetrix Inc.(Sunnyvale,CA)的通过杂交测序(sequencing-by-hybridization)平台和来自454Life Sciences(Bradford,CT)/Illumina/Solexa(Hayward,CA)和Helicos Biosciences(Cambridge,MA)的通过合成测序(sequencing-by-synthesis)平台，和来自Applied Biosystems(Foster City,CA)的通过连接测序(sequencing-by-ligation)平台，如下所述。除了使用Helicos Biosciences的通过合成测序进行的单分子测序外，其他单分子测序技术包括但不限于，PacificBiosciences的SMRT^TM技术、ION TORRENT^TM技术和例如Oxford Nanopore Technologies开发的纳米孔(nanopore)测序。

虽然自动化Sanger方法被认为是“第一代”技术，但是也可以在本文描述的方法中使用包括自动化Sanger测序的Sanger测序。另外合适的测序方法包括但不限于核酸成像技术，例如原子力显微镜(AFM)或透射电子显微镜(TEM)。在下面更详细地描述说明性测序技术。

在一个说明性但非限制性的实施方案中，本文所述的方法包括使用Illumina的通过合成序列和基于可逆终止子的测序化学(例如，Bentley等,Nature 6:53-59[2009]中所述)获得测试样本中核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。模板DNA可以是基因组DNA，例如细胞DNA或cfDNA。在一些实施方案中，将来自分离的细胞的基因组DNA用作模板，并将其片段化成数百个碱基对的长度。在其他实施方案中，将cfDNA用作模板，并且不需要片段化，因为cfDNA作为短片段存在。例如胎儿cfDNA在血流中作为长度为大约170个碱基对(bp)的片段循环(Fan等,Clin Chem 56:1279-1286[2010])，并且在测序之前不需要DNA的片段化。Illumina的测序技术依赖于片段化基因组DNA附着到其上结合有寡核苷酸锚的平面光学透明表面。模板DNA被末端修复以产生5’-磷酸化平末端，并且使用Klenow片段的聚合物活性向平末端磷酸化DNA片段的3’末端添加单个A碱基。该添加制备DNA片段用于连接寡核苷酸衔接子，其在其3’末端具有单个T碱基的突出端以提高连接效率。衔接子寡核苷酸与流动室锚定寡核苷酸互补(在重复扩展的分析中不与锚定/锚定读取相混淆)。在有限稀释条件下，将衔接子修饰的单链模板DNA加入到流动室中并通过与锚寡核苷酸杂交来固定。附着的DNA片段被扩展并桥接扩增以产生具有数亿个簇的超高密度测序流动室，每个簇包含大约1000个拷贝的相同模板。在一个实施方案中，在进行簇扩增之前使用PCR进行扩增随机片段化的基因组DNA。或者，使用无扩增(例如，无PCR)基因组文库制备，并且单独使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等,Nature Methods 6:291-295[2009])。使用强大的四色(four-color)DNA通过合成测序技术对模板进行测序，所述技术采用具有可除去的荧光染料的可逆终止剂。使用激光激发和全内反射光学实现高灵敏度荧光检测。将约几十至几百个碱基对的短序列读取与参考基因组进行比对，并使用专门开发的数据分析流水软件鉴定短序列读取到参照基因组的唯一定位。在完成第一次读取之后，可以原位再生模板以使得能够从片段的相对端进行第二次读取。因此，可以使用DNA片段的单末端或配对末端测序。

本公开内容的多个实施方案可以使用通过合成测序，其允许配对末端测序。在一些实施方案中，由Illumina的通过合成测序平台涉及聚集片段。聚类是其中每个片段分子被等温扩增的方法。在一些实施方案中，如本文所述的实例，片段具有附着到片段两端的两个不同衔接子，所述衔接子允许片段与流动室泳道表面上的两种不同寡聚体杂交。该片段还包括或连接到片段两端的两个索引序列，所述索引序列提供标记以鉴定多重测序中的不同样本。在一些测序平台中，待测序的片段也称为插入片段。

在一些实施方式中，用于在Illumina平台中聚类(clustering)的流动室是具有泳道的载玻片。每个泳道是涂有两种寡聚体层(lawn)的玻璃通道。杂交通过表面上两种类型的寡聚体中的第一种来实现。该寡聚体与片段一端的第一adapter互补。聚合酶产生杂交片段的补体链。双链分子是变性的，并且原始模板链被洗去。通过桥接应用克隆扩增与许多其他剩余线平行的剩余链。

在桥接扩增中，链折叠，并且链的第二端上的第二衔接子区域与流动室表面上的第二类型的寡聚体杂交。聚合酶产生互补链，形成双链桥接分子。该双链分子变性，导致两个单链分子通过两个不同的寡聚体连接到流动室上。该方法然后反复重复，并且同时为数百万个簇发生，导致所有片段的克隆扩增。桥接扩增后，切割并洗去反义链，仅留下正义链。封闭3’末端端以防止不想要的引发(priming)。

聚类后，测序开始于扩展第一个测序引物以产生第一次读取。在每个循环中，荧光标记的核苷酸竞争加入生长链。基于模板的序列仅掺入一个。加入每个核苷酸后，簇被光源激发，并发出特征性荧光信号。循环数决定读取的长度。发射波长和信号强度决定碱基调用。对于给定的簇，所有相同的链都被同时读取。以大规模平时的方式测序数亿个簇。第一次读取完成后，读取产物被洗掉。

在涉及两个索引引物的方案的下一步中，引入索引1引物并与模板上的索引1区域杂交。索引区域提供片段的鉴定，其可用于在多重测序方法中去多重化样本。索引1读取类似于第一次读取生成。在完成索引1读取之后，读取产物被洗掉，并且链3’末端被去保护。模板链然后折叠并结合流动室上的第二个寡聚体。以与索引1相同的方式读取索引2序列。然后在步骤完成时洗掉索引2读取产物。

读取两个索引后，通过使用聚合酶起始读取2以扩展第二个流动室寡聚体，形成双链桥。将该双链DNA变性，并将3’末端封闭。切割并洗掉最初的正义链，留下反义链。读取2开始于引入读取2测序引物。与读取1一样，重复测序步骤直到达到期望的长度。读取2产物被洗掉。该完整方法产生数百万次读取，代表所有片段。根据样本制备过程中引入的独特索引分离来自汇合样本文库的序列。对于每个实例，局部聚类类似的碱基调用延伸的读取。正向和反向读取配对产生连续序列。这些连续序列与参考基因组比对用于变体鉴定。

通过上述合成实例的测序包括配对末端读取，其用于所公开方法的许多实施方案中。配对末端测序包括来自片段两端的2次读取。当一对读取被定位到参考序列时，可以确定两个读取之间的碱基对距离，然后可以使用所述距离来确定获得读取的片段的长度。在一些情况下，跨过两个箱体的片段使其末端配对的读取之一比对到一个箱体，并且将其另一个比对到邻近箱体。这样会变得越少，因为箱体变得越长或读取变得越短。可以使用各种方法来解释这些片段的箱体成员。例如，在确定箱体的片段大小频率时可以省略它们；它们可以计数两个相邻的箱体；它们可被分配到包含两个箱体中较大数量的碱基对的箱体中；或者它们可以分配给具有与每个箱体中的碱基对部分相关联的加权的两个箱体中。

配对末端读取可以使用不同长度的插入物(即，待测序的不同片段大小)。作为本公开内容中的默认含义，配对末端读取用于指从各种插入物长度获得的读取。在一些情况下，为了区分短插入物配对末端读取与长插入物配对末端读取，后者也称为配偶配对读取。在涉及配偶配对读取的一些实施方案中，首先将两个生物素接合接头附着到相对长的插入物(例如，例如几kb)的两端。然后生物素连接接头连接插入物的两端以形成环状分子。然后可以通过进一步片段化环状分子来获得包含生物素接头接头的子片段。然后可以通过与上述短插入物配对末端测序相同的程序，对包含原始片段两端的子片段以相反的序列顺序进行测序。使用Illumina平台的配偶配对测序的其他细节显示在以下URL的在线出版物中，其以其整体通过引用并入本文：res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_dat a_processing。关于配对末端测序的附加信息可以见于美国专利号7601499和美国专利公开号220/0,053,063，其通过引用关于配对末端测序方法和装置上的材料并入。

在DNA片段测序之后，预定长度(例如100bp)的序列读取定位或比对到已知参考基因组。定位或比对的读取及其在参考序列上的对应位置也称为标签。在一个实施方案中，参考基因组序列是NCBI36/hg18序列，其可以在基因组dot ucsc dot edu/cgi-bin/hgGateway？org＝Human&db＝hg18&hgsid＝166260105)的万维网上获得。或者，参考基因组序列是GRCh37/hg19，其可以在基因组dot ucsc dot edu/cgi-bin/hgGateway的万维网上获得。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(European MolecularBiology Laboratory),和DDBJ(DNA Databank of Japan)。许多计算机算法可用于比对序列，包括但不限于BLAST(Altschul等,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead等,Genome Biology10:R25.1-R25.10[2009])，或ELAND(Illumina,Inc.,San Diego,CA,USA)。在一个实施方案中，通过用于Illumina Genome Analyzer的生物信息学比对分析测序和加工血浆cfDNA分子的克隆扩增拷贝的一端，所述Illumina Genome Analyzer使用Efficient Large-Scale Alignment ofNucleotide Databases(ELAND)软件。

在一个说明性但非限制性的实施方案中，本文所述的方法包括使用Helicos TrueSingle Molecule Sequencing(tSMS)技术的单分子测序技术(例如，Harris T.D.等,Science 320:106-109[2008]中所述)获得测试样本中核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。模板DNA可以是基因组DNA，例如细胞DNA或cfDNA。在tSMS技术中，将DNA样本切割成约100至200个核苷酸的链，并将polyA序列加入到每个DNA链的3’末端。通过添加荧光标记的腺苷核苷酸标记每条链。然后将DNA链与流动室杂交，所述流动室含有数百万个固定在流动室表面的寡聚T捕获位点。在某些实施方案中，模板可以具有约1亿个模板/cm ²的密度。然后将流动室装载到仪器中，例如HeliScope^TM测序仪，并且激光照射流动室的表面，揭示每个模板的位置。CCD照相机可以定位模板在流动室表面上的位置。然后将模板荧光标记物切割并洗去。通过引入DNA聚合酶和荧光标记的核苷酸开始测序反应。寡聚-T核酸充当引物。聚合酶以引导模板的方式将标记的核苷酸掺入到引物中。去除聚合酶和未掺入的核苷酸。已经引导荧光标记核苷酸掺入的模板通过流动室表面的成像来辨别。在成像之后，切割步骤除去荧光标记，并且用其他荧光标记的核苷酸重复该过程，直到达到所需的读取长度。每个核苷酸添加步骤收集序列信息。通过单分子测序技术的全基因组测序排除或通常消除了在测序文库的制备中基于PCR的扩增，并且该方法允许直接测量样本，而不是测量该样本的拷贝。

在另一个说明性但非限制性的实施方案中，本文所述的方法包括使用454测序(Roche)(例如Margulies,M.等Nature 437:376-380[2005]中所述)获得测试样本中的核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。454测序通常包括两个步骤。在第一步中，将DNA剪切成大约300-800个碱基对的片段，并且片段是平末端的。然后将寡核苷酸接头连接到片段的末端。接头充当片段扩增和测序的引物。可以使用例如含有5’-生物素标签的衔接子B将片段附着到DNA捕获珠，例如抗生物素蛋白包被的珠。在油-水乳液的液滴内PCR扩增附着到珠上的片段。结果是在每个珠上的多个拷贝的克隆扩增的DNA片段。在第二步中，将在孔中(例如，皮升大小的孔)捕获珠。对每个DNA片段平行进行焦磷酸测序(Pyrosequencing)。一个或多个核苷酸的添加产生由测量仪器中的CCD照相机记录的光信号。信号强度与掺入的核苷酸数成正比。焦磷酸测序使用在核苷酸添加后释放的焦磷酸盐(PPi)。在腺苷5’磷酸硫酸盐存在下，PPi通过ATP硫酸化酶转化为ATP。荧光素酶使用ATP将荧光素转化为氧化荧光素，并且该反应产生测量和分析的光。

在另一说明性但非限制性的实施方案中，本文所述的方法包括使用SOLiD^TM技术(Applied Biosystems)获得测试样本中的核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。在SOLiD^TM通过连接测序中，将基因组DNA剪切成片段，并将衔接子附着到片段的5’和3’末端以产生片段文库。或者，可以通过将接头连接到片段的5’和3’末端来引入内部衔接子，使碎片环化，消化环化片段以产生内部接头，并将接头附着到所得到的片段的5’和3’末端来生成配偶配对文库。接下来，在含有珠、引物、模板和PCR组分的微反应器中制备克隆珠种群。PCR后，模板被变性，并且富集珠以用扩展的模板分离珠。对所选珠上的模板进行3’修饰，其允许粘合到载玻片上。可以通过部分随机寡核苷酸与由特异性荧光团鉴定的重要确定的碱基(或一对碱基)连续杂交和连接来确定序列。记录颜色后，将连接的寡核苷酸切割并除去，并且然后重复该过程。

在另一个说明性但非限制性的实施方案中，本文所述的方法包括使用PacificBiosciences的单分子实时(SMRT^TM)测序技术获得测试样本中的核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。在SMRT测序中，在DNA合成过程中对染料标记的核苷酸的连续掺入成像。单个DNA聚合酶分子附着到获得序列信息的单个零模式波长检测器(ZMW检测器)的底部表面上，同时将磷连接的核苷酸掺入生长的引物链中。ZMW检测器包括限制结构，其能够观察到针对在ZMW外快速扩散(例如，微秒)的荧光核苷酸的背景单个核苷酸通过DNA聚合酶的掺入。将核苷酸掺入生长链通常需要几毫秒。在此期间，荧光标记被激发并产生荧光信号，并且荧光标签被切除。染料的相应荧光的测量指示掺入了哪个碱基。重复该过程以提供序列。

在另一个说明性但非限制性的实施方案中，本文所述的方法包括使用纳米孔测序(例如Soni GV and Meller A.Clin Chem 53:1996-2001[2007]中所述)获得测试样本中的核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。Nanopore测序DNA分析技术由许多公司开发，包括例如Oxford Nanopore Technologies(Oxford,United Kingdom)、Sequenom、NABsys等。纳米孔测序是单分子测序技术，由此单分子DNA通过纳米孔时直接被测序。纳米孔是一个小孔，通常直径约为1纳米。将纳米孔浸入传导流体中并应用电势(电压)跨过它导致由于离子通过纳米孔的传导导致的微小的电流。流动的电流量对纳米孔的大小和形状敏感。当DNA分子通过纳米孔时，DNA分子上的每个核苷酸阻碍纳米孔至不同程度，改变不同程度通过纳米孔电流的大小。因此，当DNA分子通过纳米孔时，电流的这种变化提供了DNA序列的读取。

在另一个说明性但非限制性的实施方案中，本文所述的方法包括使用化学敏感的场效应晶体管(chemFET)阵列(例如，美国专利申请公开号2009/0026082中所述)获得测试样本中的核酸，例如母体样本中的cfDNA、被筛选癌症的受试者中的cfDNA或细胞DNA等的序列信息。在该技术的一个实例中，可以将DNA分子置于反应室中，并且模板分子可与结合聚合酶的测序引物杂交。将一个或多个三磷酸盐掺入测序引物3’末端的新核酸链可被chemFET识别为电流变化。阵列可以有多个chemFET传感器。在另一个实例中，单个核酸可以附着到珠上，并且可以在珠上扩增核酸，并且可以将单个珠转移到chemFET阵列上的各个反应室(每个室具有chemFET传感器)，并且可以测序核酸。

在另一个实施方案中，本方法包括使用透射电子显微镜(TEM)获得测试样本中核酸，例如母体测试样本中的cfDNA的序列信息。称为单个分子置换快速纳米转移(IMPRNT)的方法包括利用用重原子标记选择性标记的高分子量(150kb或更大)DNA的单原子分辨率透射电子显微镜成像，并将这些分子以具有一致的碱基与碱基间隔的超致密平行阵列(3nm链与链)排列在超薄膜上。电子显微镜用于对膜上的分子成像以确定重原子标记的位置并从DNA中提取碱基序列信息。在PCT专利公开WO 2009/046445中进一步描述了该方法。该方法允许在小于十分钟内对完整的人类基因组进行测序。

在另一个实施方案中，DNA测序技术是Ion Torrent单分子测序，其在半导体芯片上将半导体技术与简单的测序化学对应，将化学编码信息(A、C、G、T)直接转化为数字信息(0、1)。在自然界中，当核苷酸通过聚合酶掺入到DNA链中时，氢离子作为副产物被释放。IonTorrent使用高密度阵列的微加工孔以大规模平行的方式进行该生化过程。每个孔容纳不同的DNA分子。孔下是一个离子敏感层，并在离子传感器之下。当将核苷酸(例如C)加入到DNA模板中，然后掺入到DNA的链中时，氢离子将被释放。该离子的电荷将改变溶液的pH，其可以由Ion Torrent的离子传感器检测。测序仪-基本上是世界上最小的固态pH计-调用碱基，直接从化学信息到数字信息。然后，Ion个人基因组机(PGM^TM)测序仪以一个接一个的核苷酸顺序地浸泡(floods)该芯片。如果浸泡芯片的下一个核苷酸不是匹配。将不会记录电压变化，并且也不会调用碱基。如果DNA链上有两个相同的碱基，则电压将为两倍，并且芯片将记录所调用的两个相同的碱基。直接检测允许在几秒内记录核苷酸掺入。

在另一个实施方案中，本方法包括使用通过杂交测序获得测试样本中核酸，例如母体测试样本中的cfDNA的序列信息。通过杂交测序包括使多个多核苷酸序列与多个多核苷酸探针接触，其中多个多核苷酸探针中的每一个可以任选地束缚到基质上。基质可以是包含已知核苷酸序列阵列的平面。与阵列杂交的模式可用于测定样本中存在的多核苷酸序列。在其他实施方案中，将每个探针束缚于珠，例如磁珠等。可以确定与珠的杂交并用于鉴定样本中的多个多核苷酸序列。

在本文描述的方法的一些实施方案中，定位序列标签包含约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的序列读取。预计技术进步将使得单端读取大于500bp，从而当生成配对末端读取时能够具有大于约1000bp的读取。在一个实施方案中，定位序列标签包含36bp的序列读取。通过将标签的序列与参考序列进行比较来实现序列标签的定位，以确定测序的核酸(例如，cfDNA)分子的染色体来源，并且不需要特定的遗传序列信息。可以允许少量错配(每个序列标签为0-2个错配)来解释混合样本中参考基因组和基因组之间可能存在的少量多态性。

通常每个样本获得多个序列标签。在一些实施方案中，从将读取定位到每个样本的参考基因组获得包含20至40bp读取(例如36bp)的至少约3×10⁶个序列标签、至少约5×10⁶个序列标签、至少约8×10⁶个序列标签、至少约10×10⁶个序列标签、至少约15×10⁶个序列标签、至少约20×10⁶个序列标签、至少约30×10⁶个序列标签、至少约40×10⁶个序列标签，或至少约50×10⁶个序列标签。在一个实施方案中，所有的序列读取都定位到参考基因组的所有区域。在一个实施方案中，计数已经定位到参考基因组的所有区域(例如，所有染色体)的标签，并且确定混合DNA样本中CNV，即目的序列，例如染色体或其部分的过度或不足的表现。该方法不需要在两个基因组之间进行区分。

在测序运行内样本之间定位到参考基因组的序列标签的数量变化(染色体间变异)，和不同测序运行中定位到参考基因组的序列标签的数量变化(测序间变异)基础上预测正确确定样本中存在或缺失CNV(例如，非整倍性)所需的准确性。例如，对于定位到富含GC或缺失GC的参考序列的标签，变化特别明显。可以通过使用用于提取和纯化核酸、制备测序文库的不同方案以及使用不同的测序平台产生其他变化。本方法基于归一化序列(归一化染色体序列或归一化区段序列)的知识使用序列剂量(染色体剂量或区段剂量)，以本质上说明由染色体间(运行内)，和测序间(运行间)和平台依赖的变异性引起的获得性变异。染色体剂量基于归一化染色体序列的知识，所述染色体序列可以由单条染色体或选自1-22号、X和Y染色体中的两条或多条染色体组成。或者，归一化染色体序列可以由单个染色体区段，或一条染色体或两条或多条染色体的两个或更多个区段组成。区段剂量基于归一化区段序列的知识，所述归一化区段序列可以由任何一个染色体的单个区段，或1-22号、X和Y染色体任意两条或多条的两个或更多个区段组成。

CNV和产前诊断

在母体血液中循环的无细胞胎儿DNA和RNA可用于越来越多的遗传状况的早期非侵入性产前诊断(NIPD)，两者用于怀孕管理和辅助生殖决策。已知在血流中循环的无细胞DNA的存在超过50年。最近，怀孕期间母体血液中发现少量循环胎儿DNA的存在(Lo等,Lancet 350:485-487[1997])。思想起源于死亡的胎盘细胞，已显示无细胞胎儿DNA(cfDNA)由通常少于200bp的短片段组成Chan等,Clin Chem 50:88-92[2004])，其可以早在妊娠4周即可辨别(Illanes等,Early Human Dev 83:563-566[2007])，并且已知在分娩后数小时内从母体循环中清除(Lo等,Am J Hum Genet 64:218-224[1999])。除了cfDNA之外，还可以在母体血流中鉴别出无细胞胎儿RNA(cfRNA)的片段，其源自在胎儿或胎盘中转录的基因。从母体血液样本中提取并随后分析这些胎儿遗传因子为NIPD提供了新的机会。

本方法是一种不依赖多态性的方法，其用于NIPD，并且不要求将胎儿cfDNA与母体cfDNA区分开来以确定胎儿非整倍性。在一些实施方案中，非整倍性是完整的染色体三体性或单体性，或部分三体性或单体性。部分非整倍性是由染色体的部分损失或获得引起的，并且包含由不平衡易位、不平衡反转、缺失和插入引起的染色体不平衡。到目前为止，与生命兼容的最常见的已知非整倍体是21三体性，即唐氏综合征(DS)，其是由存在21号染色体的部分或全部引起的。稀有的是，DS可以由遗传或散在缺陷引起，由此21号染色体的全部或部分的额外拷贝开始附着另一条染色体(通常是14号染色体)以形成单条异常染色体。DS与智力障碍、严重的学习困难和长期健康问题如心脏病引起的过高死亡率相关。具有已知临床意义的其他非整倍性包括Edward综合征(18三体性)和Patau综合征(13三体性)，其在生命的头几个月内通常是致命的。与性染色体数量相关的异常也是已知的，并且包括X单体性，例如Turner综合征(XO)和女性出生中的三重X综合征(XXX)和男性出生中的Kleinefelter综合征(XXY)和XYY综合征，其均为与各种表型有关，包括不育和智力技能的降低。X单体性[45，X]是早期妊娠损失的常见原因，约占自然流产的7％。基于1-2/10,000的45,X(也称为Turner综合征)胎生频率，据估计，低于1％的45,X受孕将存活至终老。Turners综合征患者中约30％与45,X细胞系和46,XX细胞系或含有重排X染色体的一个镶嵌(Hook和Warburton1983)。考虑到高胚胎致死率，胎生婴儿的表型相对温和，并且已经假设可能所有具有Turner综合征的胎生女性携带含有两条性染色体的细胞系。X单体性可以发生在女性中，如45,X或45,X/46XX，并且在男性中为45,X/46XY。人类常染色体单体性通常被认为与生命不相容；然而，有相当多的细胞遗传学报告描述了胎生儿童中一条21号染色体的完全单体性(Vosranova I等,Molecular Cytogen.1:13[2008]；Joosten等,Prenatal Diagn.17:271-5[1997]。本文所述的方法可用于在产前诊断这些和其他染色体异常。

根据一些实施方案，本文公开的方法可以确定1-22号、X和Y染色体中任一染色体三体性的存在或缺失。根据本方法可以检测的染色体三体性的实例包括但不限于21三体性(T21；唐氏综合征)、18三体性(T18；Edward’s综合征)、16三体性(T16)、20三体性(T20)、22三体性(T22；Cat Eye综合征)、15三体性(T15；Prader Willi综合征)、13三体性(Patau综合征)、8三体性(T8；Warkany综合征)、9三体性和XXY(Kleinefelter综合征)、XYY或XXX三体性。以非镶嵌状态存在的其他常染色体的完整三体性是致命的，但是当以镶嵌状态存在时可以与生命相容。应当理解，根据本文提供的教导，可以在胎儿cfDNA中确定各种完全三体性(无论是以镶嵌还是非镶嵌状态存在)，和部分三体性。

可以通过本发明方法确定的部分三体性的非限制性实例包括但不限于部分1q32-44三体性、9p三体性、三体性4镶嵌、17p三体性、4q26-qter部分三体性、部分2p三体性、部分三体性1q，和/或部分三体性6p/单体性6q。

本文公开的方法还可用于确定已知涉及怀孕流产的染色体单体性X、染色体单体性21和部分单体性如13单体性、15单体性、16单体性、21单体性和22单体性。也可以通过本文所述的方法来确定通常涉及完全非整倍性的染色体的部分单体性。可以根据本方法确定的缺失综合征的非限制性实例包括由染色体的部分缺失引起的综合征。可以根据本文描述的方法确定的部分缺失的实例包括但不限于以下描述的1、4、5、7、11、18、15、13、17、22和10号染色体的部分缺失。

1q21.1缺失综合征或1q21.1(复发)微缺失是1号染色体的罕见畸变。除了缺失综合征外，还有1q21.1复制综合征。虽然在特定点上缺少缺失综合征的DNA的一部分，但是在复制综合征的同一点上有两个或三个拷贝的DNA的相似部分。文献涉及作为1q21.1拷贝数变化(CNV)的缺失和复制。1q21.1缺失可能与TAR综合征有关(缺少radius的血小板减少症)。

Wolf-Hirschhorn综合征(WHS)(OMIN#194190)是与染色体4p16.3的半合子缺失相关的连续基因缺失综合征。Wolf-Hirschhorn综合征是先天性畸形综合征，其特征在于产前和出生后生长不足、不同程度的发育不全、特征性颅面特征(‘希腊战士头盔’(‘Greekwarrior helmet’)鼻子外观、高前额、突出的印堂、hypelorism、高拱形眉毛、突出的眼睛、内眦赘皮、短人中、侧门牙下降的特殊嘴，和小颌)和癫痫发作障碍。

5号染色体的部分缺失(也称为5p-或5p减，并称为Cris du Chat综合征(OMIN#123450))是由5号染色体短臂(p臂)的缺失引起的(5p15.3-p15)。具有这种情况的婴儿经常会发出高呼，其听起来像一只猫。这种病症的特征是智力障碍和延迟发育、小头(小头症)、低出生体重和在婴儿期肌肉张力弱(张力减退)、特征性的面部特征和可能的心脏缺陷。

Williams-Beuren综合征(也被称为染色体7q11.23缺失综合征(OMIN 194050))是一种连续的基因缺失综合征，其导致由染色体7q11.23(其含有约28个基因)上1.5-1.8Mb的半合子缺失引起的多系统病症。

Jacobsen综合征(也称为11q缺失病症)是由包括11q24.1带的11号染色体末端区域的缺失引起的罕见的先天性病症。其可引起智力障碍、独特的面部外观，以及多种身体问题，包括心脏缺陷和出血性病症。

18号染色体的部分单体性(被称为单体性18P)是罕见的染色体病症，其中18号染色体的短臂(p)的全部或部分缺失(单体性)。这种病症的特征通常是身材矮小、不同程度的精神发育迟滞、言语延迟、颅骨和面部(颅面)区域畸形和/或额外的身体异常。相关颅面缺损根据案例不同在范围和严重性上变化很大。

15号染色体的结构或拷贝数变化引起的状况包括Angelman综合征和Prader-Willi综合征，其涉及15号染色体的相同部分，15q11-q13区域的基因活性丧失。应当理解，几种易位和微缺失可能在载体患者中无症状，但可能在后代中引起重大遗传性疾病。例如，携带15q11-q13微缺失的健康母亲可以生育一个患有Angelman综合征的儿童，这是一种严重的神经变性疾病。因此，本文描述的方法、装置和系统可用于鉴定胎儿中的这种部分缺失和其他缺失。

部分单体性13q是当13号染色体长臂(q)的一块缺失(单体性)时产生的稀有染色体病症。出生时具有部分单体性13q的婴儿可能会出现低出生体重、头部和脸部(颅面部区域)畸形、骨骼异常(特别是手和脚)和其他身体异常。智力迟钝是这种状况的特征。婴儿期的死亡率在出生具有这种病症的个体中很高。几乎所有的部分单体性13q病例都是随机发生的，没有明显的原因(散发的)。

Smith-Magenis综合征(SMS-OMIM#182290)是由17号染色体一个拷贝上的遗传物质的缺失或丢失引起的。这种众所周知的综合征与发育迟缓、智力迟钝、先天性异常如心脏和肾脏缺陷，和神经行为异常，如严重的睡眠障碍和自我伤害行为相关。大多数情况(90％)下，Smith-Magenis综合征(SMS)是由17p11.2染色体中的3.7-Mb中间缺失引起的。

22q11.2缺失综合征(也称为DiGeorge综合征)是由一小块22号染色体缺失引起的综合征。缺失(22q11.2)发生在染色体对之一的一条长臂上染色体中间附近。这种综合征的特征差别很大，即使是在同一家庭的成员之间，并且影响身体的许多部分。特征性体征和症状可能包括出生缺陷，如先天性心脏病、腭裂缺陷，最常见与关闭神经肌肉问题(腭咽闭合不良)相关、学习障碍、面部特征轻度差异和复发性感染。染色体区域22q11.2中的微缺失与精神分裂症风险增加20至30倍相关。

10号染色体短臂的缺失与DiGeorge综合征样表型有关。染色体10p的部分单体性是罕见的，但已经在显示DiGeorge综合征特征的部分患者中观察到。

在一个实施方案中，本文描述的方法、装置和系统用于确定部分单体性，包括但不限于1、4、5、7、11、18、15、13、17、22和10号染色体的部分单体性，也可以使用该方法确定例如部分单体性1q21.11、部分单体性4p16.3、部分单体性5p15.3-p15.2、部分单体性7q11.23、部分单体性11q24.1、部分单体性18p、15号染色体的部分单体性(15q11-q13)、部分单体性13q、部分单体性17p11.2、22号染色体的部分单体性(22q11.2)，和部分单体性10p。

可以根据本文所述的方法测定的其他部分单体性包括不平衡易位t(8；11)(p23.2；p15.5)；11q23微缺失；17p11.2缺失；22q13.3缺失；Xp22.3微缺失；10p14缺失；20p微缺失、[del(22)(q11.2q11.23)]、7q11.23和7q36缺失；1p36缺失；2p微缺失；1型神经纤维瘤病(17q11.2微缺失)、Yq缺失；4p16.3微缺失；1p36.2微缺失；11q14缺失；19q13.2微缺失；Rubinstein-Taybi(16p13.3微缺失)；7p21微缺失；Miller-Dieker综合征(17p13.3)；和2q37微缺失。部分缺失可以是染色体部分的少量缺失，或他们可以是其中可以发生单个基因缺失的染色体的微缺失。

已经鉴定了由染色体臂部分复制引起的若干复制综合征(参见OMIN[OnlineMendelian Inheritance in Man viewed online at ncbi.nlm.nih.gov/omim])。在一个实施方案中，本方法可用于确定1-22号、X和Y染色体中任何一个的区段的复制和/或增殖的存在或缺失。可以根据本方法确定的复制综合征的非限制性实例包括以下描述的8、15、12和17号部分染色体的复制。

8p23.1复制综合征是由人类8号染色体的区域复制引起的罕见的遗传病症。这种复制综合征在64,000例出生时的估计患病率为1，并且是8p23.1缺失综合征的倒数。8p23.1复制与可变表型相关，所述可变表型包括一种或多种语言延迟、发育迟缓、轻度畸形、突出的前额和拱形眉毛以及先天性心脏病(CHD)。

染色体15q复制综合征(Dup15q)是由染色体15q11-13.1的复制引起的临床可鉴定综合征。Dup15q的婴儿通常具有张力减退(肌张力差)、生长迟缓；它们可能出生时可能具有唇裂和/或腭裂或心脏、肾脏或其他器官的畸形；他们表现出一定程度的认知延迟/残疾(智力迟钝)、言语和语言延迟以及感觉加工障碍。

Pallister Killian综合征是额外的#12染色体材料的结果。通常有细胞混合物(镶嵌)，一些具有额外的#12材料，而一些是正常的(46条染色体，没有额外的#12材料)。具有这种综合征的婴儿有许多问题，包括重度精神发育迟缓、肌张力差、“粗糙”面部特征和突出的额头。他们倾向于具有非常薄的上唇，具有较厚的下唇和短鼻子。其他健康问题包括癫痫发作、喂养不良、关节僵硬、成年白内障(cataracts)、听力损失和心脏缺陷。患有Pallister Killian的人寿命缩短。

具有指定为dup(17)(p11.2p11.2)或dup 17p的遗传状况的个体携带17号染色体的短臂上额外的遗传信息(称为复制)。染色体17p11.2的复制构成了Potocki-Lupski综合征(PTLS)的基础，这是一种新认可的遗传状况，只有几十例病例在医学文献中报道。具有这种复制的患者通常肌张力差、喂养不良，并且在婴儿期未能生长发育，并还呈现运动和语言标志的延迟发育。有PTLS的许多个体难以清晰发音和语言加工。此外，患者可能具有与在自闭症或自闭症谱系病症患者中见到的相似的行为特征。具有PTLS的个体可能有心脏缺陷和睡眠呼吸暂停。已知包含基因PMP22的染色体17p12中的大区域复制引起Charcot-MarieTooth疾病。

CNV与死胎有关。然而，由于常规细胞遗传学的固有限制，CNV对死胎的贡献被认为是代表性不足的(Harris等,Prenatal Diagn 31:932-944[2011])。如在实施例中所示和本文别处所述，本方法能够确定部分非整倍性的存在，例如染色体区段的缺失和增殖，并且可以用于鉴定和确定与死胎相关的CNV的存在或缺失。

确定临床病症的CNV

除了早期确定出生缺陷之外，本文所述的方法可以应用于确定基因组内遗传序列表现中的任何异常。基因组内遗传序列表现的许多异常已经与各种病理学相关联。这些病理学包括但不限于癌症、感染性和自身免疫疾病、神经系统疾病、代谢和/或心血管疾病等。

因此，在多个实施方案中，考虑了本文所述的方法在诊断，和/或监测和或治疗这些病理学中的用途。例如，该方法可以应用于确定疾病的存在或缺失，监测疾病的进展和/或治疗方案的功效，确定病原体，例如病毒的核酸的存在或缺失；确定与移植物抗宿主病(GVHD)相关的染色体异常，以及确定个体在法医分析中的贡献。

癌症中的CNV

已经显示来自癌症患者的血浆和血清DNA含有可测量量的肿瘤DNA，其可以被回收并用作肿瘤DNA的替代来源，并且肿瘤的特征在于非整倍性，或不合适的基因序列数量或甚至整条染色体。可以将来自个体的样本中的给定序列，即目的序列的量中的差异的确定用于医疗状况的预后或诊断。在一些实施方案中，本方法可用于确定疑似或已知患有癌症的患者中染色体非整倍性的存在或缺失。

本文中的一些实施方式提供了下述方法，其基于利用配对末端方法使用样本的浅测序并使用从配对末端读取获得的片段大小信息的循环cfDNA样本检测癌症，跟踪治疗反应和最小残留疾病的以鉴定在正常细胞背景中来自癌症细胞的差异甲基化凋亡DNA的存在。已经显示在一些癌症中，肿瘤衍生的cfDNA比非肿瘤衍生的cfDNA短。因此，本文描述的基于大小的方法可用于确定包括与这些癌症相关的非整倍性的CNV，使得能够(a)检测在筛选或诊断背景中存在的肿瘤；(b)监测对治疗的反应；(c)监测最小残留疾病。

在某些实施方案中，非整倍性是受试者的基因组的特征，并且导致癌症普遍增加的易感性。在某些实施方案中，非整倍性是特定细胞(例如，肿瘤细胞、原始肿瘤赘生细胞等)，其具有或具有增加的对瘤形成的倾向。特定的非整倍性与下文所述的特定癌症或对特定癌症的倾向相关。在一些实施方案中，非常浅的配对末端测序方法可以用于以成本有效的方式检测/监测癌症存在。

因此，本文描述的方法的多个实施方案提供了在来自受试者的测试样本中确定目的序列，例如临床相关序列的拷贝数变化，在所述受试者中拷贝数的某些变化提供了癌症存在和/或倾向性的指示。在某些实施方案中，样本包含衍生自两种或多种类型细胞的核酸混合物。在一个实施方案中，核酸的混合物衍生自患有医学状况，例如癌症的受试者的正常和癌细胞。

癌症的发展通常伴随着整个染色体数量的改变，即完全染色体非整倍性，和/或染色体区段数量的变化，即部分非整倍性，其由称为染色体不稳定性(CIN)的过程引起(Thoma等,Swiss Med Weekly 2011:141:w13170)。据信许多实体瘤，如乳腺癌，通过若干遗传畸变从起始到转移进展。[Sato等,Cancer Res.,50:7184-7189[1990]；Jongsma等,J ClinPathol:Mol Path 55:305-309[2002])]。这些遗传畸变随着其积累可能赋予增殖优势、遗传稳定性和快速发展耐药性的伴随能力，和增强的血管发生、蛋白水解和转移。遗传畸变可能影响隐性“肿瘤抑制基因”或主要起作用的致癌基因。据信导致杂合性丧失(LOH)的缺失和重组通过揭示突变的肿瘤抑制基因等位基因而在肿瘤进展中起主要作用。

已经在诊断患有恶性肿瘤的患者的循环中发现了cfDNA，所述恶性肿瘤包括但不限于肺癌(Pathak等Clin Chem 52:1833-1842[2006])、前列腺癌(Schwartzenbach等ClinCancer Res 15:1032-8[2009])和乳腺癌(Schwartzenbach等，可在breast-cancer-research.com/content/11/5/R71[2009]在线获得)。鉴定与可以在癌症患者循环cDNA中确定的癌症相关的基因组不稳定性是潜在的诊断和预后工具。在一个实施方案中，本文描述的方法用于确定样本，例如包含衍生自被怀疑或已知患有癌症，例如癌、肉瘤、淋巴瘤、白血病、生殖细胞肿瘤和胚细胞瘤的受试者的核酸的混合物的样本中一个或多个目的序列的CNV。在一个实施方案中，样本是来源(加工)于外周血的血浆样本，所述外周血包含源自正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中，需要确定CNV是否存在的生物样本来源于细胞，如果存在癌症，所述细胞包含来自其他生物组织的癌和非癌细胞的混合物，所述生物组织包括但不限于不限于生物流体如血清、汗液、眼泪、痰液、尿液、痰液、耳流液、淋巴、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫颈灌洗液、脑液、腹水、牛奶、呼吸道，肠道和泌尿生殖道分泌物、和白细胞样本，或组织活组织检查、拭子或涂片。在其他实施方案中，生物样本是粪便(粪便)样本。

本文描述的方法不限于对cfDNA的分析。将认识到可以对细胞DNA样本进行类似的分析。

在多个实施方案中，目的序列包括已知或怀疑在癌症的发展和/或进展中发挥作用的核酸序列。目的序列的实例包括核酸序列，例如完整染色体和/或染色体的区段，其如下所述在癌细胞中被扩增或缺失。

CNV总数和癌症风险。

常见的癌症SNP和类似的常见癌症CNV可能各自只能赋予疾病风险的轻微增加。然而，它们统一地可能引起癌症的风险显著升高。在这方面，注意到大DNA区段的种系获得和丧失已经被报道为使个体成为成神经细胞瘤、前列腺和结肠直肠癌、乳腺癌和BRCA1相关卵巢癌的因素(参见例如Krepischi等Breast Cancer Res.,14:R24[2012]；Diskin等Nature2009,459:987-991；Liu等Cancer Res 2009,69:2176-2179；Lucito等Cancer Biol Ther2007,6:1592-1599；Thean等Genes Chromosomes Cancer 2010,49:99-106；Venkatachalam等Int J Cancer 2011,129:1635-1642；和Yoshihara等Genes Chromosomes Cancer 2011,50:167-177)。值得注意的是，在健康人群中经常发现的CNV(常见CNV)被认为在癌症病因学中起作用(参见例如Shlien和Malkin(2009)Genome Medicine,1(6):62)。在一项测试常见CNV与恶性肿瘤相关的假说的研究中(Shlien等Proc Natl Acad Sci USA2008,105:11264-11269)，创建了每个已知的CNV的图谱，所述CNV的基因座与真正的癌症相关基因的基因座重合(由Higgins等Nucleic Acids Res 2007,35:D721-726编目)。这些被称为“癌症CNV”。在初步分析(Shlien等Proc Natl Acad Sci USA 2008,105:11264-11269)中，使用Affymetrix 500K阵列组评估了770个健康基因组，其具有5.8kb的平均探针间距离。由于CNV通常被认为在基因区域衰竭(Redon等(2006)Nature 2006,444:444-454)，所以惊奇地发现在大型参考群体中，在多于一个人中发现CNV直接包含或与CNV重叠的49种癌基因。在前十个基因中，可以在四个或更多的人中发现癌症CNV。

因此相信CNV频率可以用作癌症风险的量度(参见例如美国专利公开号：2010/0261183A1)。CNV频率可以简单地由生物体的组成型基因组确定，或者如果存在的话，它可以代表源自一个或多个肿瘤(赘生细胞)的部分。

在某些实施方案中，使用本文所述的用于拷贝数变化的方法确定测试样本(例如，包含组成(种系)核酸的样本)或核酸的混合物(例如，种系核酸和源自赘生细胞的核酸)中的许多CNV。鉴定测试样本中CNV的增加数量，例如与参考值相比，表明受试者中癌症的风险或遗传倾向。应当理解，参考值可以根据给定的群体而变化。还将理解，CNV频率的增加的绝对值将根据用于确定CNV频率和其他参数的方法的分辨率而变化。通常，确定表明癌症风险的至少约1.2倍参考值的CNV频率的增加(参见例如美国专利公开号：2010/0261183A1)，例如至少或约1.5倍参考值或更高，例如2-4倍参考值的CNV频率的增加是癌症风险增加的指标(例如，如与正常健康参考人群相比)。

与参考值相比，确定哺乳动物基因组中的结构变异也被认为是癌症风险的指示。在该背景下，在一个实施方案中，术语“结构变异”可以定义为哺乳动物中的CNV频率乘以哺乳动物平均CNV大小(bp)。因此，由于CNV频率增加和/或由于大的基因组核酸缺失或复制的发生而导致高结构变异分数。因此，在某些实施方案中，使用本文所述的方法确定测试样本中的许多CNV(例如，包含结构(种系)核酸的样本)以确定拷贝数变化的大小和数量。在某些实施方案中，基因组DNA内的大于约1兆碱基、或大于约1.1兆碱基、或大于约1.2兆碱基、或大于约1.3兆碱基、或大于约1.4兆基、或大于约1.5兆碱基、或大于约1.8兆碱基、或大于约2兆碱基DNA的总结构变异指示癌症的风险。

据信这些方法提供了任何癌症风险的量度，所述癌症包括但不限于急性和慢性白血病、淋巴瘤、间充质或上皮组织的许多实体瘤、脑、乳腺、肝、胃、结肠癌、B细胞淋巴瘤、肺癌、支气管癌、结肠直肠癌、前列腺癌、乳腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌、周围神经系统癌症、食管癌、宫颈癌、黑色素瘤、子宫或子宫内膜癌症、口腔癌或咽癌、肝癌、肾癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、脂肪肉瘤、睾丸癌和恶性纤维组织细胞瘤，以及其他癌症。

全染色体非整倍性。

如上所述，在癌症中存在高频率的非整倍性。在检查癌症中体细胞拷贝数变化(SCNA)的流行率的某些研究中，已经发现典型癌细胞基因组的四分之一受到全臂SCNA或非整倍性的全染色体SCNA的影响(参见例如，Beroukhim等Nature 463:899–905[2010])。在几种癌症类型中反复观察到全染色体改变。例如，在10-20％的急性骨髓性白血病(AML)以及一些实体瘤，包括Ewing’s肉瘤和纤维样肿瘤病例中观察到8号染色体的获得(参见例如，Barnard等Leukemia 10:5–12[1996]；Maurici等Cancer Genet.Cytogenet.100:106–110[1998]；Qi等Cancer Genet.Cytogenet.92:147–149[1996]；Barnard,D.R.等Blood 100:427–434[2002]；等。人类癌症中染色体获得和丧失的说明性但非限制性列表示于表2中。

表2.人类癌症中的说明性特异性，复发性染色体获得和丧失(参见例如，Gordon等 (2012)Nature Rev.Genetics,13:189-203)。

在多个实施方案中，本文描述的方法可用于检测和/或定量与癌症相关，一般与特定癌症相关的整条染色体非整倍性。因此，例如，在某些实施方案中，涵盖以表2所示的获得或丧失为特征的整条染色体非整倍性的检测和/或定量。

臂级染色体区段(arm level chromosomal seqment)拷贝数变化。

多项研究已经报道了多个癌症标本中臂级拷贝数变化的模式(Lin等Cancer Res68,664-673(2008)；George等PLoS ONE 2,e255(2007)；Demichelis等Genes ChromosomesCancer 48:366-380(2009)；Beroukhim等Nature.463(7283):899–905[2010])。已经另外观察到臂级拷贝数变化的频率随着染色体臂的长度而降低。针对这种趋势进行调整，大多数染色体臂都呈现出优先获得或丧失的强有力证据，但很少在多种癌症谱系中发现获得和丧失(参见，例如，Beroukhim等Nature.463(7283):899–905[2010])。

因此，在一个实施方案中，本文所述的方法用于确定样本中的臂级CNV(包括一个染色体臂或基本上一个染色体臂的CNV)。CNV可以在包含结构(种系)核酸的测试样本中的CNV中测定，并且臂级CNV可以在那些组成型核酸中鉴定。在某些实施方案中，在包含核酸(例如源自正常的核酸和源自赘生细胞的核酸)混合物的样本中鉴定(如果存在)臂级CNV。在某些实施方案中，样本源自怀疑或已知患有癌症的受试者，所述癌症例如是癌瘤、肉瘤、淋巴瘤、白血病、生殖细胞瘤、胚细胞瘤等。在一个实施方案中，样本是源自(加工自)外周血的血浆样本，其可以包含源自正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中，用于确定CNV是否存在的生物样本源自细胞，如果存在癌症，则其包含来自其他生物组织的癌性和非癌细胞的混合物，所述生物组织包括但不限于不限于生物流体如血清、汗液、眼泪、痰液、尿液、痰液、耳流液、淋巴、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫颈灌洗液、脑液、腹水、牛奶、呼吸道、肠道和泌尿生殖道分泌物和白细胞样本、或组织活组织检查、拭子或涂片。在其他实施方案中，生物样本是粪便(粪便)样本。

在多个实施方案中，鉴定为指示癌症存在或癌症风险增加的CNV包括但不限于表3中列出的臂级CNV。如表3中所说明，包含实质性臂级获得的某些CNV指示癌症的存在或某些癌症的风险增加。因此，例如，1q的获得指示急性成淋巴细胞性白血病(ALL)、乳腺癌、GIST、HCC、肺NSC、成神经管细胞瘤、黑色素瘤、MPD、卵巢癌和/或前列腺癌的存在或风险增加。3q的获得指示食管鳞状细胞癌、肺SC和/或MPD的存在或风险增加。7q的获得指示指示结肠直肠癌、神经胶质瘤、HCC、肺NSC、成神经管细胞瘤、黑色素瘤、前列腺癌和/或肾癌的存在或风险增加。7p的获得指示乳腺癌、结肠直肠癌、食管腺癌、神经胶质瘤、HCC、肺NSC、成神经管细胞瘤、黑色素瘤和/或肾癌的存在或风险增加。20q的获得指示乳腺癌、结肠直肠癌、去分化脂肪肉瘤、食管腺癌、食管鳞状细胞，神经胶质瘤癌、HCC、肺NSC、黑色素瘤、卵巢癌和/或肾癌的存在或风险增加等等。

类似地，如表3总所说明，包含实质性臂级丧失的某些CNV指示某些癌症的存在和/或风险增加。因此，例如，1p的丧失指示胃肠道间质瘤的存在或风险增加。4q的丧失指示结肠直肠癌、食管腺癌、肺sc、黑色素瘤、卵巢癌和/或肾癌的存在或风险增加。17p的丧失指示乳腺癌、结肠直肠癌、食管腺癌、HCC、肺NSC、肺SC和/或卵巢癌的存在或风险增加，等。

表3：16例癌症亚型(乳腺、结肠直肠、去分化脂肪肉瘤、食管腺癌、食管鳞状细胞癌、GIST(胃肠道间质瘤)、神经胶质瘤、HCC(肝细胞癌)、肺NSC、肺SC、成神经管细胞瘤、黑色素瘤、MPD(骨髓增殖性疾病)、卵巢癌、前列腺癌、急性成淋巴细胞白血病(ALL)和肾脏)每个中的重要臂级染色体区段拷贝数变化(参见例如Beroukhim等Nature(2010)463(7283): 899-905)。

臂级拷贝数变化之间的关联的实例旨在是说明性的而不是限制性的。其他手臂水平的拷贝数变化及其癌症关联性是本领域技术人员已知的。

较小的，例如局部(focal)，拷贝数变化。

如上所述，在某些实施方案中，本文所述的方法可用于确定染色体扩增的存在或缺失。在一些实施方案中，染色体扩增是一条或多条完整染色体的获得。在其他实施方案中，染色体扩增是染色体的一个或多个区段的获得。在又一其他实施方案中，染色体扩增是两条或多条染色体的两个或更多个区段的获得。在多个实施方案中，染色体扩增可能包括一种或多种致癌基因的获得。

与人实体瘤相关的主要作用基因通常通过过度表达或改变表达来发挥其作用。基因扩增是导致基因表达上调的常见机制。来自细胞遗传学研究的证据表明，在超过50％的人乳腺癌中发生明显扩增。最值得注意的是，位于17号染色体(17(17q21-q22))上的原癌基因人表皮生长因子受体2(HER2)的扩增导致HER2受体在细胞表面上的过度表达，导致乳腺癌和其他恶性肿瘤中过度和失调的信号传导(Park等,Clinical Breast Cancer 8:392-401[2008])。已经发现多种致癌基因在其他人类恶性肿瘤中扩增。人肿瘤中细胞致癌基因扩增的实例包括以下的扩增：前髓细胞性白血病细胞系HL60和小细胞肺癌细胞系中的c-myc、原代成神经细胞瘤(阶段III和IV)、成神经瘤细胞系、视网膜成神经细胞瘤细胞系和原发性肿瘤，和小细胞肺癌细胞系和肿瘤中的N-myc、小细胞肺癌细胞系和肿瘤中的L-myc、急性髓细胞样白血病和结肠癌细胞系中的c-myb、表皮样癌细胞和原发性神经胶质瘤中c-erbb、在肺、结肠、膀胱和直肠的原发性癌中的cK-ras-2、乳腺癌细胞系中的N-ras(VarmusH.,Ann Rev Genetics 18:553-612(1984)[在Watson等,Molecular Biology of the Gene(第4版；Benjamin/Cummings Publishing Co.1987)]中引用。

致癌基因的复制是许多类型癌症的常见原因，如P70-S6激酶1扩增和乳腺癌的情况。在这种情况下，遗传复制发生在体细胞中，并且仅影响癌细胞本身的基因组，而不影响整个生物体，更不用说任何随后的后代。在人类癌症中扩增的致癌基因的其他实例包括乳腺癌中的MYC、ERBB2(EFGR)、CCND1(细胞周期蛋白D1)、FGFR1和FGFR2，宫颈癌中的MYC和ERBB2，直肠结肠癌中的HRAS、KRAS和MYB，食管癌中的MYC、CCND1和MDM2，胃癌中的CCNE、KRAS和MET，成胶质细胞瘤中的ERBB1和CDK4，头与颈部癌中的CCND1、ERBB1和MYC，肝细胞癌中的CCND1，成神经细胞瘤中的MYCB，卵巢癌中的MYC、ERBB2和AKT2，肉瘤中的MDM2和CDK4，以及小细胞肺癌中的MYC。在一个实施方案中，本方法可用于确定与癌症相关的致癌基因的扩增的存在或缺失。在一些实施方案中，扩增的致癌基因与乳腺癌、宫颈癌、结肠直肠癌、食管癌、胃癌、成胶质细胞瘤、头与颈部癌、肝细胞癌、成神经细胞瘤、卵巢癌、肉瘤和小细胞肺癌相关。

在一个实施方案中，本方法可用于确定染色体缺失的存在或缺失。在一些实施方案中，染色体缺失是一条或多条完整染色体的丧失。在其他实施方案中，染色体缺失是染色体的一个或多个区段的丢失。在又一其他实施方案中，染色体缺失是两条或多条染色体的两个或更多个区段的丢失。染色体缺失可能包括一种或多种肿瘤抑制基因的丢失。

涉及肿瘤抑制基因的染色体缺失被认为在实体瘤的发生和进展中起重要作用。位于染色体13q14中的视网膜成神经细胞瘤肿瘤抑制基因(Rb-1)是最广泛表征的肿瘤抑制基因。Rb-1基因产物(105kDa的核磷蛋白)在细胞周期调控中明显地起重要作用(Howe等,ProcNatl Acad Sci(USA)87:5883-5887[1990])。Rb蛋白的改变或丢失表达是通过点突变或染色体缺失使两个基因等位基因失活引起的。已经发现Rb-i基因改变不仅存在于视网膜成神经细胞瘤中，还存在于其他恶性肿瘤例如骨肉瘤、小细胞肺癌(Rygaard等,Cancer Res 50:5312-5317[1990)])和乳腺癌中。限制性片段长度多态性(RFLP)研究已经表明，这种肿瘤类型在13q处经常丢失杂合性，提示Rb-1基因等位基因之一因严重的染色体缺失而丢失(Bowcock等,Am J Hum Genet,46:12[1990])。包括复制、缺失和不平衡易位的1号染色体(涉及6号染色体和其他伴侣染色体)异常表明1号染色体区域，特别是1q21-1q32和1p11-13可能携带与骨髓组织增殖赘生物的慢性和晚期病理相关的致癌基因或肿瘤抑制基因(Caramazza等,Eur J Hematol 84:191-200[2010])。骨髓组织增殖赘生物也与5号染色体的缺失相关。5号染色体的完全丢失或中间缺失是骨髓组织增殖综合征(MDS)中最常见的核型异常。分离的del(5q)/5q-MDS患者比具有额外核型缺陷(其倾向于发展骨髓组织增殖生物(MPN)和急性髓细胞样白血病)的预后更好。不平衡5号染色体缺失的频率导致了5q含有一个或多个在造血干细胞/祖细胞(HSC/HPC)的生长控制中具有主要作用的肿瘤抑制基因的想法。集中在5q31和5q32上的常见缺失区(CDR)的细胞遗传学定位鉴定了候选肿瘤抑制基因，包括核糖体亚基RPS14、转录因子Egr1/Krox20和细胞骨架重塑蛋白，α-连环蛋白(Eisenmann等,Oncogene 28:3429-3441[2009])。新鲜肿瘤和肿瘤细胞系的细胞遗传学和等位基因型研究已经显示来自染色体3p上若干不同区域，包括3p25、3p21–22、3p21.3、3p12–13和3p14的等位基因丢失是肺、乳腺、肾、头颈部、卵巢、子宫颈、结肠、胰腺、食管、膀胱和其他器官的广谱主要上皮癌中涉及的最早和最频繁的基因组异常。已经将几种肿瘤抑制基因定位于染色体3p区域，并且认为中间缺失或启动子超甲基化先于3p或整个3号染色体在癌发展中的丧失(Angeloni D.,Briefings Functional Genomics 6:19-39[2007])。

具有唐氏综合症(DS)的新生儿和儿童常常伴有先天性一过性白血病，并且急性髓细胞样白血病和急性成淋巴细胞性白血病的风险增加。携带约300个基因的21号染色体可能涉及许多结构畸变，例如白血病、淋巴瘤和实体瘤中的易位、缺失和扩增。此外，已经鉴定了位于21号染色体上的基因在肿瘤发生中起重要作用。体细胞数量以及21号染色体结构异常与白血病相关，而包括位于21q中的RUNX1、TMPRSS2和TFF的特定基因在肿瘤发生中发挥作用(Fonatsch C Gene Chromosomes Cancer 49:497-508[2010])。

鉴于上述情况，在多个实施方案中，本文所述的方法可用于确定已知包含一种或多种致癌基因或肿瘤抑制基因和/或已知与癌症或增加的癌症风险相关的区段CNV。在某些实施方案中，可以在包含结构(种系)核酸的测试样本中确定CNV，并且可以在那些组成型核酸中鉴定该区段。在某些实施方案中，在包含核酸(例如，源自正常细胞的核酸和源自赘生细胞的核酸)混合物的样本中鉴定区段CNV(如果存在)。在某些实施方案中，样本源自怀疑或已知患有癌症的受试者,所述癌症例如是癌瘤、肉瘤、淋巴瘤、白血病、生殖细胞瘤、胚细胞瘤等。在一个实施方案中，样本是源自(加工自)外周血的血浆样本，其可以包含源自正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中，用于确定CNV是否存在的生物样本源自细胞，如果存在癌症，则其包含来自其他生物组织的癌性和非癌细胞的混合物，所述生物组织包括但不限于不限于生物流体如血清、汗液、眼泪、痰液、尿液、痰液、耳流液、淋巴、唾液、脑脊液、ravages、骨髓悬液、阴道流液、宫颈灌洗液、脑液、腹水、牛奶、呼吸道、肠道和泌尿生殖道分泌物和白细胞样本、或组织活组织检查、拭子或涂片。在其他实施方案中，生物样本是粪便(粪便)样本。

用于确定癌症存在和/或癌症风险增加的CNV可以包括扩增或缺失。

在多个实施方案中，鉴定为指示癌症存在或癌症风险增加的CNV包括表4中所示的一种或多种扩增。

表4.以与癌症相关的扩增为特征的说明性但非限制性的染色体区段。列出的癌症类型是在Beroukhim等Nature 18:463:899-905中鉴定的那些。

在与上文(本文)所述的扩增结合或单独的某些实施方案中，鉴定为指示癌症存在或癌症风险增加的CNV包括表5中所示的一种或多种缺失。

表5.以与癌症相关的缺失为特征的说明性但非限制性的染色体区段。列出的癌症类型是在Beroukhim等Nature 18:463:899-905中鉴定的那些。

鉴定为特征为各种癌症的非整倍性(表4和5中鉴定的非整倍性)可以含有已知涉及癌症病原学(例如，肿瘤抑制物、致癌基因等)。还可以探测这些非整倍性以鉴定相关但先前未知的基因。

例如，Beroukhim等上文使用GRAIL(Gene Relationships Among ImplicatedLoci20)评估了拷贝数变化中潜在引起癌症的基因，所述GRAIL是搜索基因组区域之间功能关系的算法。GRAIL基于引用基因的所有文章的出版摘要之间的文本相似性，一些靶标基因将以共同途径起功能的概念评分基因组区域集合中各基因其与其他区域中的基因的“亲缘关系”。这些方法允许鉴定/表征以前与所述特定癌症无关的基因。表6说明了已知位于已鉴定的扩增区段和预测基因内的靶基因，并且表7说明已知在鉴定的缺失区段内的靶基因和预测的基因。

表6.已知或预测存在于以多种癌症扩增为特征的区域中的说明性但非限制性染色体区段和基因(参见例如，Beroukhim等上文)

表7.已知或预测存在于以多种癌症扩增为特征的区域中的说明性但非限制性染色体区段和基因(参见例如，Beroukhim等上文)

在多个实施方案中，预期使用本文所鉴定的方法来鉴定包含在表6中鉴定的扩增区域或基因的区段的CNV和/或使用本文鉴定的方法来鉴定包含在7中鉴定的缺失区域或基因的区段的CNV。

在一个实施方案中，本文所述的方法提供了评估基因扩增与肿瘤进展程度之间关联的方法。癌症的扩增和/或缺失与阶段或等级之间的关联性可能是预后重要的，因为这样的信息可能有助于基于遗传的肿瘤等级的定义，这将利用具有最差预后的更晚期肿瘤更好地预测未来的疾病进程。此外，关于早期扩增和/或缺失事件的信息可用于将这些事件作为随后疾病进展的预测因子。

通过该方法鉴定的基因扩增和缺失可以与流行病学和生物统计学研究中可获得的其他已知参数如肿瘤等级、组织学、Brd/Urd标记指数、激素状态、淋巴结累及(nodalinvolvement)、肿瘤大小、存活期和其他肿瘤性质相关联。例如，待通过该方法测试的肿瘤DNA可以包括非典型增生、原位导管癌、I-III期癌症和转移性淋巴结，以便允许鉴定扩增和缺失与阶段之间的关联。所进行的关联可使得能够可能有效的治疗干预。例如，始终扩增的区域可以含有过表达的基因，其产物能够在治疗上被攻击(例如，生长因子受体酪氨酸激酶p185^HER2)。

在多个实施方案中，本文描述的方法可用于通过确定来自原发癌的核酸序列与已经转移到其他位点的细胞的核酸序列的拷贝数变化来鉴定与耐药性相关的扩增和/或缺失事件。如果基因扩增和/或缺失是核型不稳定性的表现，其允许药物抗性的快速开发，预期来自化学抗性患者的原发性肿瘤中比在化学敏感患者中的肿瘤更多的扩增和/或缺失。例如，如果特定基因的扩增负责耐药性的开发，那么这些基因周围的区域将被期望在来自化疗抗性患者的胸膜腔积液的肿瘤细胞中始终扩增，而不能在原发性肿瘤中扩增。发现基因扩增和/或缺失与耐药性开发之间的关联性可以允许鉴定将从或不会从佐剂治疗中受益的患者。

以与用于确定母体样本中完整和/或部分胎儿染色体非整倍性的存在或缺失的方式类似的方式，本文所述的方法、装置和系统可用于确定包含核酸，例如DNA或cfDNA的任何患者样本(包括不是母体样本的患者样本)中完整和/或部分染色体非整倍性的存在或缺失。患者样本可以是本文别处所述的任何生物样本类型。优选地，通过非侵入性方法获得样本。例如，样本可以是血液样本，或其血清和血浆级分。或者，样本可以是尿液样本或粪便样本。在又一其他实施方案中，样本是组织活检样本。在所有情况下，样本包含核酸例如cfDNA或基因组DNA，其被纯化，并使用前述的任何NGS测序方法进行测序。

可以根据本方法确定与癌症形成和进展相关的完整和部分染色体非整倍性。

在多个实施方案中，当使用本文所述的方法来确定数据的癌症的存在和/或增加的风险时，可以针对确定CNV的染色体进行数据的归一化。在某些实施方案中，可以针对确定CNV的染色体臂进行数据的归一化。在某些实施方案中，可以针对确定CNV的特定区段来进行数据的归一化。

除了CNV在癌症中的作用外，CNV与日益增多的常见复杂疾病有关，所述疾病包括人类免疫缺陷病毒(HIV)、自身免疫性疾病和一系列神经精神障碍。

感染性和自身免疫性疾病中的CNV

迄今为止，许多研究已经报道了在涉及炎症的基因中的CNV和免疫应答以及HIV、哮喘、Crohn’s病和其他自身免疫性疾病之间的关联(Fanciulli等,Clin Genet 77:201-213[2010])。例如，CCL3L1中的CNV已经涉及HIV/AIDS易感性(CCL3L1,17q11.2缺失)、类风湿性关节炎(CCL3L1,17q11.2缺失)和川崎病(CCL3L1,17q11.2复制)；已经报道HBD-2中的CNV易感染Crohn’s病(HDB-2,8p23.1缺失)和牛皮癣(HDB-2,8p23)；FCGR3B中的CNV显示易感染在系统性红斑狼疮(FCGR3B、1q23缺失、1q23复制)、Crohn’s(ANCA)-相关血管炎(FCGR3B，1q23缺失)中的肾小球肾炎，并增加了发生类风湿关节炎的风险。至少有两种已经显示与不同基因位点上的CNV相关的炎性或自身免疫性疾病。例如，Crohn’s疾病与HDB-2的低拷贝数相关，而且与编码p47免疫相关GTP酶家族成员的IGRM基因上游的常见缺失多态性相关。除了与FCGR3B拷贝数的相关性之外，还报道了SLE敏感性在具有较低拷贝数的补体成分C4的受试者之间显著增加。

已在多项独立研究中报道了GSTM1(GSTM1,1q23缺失)和GSTT1(GSTT1，22q11.2缺失)基因座上的基因组缺失与特应性哮喘风险增加之间的关联。在一些实施方案中，本文所述的方法可用于确定与炎症和/或自身免疫疾病相关的CNV的存在或缺失。例如，该方法可用于确定疑似患有HIV、哮喘或Crohn’s疾病的患者中CNV的存在。与这些疾病相关的CNV的实例包括但不限于在17q11.2、8p23.1、1q23和22q11.2的缺失，和17q11.2和1q23的复制。在一些实施方案中，本方法可用于确定基因中CNV的存在，所述基因包括但不限于CCL3L1、HBD-2、FCGR3B、GSTM、GSTT1、C4和IRGM。

神经系统的CNV疾病

已经在自闭症、精神分裂症和癫痫症，以及神经变性疾病，如帕金森病、肌萎缩性侧索硬化(ALS)和常染色体显性阿尔茨海默氏症的一些病例中报道了从头与遗传的CNV与几种常见的神经和精神疾病之间的关联(Fanciulli等,Clin Genet 77:201-213[2010])。已经在具有15q11-q13复制的自闭症和自闭症谱系障碍(ASD)患者中观察到细胞遗传学异常。根据Autism Genome project Consortium，154CNV包括染色体15q11-q13或，包括与ASD重叠的与Smith-Magenis综合征相关的区域中的染色体2p16、1q21和17p12的新基因组位置上的几个复发CNV。染色体16p11.2上的复发性微缺失或微复制已经突出显示了这样的观察结果，即基因，例如SHANK3(22q13.3缺失)、神经蛋白(neurexin)1(NRXN1,2p16.3缺失)和neuroglins(NLGN4，Xp22.33缺失，已知其调节突触分化并调节谷氨酸能神经递质释放的基因座处检测到从头CNV。精神分裂症也与多个从头CNV相关。与精神分裂症相关的微缺失和微复制包含属于神经发育和谷氨酸能通路的基因的超表达，提示影响这些基因的多个CNV可能直接促进精神分裂症的发病机制，例如ERBB4、2q34缺失、SLC1A3、5p13.3缺失；RAPEGF4、2q31.1缺失；CIT,12.24缺失；以及具有从头CNV的多个基因。CNV也与其他神经系统疾病有关，包括癫痫(CHRNA7,15q13.3缺失)、帕金森病(SNCA 4q22复制)和ALS(SMN1,5q12.2.-q13.3缺失；和SMN2缺失)。在一些实施方案中，本文所述的方法可用于确定与神经系统疾病相关的CNV的存在或缺失。例如，该方法可用于确定怀疑患有自闭症、精神分裂症、癫痫、神经变性疾病如帕金森病、肌萎缩性侧索硬化(ALS)或常染色体显性阿尔茨海默氏病的患者中CNV的存在。该方法可用于确定与包括但不限于自闭症谱系疾病(ASD)、精神分裂症和癫痫中的任何一种的神经系统疾病相关的基因的CNV，以及与神经变性疾病如帕金森病相关的基因的CNV。与这些疾病相关的CNV的实例包括但不限于在15q11-q13、2p16、1q21、17p12、16p11.2和4q22处的复制，以及在22q13.3、2p16.3、Xp22.33、2q34、5p13.3、2q31.1、12.24、15q13.3和5q12.2处的缺失。在一些实施方案中，该方法可用于确定基因包括但不限于SHANK3、NLGN4、NRXN1、ERBB4、SLC1A3、RAPGEF4、CIT、CHRNA7、SNCA、SMN1和SMN2中CNV的存在。

CNV和代谢或心血管疾病

已经在许多研究中报道了代谢和心血管性状，例如家族性高胆固醇血症(FH)、动脉粥硬化和冠状动脉疾病与CNV之间的关联(Fanciulli等,Clin Genet 77:201-213[2010])。例如，已经在不携带任何其他LDLR突变的一些FH患者中的LDLR基因(LDLR，19p13.2缺失/复制)处观察到种系重排，主要是缺失。另一实例是编码载脂蛋白(a)(apo(a))的LPA基因，其血浆浓度与冠状动脉疾病、心肌梗死(MI)和中风的风险相关。含有脂蛋白Lp(a)的apo(a)的血浆浓度在个体之间变化超过1000倍，并且在LPA基因座处遗传确定90％的这种变异性，其血浆浓度和Lp(a)同种型大小与‘kringle 4’重复序列(范围5-50)的高度变异数量成正比。这些数据表明，至少两种基因中的CNV可能与心血管风险相关。本文描述的方法可用于大型研究以专门搜索与心血管病症的CNV关联性。在一些实施方案中，本方法可用于确定与代谢或心血管疾病相关的CNV的存在或缺失。例如，本方法可用于确定怀疑患有家族性高胆固醇血症的患者中CNV的存在。本文描述的方法可用于确定与代谢或心血管疾病，例如高胆固醇血症相关的基因的CNV。与这些疾病相关的CNV的实例包括但不限于LDLR基因的19p13.2缺失/复制，以及LPA基因的增殖。

用于确定CNV的装置和系统

通常使用各种计算机执行的算法和程序来进行测序数据和衍生自其的诊断的分析。因此，某些实施方案采用涉及通过一个或多个计算机系统或其他处理系统存储或传送的数据的方法。本文公开的实施方案还涉及用于进行这些操作的装置。该装置可以为所需目的而专门构造，或者可以是由存储在计算机中的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中，一组处理器协同(例如，经由网络或云计算)和/或并行地执行所述分析操作中的一些或全部。用于执行本文描述的方法的处理器或处理器组可以是各种类型的，包括微控制器和微处理器诸如可编程设备(例如，CPLD和FPGA)以及非可编程设备诸如门阵列ASIC或通用微处理器。

此外，某些实施方案涉及有形和/或非暂时的计算机可读介质或计算机程序产品，其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的实例包括但不限于半导体存储设备、磁性介质，诸如磁盘驱动器、磁带，光学介质，诸如CD，磁光介质和硬件设备，其被特别地配置为存储和执行程序指令，例如只读存储设备(ROM)和随机存取存储器(RAM)。计算机可读介质可以由终端用户直接控制，或者介质可以由终端用户间接控制。直接控制的介质的实例包括位于用户设施的介质和/或不与其他实体共享的介质。间接控制的介质的实例包括经由外部网络和/或经由提供诸如“云”之类的共享资源的服务用户可间接访问的介质。程序指令的实例包括诸如由编译器产生的机器代码，以及包含可由计算机使用翻译器执行的较高级别代码的文件。

在多个实施方案中，在所公开的方法和装置中采用的数据或信息以电子格式提供。这样的数据或信息可以包括从核酸样本衍生的读取和标签、与参考序列的特定区域比对(例如，与染色体或染色体区段比对)的这种标签的计数或密度、参考序列(包括提供单独或主要多态性的参考序列)、染色体和区段剂量、调用，如非整倍性调用、归一化染色体和区段值、成对的染色体或区段和相应的归一化染色体或区段、辅导建议、诊断等。如本文所使用的，以电子格式提供的数据或其他信息可用于机器上的存储和机器之间的传输。通常，以数字形式提供电子格式的数据，并且可以以各种数据结构、列表、数据库等中的比特和/或字节存储。数据可以电子地，光学地等来体现。

一个实施方案提供了一种计算机程序产品，用于产生表明在测试样本中存在或缺失非整倍性，例如胎儿非整倍性或癌症的输出。计算机产品可以包含用于执行用于确定染色体异常的上述方法中的任何一种或多种的指令。如所解释的，计算机产品可以包括非暂时和/或有形的计算机可读介质，其具有记录在其上的计算机可执行或可编译逻辑(例如，指令)，用于使得处理器能够确定染色体剂量，并且在一些情况下，确定非整倍性存在还是缺失。在一个实例中，计算机产品包括具有记录在其上的计算机可执行或可编译逻辑(例如，指令)的计算机可读介质，用于使得处理器能够诊断胎儿非整倍性，包括：接收程序，用于从至少一部分来自母体生物样本的核酸分子接收测序数据，其中所述测序数据包括计算的染色体和/或区段剂量；用于从所述接收到的数据分析胎儿非整倍性的计算机辅助逻辑；以及用于生成表明所述胎儿非整倍性的存在、缺失或种类的输出的输出程序。

来自所考察的样本的序列信息可以定位到染色体参考序列，以鉴定任何一条或多条目的染色体中的每一条的多个序列标签，并鉴定所述任何一条或多条目的染色体中的每一条的归一化区段序列的多个序列标签。在多个实施方案中，例如，将参考序列存储在数据库，诸如关系数据库或对象数据库中。

应当理解，在大多数情况下，对于未受协助的人来执行本文公开的方法的计算操作是不实际的，或甚至是不可能的。例如，在没有计算设备的帮助的情况下，将来自样本的单个30bp读取定位到任何一条人类染色体可能需要多年的努力。当然，问题被复杂化是因为可靠的非整倍性调用通常需要定位数千(例如，至少约10,000)甚至数百万次读取到一条或多条染色体。

本文公开的方法可以使用用于评估测试样本中目的遗传序列的拷贝数的系统来进行。该系统包括：(a)用于接收来自测试样本的核酸的测序仪，提供来自样本的核酸序列信息；(b)处理器；和(c)一个或多个计算机可读存储介质，其上存储有用于在所述处理器上执行的指令，以进行用于鉴定任何CNV，例如染色体或部分非整倍性的方法。

在一些实施方案中，所述方法由其上存储有计算机可读指令的计算机可读介质指示，用于进行用于鉴定任何CNV，例如染色体或部分非整倍性的方法。因此，一个实施方案提供了一种计算机程序产品，其包括一个或多个计算机可读的非暂时性存储介质，其上存储有计算机可执行指令，当由计算机系统的一个或多个处理器执行时，其使计算机系统实现一种方法用于评估包含胎儿和母体无细胞核酸的测试样本中目的序列的拷贝数。该方法包括：(a)接收通过对测试样本中的无细胞核酸片段进行测序获得的序列读取；(b)使无细胞核酸片段的序列读取与包含目的序列的参考基因组比对，由此提供测试序列标签，其中所述参考基因组被分成多个箱体；(c)确定存在于所述测试样本中的无细胞核酸片段的大小；(d)基于从其获得标签的无细胞核酸片段的大小加权测试序列标签；(e)基于(d)的加权标签计算所述箱体的覆盖率；和(f)从所计算的覆盖率中鉴定目的序列中的拷贝数变化。在一些实施方式中，加权测试序列标签包括将覆盖率偏向从测试样本中一个基因组特征性的大小或大小范围的无细胞核酸片段获得的测试序列标签。在一些实施方式中，加权测试序列标签包括将值1分配给从大小或大小范围的无细胞核酸片段获得的标签，并将值0分配给其他标签。在一些实施方式中，该方法进一步包括在参考基因组的箱体，包括目的序列中确定片段大小参数的值，其包括测试样本中片段大小短于或长于阈值的多个无细胞核酸。这里，鉴定目的序列中的拷贝数变化包括使用片段大小参数的值以及(e)中计算的覆盖率。在一些实施方式中，系统被配置为使用上文讨论的各种方法和过程来评估测试样本中的拷贝数。

在一些实施方案中，指令可进一步包括自动记录与该方法有关的信息，例如染色体剂量以及在提供母体测试样本的人类受试者的患者医疗记录中胎儿染色体非整倍性的存在或缺失。患者医疗记录可以由例如实验室、医生办公室、医院、健康维护机构、保险公司或个人医疗记录网站维护。此外，基于处理器实施分析的结果，该方法可以进一步包括处方、启动和/或改变对从其获取母体测试样本的人受试者的治疗。这可能涉及对从受试者获取的附加样本执行一个或多个附加测试或分析。

也可以使用计算机处理系统执行公开的方法，所述计算机处理系统被适配或配置以执行用于鉴定任何CNV，例如染色体或部分非整倍性的方法。一个实施方案提供了一种计算机处理系统，其被适配或配置以执行如本文所述的方法。在一个实施方案中，该装置包括被适配或配置用于对样本中核酸分子的至少一部分进行测序以获得本文别处描述的序列信息的类型的测序装置。该装置还可以包括用于处理样本的组件。在本文其他地方描述了这些组件。

序列或其他数据可以直接或间接地输入计算机或存储在计算机可读介质上。在一个实施方案中，计算机系统直接偶合到读取和/或分析来自样本的核酸序列的测序装置。来自这些工具的序列或其他信息通过计算机系统中的界面来提供。或者，从序列存储源诸如数据库或其他存储库提供系统处理的序列。一旦可用于处理装置，存储设备或大容量存储设备至少暂时缓冲或存储核酸序列。此外，存储设备可以存储各种染色体或基因组等的标签计数。存储器还可以存储用于分析呈现序列或定位数据的各种例程和/或程序。这样的程序/例程可以包括用于执行统计分析的程序等。

在一个实例中，用户将样本提供到测序装置中。通过连接到计算机的测序装置收集和/或分析数据。计算机上的软件允许进行数据收集和/或分析。数据可以存储、显示(通过监视器或其他类似设备)和/或发送到另一个位置。计算机可以连接到互联网，其用于将数据发送到远程用户(例如，医生、科学家或分析者)使用的手持设备。应当理解，可以在传送之前存储和/或分析数据。在一些实施方案中，原始数据被收集并发送到将分析和/或存储数据的远程用户或装置。传送可以通过互联网发生，但也可以通过卫星或其他连接发生。或者，数据可以存储在计算机可读介质上，并且介质可以被运送到终端用户(例如，通过邮件)。远程用户可以在相同或不同的地理位置，包括但不限于建筑物、城市、州、国家或大陆。

在一些实施方案中，所述方法还包括收集关于多个多核苷酸序列(例如，读取、标签和/或参考染色体序列)的数据，并将数据发送到计算机或其他计算系统。例如，计算机可以连接到实验室设备，例如样本采集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后，计算机可以收集实验室设备收集的适用数据。数据可以在任何步骤，例如在发送之前、在发送期间，或与发送结合，或在发送之后实时收集存储在计算机上。数据可以存储在可以从计算机提取的计算机可读介质上。收集或存储的数据可以例如经由本地网络或诸如因特网的广域网从计算机发送到远程位置。在远程位置，可以对所发送的数据执行各种操作，如下所述。

在本文公开的系统、装置和方法中可以存储、传输、分析和/或操作的电子格式化数据的类型如下：

通过测试样本中的核酸获得的读取

通过将读取比对到参考基因组或其他参考序列或序列获得的标签

参考基因组或序列

序列标签密度-参考基因组或其他参考序列的两个或更多个区域(通常是染色体或染色体区段)中的每一个的标签的计数或数量

对特定目的染色体或染色体区段归一化染色体或染色体区段的标识

从目的染色体或区段获得的染色体或染色体区段(或其他区域)和相应的归一化染色体或区段的剂量

用于调用染色体剂量作为受影响、不受影响或无调用的阈值

染色体剂量的实际调用

诊断(与调用相关的临床情况)

来自调用和/或诊断的进一步测试的建议

来自调用和/或诊断的治疗和/或监测计划

可以使用不同的装置在一个或多个位置处获得、存储传送、分析和/或操纵这些各种类型的数据。处理选项范围广泛。在谱的一端，在其中处理测试样本的位置，例如医生办公室或其他临床设置存储和使用该信息的全部或大部分。在另一个极端情况下，在一个位置获得样本，在不同的位置进行处理和任选测序，比对读取并在一个或多个不同位置进行调用，并且在又一位置(其可以是其中获得样本的位置)准备诊断、建议和/或计划。

在多个实施方案中，利用测序装置产生读取，然后传动到远程位点，其中处理它们以产生非整倍数调用。在该远程位置，作为实例，读取与参考序列比对以产生标签，其被计数并分配给目的染色体或区段。同样在远程位置，使用相关的归一化染色体或区段将计数转换为剂量。在远程位置，剂量仍然进一步用于产生非整倍性调用。

在不同位置使用的处理操作如下：

样本收集

测序前的样本处理

测序

分析序列数据并导出非整倍性调用

诊断

向患者或医疗保健提供者报告诊断和/或调用

制定进一步处理、测试和/或监测的计划

执行计划

咨询

可以如本文别处所描述将这些操作中的任何一个或多个自动化。通常，序列数据的测序和分析以及导出非整倍性调用将被计算地执行。其他操作可以手动或自动执行。

其中可以进行样本收集的位置实例包括健康从业者办公室、诊所、患者家庭(其中提供样本收集工具或试剂盒)和移动医疗保健车辆。其中可以在测序之前进行样本处理的位置实例包括健康从业者办公室、诊所、患者家庭(其中提供样本处理装置或试剂盒)、移动医疗保健车辆和非整倍性分析设备供应商。可以进行测序的位置实例包括健康从业者办公室、诊所、健康从业者办公室、诊所、患者家庭(其中提供样本测序装置和/或试剂盒)、移动医疗保健车辆和非整倍性分析设备供应商。其中发生测序的位置可以被提供有用于以电子格式传送序列数据(通常读取)的专用网络连接。这种连接可以是有线或无线的，并且具有并且可以被配置为将数据发送到在传送到处理位点之前可以处理和/或聚合数据的位点。卫生组织如健康维护组织(HMO)可以维护数据聚合器。

可以在前述位置中的任何一个处或在专门用于分析核酸序列数据的计算和/或服务的另一个远程位点处执行分析和/或导出操作。这样的位置包括例如集群，诸如通用服务器场、非整倍性分析服务业务的设施等。在一些实施方式中，租赁或租用用于执行分析的计算装置。计算资源可以是处理器的互联网可访问集合的一部分，诸如通常称为云的处理资源。在一些情况下，计算由并行或大规模并行的一组处理器执行，这些处理器彼此是相关联的或不附带的。处理可以使用诸如群集计算、网格计算等的分布式处理来实现。在这样的实施方案中，计算资源集合的集群或网格形成由多个处理器或计算机组成的超级虚拟计算机，它们一起作用于执行本文所述的分析和/或推导。这些技术以及更常规的超级计算机可以用于处理如本文所述的序列数据。每种都是依赖于处理器或计算机的并行计算形式。在网格计算的情况下，这些处理器(通常是整个计算机)通过诸如Ethernet的常规网络协议由网络(私有、公共或因特网)连接。相反，超级计算机有通过本地高速计算机总线连接的许多处理器。

在某些实施方案中，在与分析操作相同的位置处产生诊断(例如，胎儿患有唐氏综合征或患者具有特定类型的癌症)。在其他实施方案中，它在不同的位置执行。在一些实例中，报告诊断是在其中采集样本的位置执行，尽管不一定是这种情况。其中可以产生或报告诊断和/或制定计划的位置的实例包括健康从业者办公室、诊所、计算机可访问的互联网位点以及手持设备，诸如手机、平板电脑、智能电话等，其具有到网络的有线或无线连接。其中进行辅导的位置的实例包括健康从业者办公室、诊所，计算机可访问的互联网位点、手持设备等。

在一些实施方案中，在第一位置处执行样本收集、样本处理和测序操作，并且在第二位置处执行分析和导出操作。然而，在一些情况下，在一个位置(例如，健康从业者办公室或诊所)收集样本集合，并且不同位置处执行样本处理和测序，所述不同位置任选地是其中发生分析和导出的相同位置。

在多个实施方案中，上述操作的序列可以由启动样本收集、样本处理和/或测序的用户或实体触发。在一个或多个这些操作已经开始执行之后，其他操作可以自然地遵循。例如，测序操作可能导致读取被自动收集并发送到处理装置，其然后经常自动且可能在无需进一步的用户干预下来引导非整倍性操作的序列分析和推导。在一些实施方式中，然后将该处理操作的结果自动地传送到处理向健康专业人员和/或患者报告信息的系统组件或实体，可能将重新格式化为诊断。正如所解释的，这些信息也可以被自动处理以产生治疗、测试和/或监测计划，可能还有咨询信息。因此，启动早期阶段操作可以触发头尾相接的序列，其中提供给健康专业人员、患者或其他有关方面诊断、计划、咨询和/或用于对身体状况上起作用的其他信息。即使整个系统的部分物理分离并且可能远离例如样本和序列装置的位置，这也是可以实现的。

图5显示了用于从测试样本产生调用或诊断的分散系统的一个实施方式。样本收集位置01用于从患者诸如孕妇或推定的癌症患者获得测试样本。然后将样本提供给处理和测序位置03，其中可以如上所述处理和测序测试样本。位置03包括用于处理样本的装置以及用于对经处理样本进行测序的装置。如本文别处所描述的测序结果是读取的集合，其通常以电子格式提供并提供给网络诸如因特网，其由图5中的参考号05指示。

将序列数据提供给其中执行分析和调用产生的远程位置07。该位置可以包括一个或多个强大的计算设备，例如计算机或处理器。在位置07的计算资源完成其分析并从接收到的序列信息产生调用之后，调用被中继回到网络05。在一些实施方式中，不仅在位置07处产生调用，还产生相关的诊断。调用和或诊断然后通过网络传送并返回到样本收集位置01，如图5所示。如所解释的，这仅仅是与产生调用或诊断相关联的各种操作如何在不同位置之间分割的许多变化之一。一个常见的变体包括在单个位置提供样本收集和处理以及测序。另一个变化涉及在与分析和调用产生相同的位置提供处理和测序。

图6详细说明了在不同位置执行各种操作的选项。在图6中描述的最精细意义上，下述操作的每个在单独的位置处执行：样本采集、样本处理、测序、读取比对、调用、诊断和报告和/或计划开发。

在聚集这些操作的一些的一个实施方式中，在一个位置处执行样本处理和测序，并在分隔的位置处执行读取比对、调用和诊断。参见通过参考字符A鉴定的图6的部分。在由图6中字符B鉴定的另一个实施方式中，在相同的位置执行样本采集、样本处理和测序。在该实施方式中，在第二位置处执行读取比对和调用。最后，在第三个位置处执行诊断和报告和/或计划开发。在图6中字符C所示的实施方式中，在第一位置处执行样本采集，在第二位置一起执行样本处理、测序、读取比对、调用和诊断，并且在第三个位置处执行报告和/或计划开发。最后，在图6中标记为D的实施方式中，在第一个位置处执行样本采集，在第二个位置处执行样本处理、测序、读取比对和调用，并且在第三位置处执行诊断和报告和/或计划管理。

一个实施方案提供了用于确定包含胎儿和母体核酸的母体测试样本中任何一种或多种不同完整胎儿染色体非整倍性的存在或缺失的系统，该系统包括用于接收核酸样本并提供来自样本的胎儿和母体核酸序列信息；处理器；以及包括用于在所述处理器上执行的指令的机器可读存储介质，所述指令包括：

(a)用于获得样本中所述胎儿和母体核酸的序列信息的代码；

(b)用于使用所述序列信息来计算鉴定选自1-22号、X和Y染色体的任何一条或多条目的染色体的任何一条的胎儿和母体核酸的序列标签的数量，并且鉴定所述任何一条或多条目的染色体的每一条的至少一条归一化染色体序列或归一化染色体区段序列的序列标签的数量的代码；

(c)使用为所述任何一条或多条目的染色体的每一条鉴定的所述序列标签的数量和为每一条归一化染色体序列或归一化染色体区段序列鉴定的所述序列标签的数量来计算任何一条或多条目的染色体的每一条的单个染色体剂量的代码；和

(d)用于比较任何一条或多条目的染色体的每一条的单个染色体剂量的每一个与一条或多条目的染色体的每一条的相应阈值，并由此确定样本中任何一种或多种完整不同胎儿染色体非整倍性的存在或缺失的代码。

在一些实施方案中，用于计算任何一条或多条目的染色体的每一条的单个染色体剂量的代码包括用于将所选目的染色体之一的染色体剂量计算为为所选目的染色体鉴定的序列标签的数量与为相应的所选目的染色体的至少一条归一化染色体序列或归一化染色体区段序列鉴定的序列标签的数量的比率。

在一些实施方案中，系统还包括用于重复计算任何一个或多个目的染色体的任何一个或多个区段的任何剩余染色体区段的每一个的染色体剂量的代码。

在一些实施方案中，选自1-22号、X和Y染色体的一条或多条目的染色体包含至少二十条染色体，其选自1-22号、X和Y染色体，并且其中所述指令包括用于确定至少二十种不同的完整胎儿染色体非整倍性存在或缺失的指令。

在一些实施方案中，所述至少一条归一化染色体序列是选自1-22号、X和Y染色体的一组染色体。在其他实施方案中，所述至少一条归一化染色体序列是选自1-22号、X和Y染色体的单条染色体。

另一个实施方案提供了用于确定包含胎儿和母体核酸的母体测试样本中任何一种或多种不同部分胎儿染色体非整倍性的存在或缺失的系统，该系统包括：用于接收核酸样本并提供来自样本的胎儿和母体核酸序列信息；处理器；以及包括用于在所述处理器上执行的指令的机器可读存储介质，所述指令包括：

(a)用于获得所述样本中所述胎儿和母体核酸的序列信息的代码；

(b)用于使用所述序列信息来计算鉴定选自1-22号、X和Y染色体的任何一条或多条目的染色体的任何一个或多个区段的胎儿和母体核酸的序列标签的数量，并且鉴定任何一条或多条目的染色体的所述任何一个或多个区段的每一个的至少一条归一化区段序列的序列标签的数量的代码；

(c)使用为任何一条或多条目的染色体的所述任何一个或多个区段的每一个鉴定的所述序列标签的数量和为所述归一化区段序列鉴定的所述序列标签的数量来计算任何一条或多条目的染色体的所述任何一个或多个区段的任何一个的单个染色体剂量的代码；和

(d)用于比较任何一条或多条目的染色体的所述任何一个或多个区段的每一个的单个染色体区段剂量的每一个与任何一条或多条目的染色体的所述任何一个或多个染色体区段的每一个的相应阈值，并由此确定所述样本中一种或多种不同部分胎儿染色体非整倍性的存在或缺失的代码。

在一些实施方案中，用于计算单个染色体区段剂量的代码包括用于将所选染色体区段之一的染色体区段剂量计算为为所选染色体区段鉴定的序列标签的数量与为所选染色体区段的相应的归一化区段序列鉴定的序列标签的数量的比率的代码。

在一些实施方案中，系统还包括用于重复计算任何一条或多条目的染色体的任何一个或多个区段的任何剩余染色体区段的每一个的染色体区段剂量的代码。

在一些实施方案中，系统还包括(i)用于为来自不同母体受试者的测试样本重复(a)-(d)的代码，和(ii)用于确定所述样本的每一个中任何一种或多种不同部分胎儿染色体非整倍性存在或缺失的代码。

在本文提供的任何系统的其他实施方案中，代码还包括用于自动记录如在提供母体测试样本的人类受试者的患者医疗记录中在(d)中确定的胎儿染色体非整倍性的存在或缺失的代码，其中使用处理器执行记录。

在本文提供的任何系统的一些实施方案中，配置测序仪以执行下一代测序(NGS)。在一些实施方案中，配置测序仪以使用具有可逆染料终止子的通过合成测序进行大规模并行测序。在其他实施方案中，配置测序仪以执行通过连接测序。在其他实施方案中，配置测序仪以进行单分子测序。

实施例

实施例1：初始和富集的测序文库的制备和测序

a.测序文库的制备-缩略方案(ABB)

所有测序文库，即初始和富集的文库，均由从母体血浆中提取的大约2ng纯化的cfDNA制备。使用NEBNext ^TM DNA Sample Prep DNA Reagent Set 1(Part No.E6000L；NewEngland Biolabs,Ipswich,MA)的试剂进行文库制备，如下用于

因为无细胞的血浆DNA在自然界中是片段化的，所以在血浆DNA样本上不通过雾化或超声进行进一步的片段化。根据

End Repair Module通过在1.5ml离心管中将cfDNA与NEBNext^TMDNA Sample Prep DNA Reagent Set 1中提供的5μl 10X磷酸化缓冲液，2μl脱氧核苷酸溶液混合物(每个dNTP 10mM)，1μl 1:5稀释的DNA聚合酶I，1μl T4DNA聚合酶和1μl T4多核苷酸激酶在20℃下孵育15分钟将包含在40μl中的约2ng纯化的cfDNA片段的突出端转换成磷酸化平末端。然后通过将反应混合物在75℃下孵育5分钟将酶热灭活。将混合物冷却至4℃，并使用10μl含有Klenow片段(3’-5’exo minus)的dA-tailing主混合物((NEBNext^TM DNASample Prep DNA Reagent Set 1)，并在37℃下孵育15分钟来完成平末端DNA的dA加尾。随后，通过将反应混合物在75℃下孵育5分钟将Klenow片段热灭活。在Klenow片段失活后，1μl的Illumina Genomic Adaptor Oligo Mix(Part No.1000521；Illumina Inc.,Hayward,CA)的1:5稀释液用于将Illumina接头(Non-Index Y-Adapters)连接到dA加尾的DNA，其使用NEBNext^TM DNA Sample Prep DNA Reagent Set 1中提供的4μl T4DNA连接酶，通过将反应混合物在25℃下孵育15分钟。将混合物冷却至4℃，并使用Agencourt AMPure XP PCR纯化系统(Part No.A63881；Beckman Coulter Genomics,Danvers,MA)中提供的磁珠，从未连接的接头，接头二聚体和其他试剂中纯化接头连接的cfDNA。使用

High-Fidelity Master Mix(25μl；Finnzymes,Woburn,MA)和与接头(Part No.1000537和1000537)互补的Illumina’s PCR引物(各自0.5μM)进行18个循环的PCR以选择性地富集接头连接的cfDNA(25μl)。使用NEBNext^TM DNA Sample Prep DNA Reagent Set 1中提供的Illumina Genomic PCR引物(Part Nos.100537和1000538)和Phusion HF PCR MasterMix，根据制造商的说明书，使接头连接的DNA进行PCR(98℃，30秒；98℃，10秒，65℃，30秒，和72℃，30秒，18个循环；最后在72℃延伸5分钟，并保持在4℃)。使用Agencourt AMPure XPPCR纯化系统(Agencourt Bioscience Corporation,Beverly,MA)，根据www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf上可得的制造商的说明书纯化扩增的产物。在40μl的Qiagen EB缓冲液中洗脱纯化的扩增产物，并使用用于2100Bioanalyzer(Agilent technologies Inc.,Santa Clara,CA)的Agilent DNA1000Kit分析所扩增的文库的浓度和大小分布。

b.测序文库的制备-全长方案

本文所述的全长方案基本上是Illumina提供的标准方案，并且仅在扩增文库的纯化中与Illumina方案不同。Illumina方案指示使用凝胶电泳纯化扩增的文库，而本文所述的方案使用磁珠用于相同的纯化步骤。使用用于

的NEBNext^TM DNA Sample PrepDNA Reagent Set 1(Part No.E6000L；New England Biolabs,Ipswich,MA)基本上根据制造商的说明书将从母体血浆提取的约2ng纯化的cfDNA用于制备初始测序文库。根据伴随NEBNext^TM Reagents for Sample Preparation(其用于使用

GAII测序基因组DNA文库)的方案进行所有步骤，除了最终的接头连接产物的纯化，其使用Agencourt磁珠和试剂而不是纯化柱进行。NEBNext^TM方案基本上遵循Illumina所提供的，其可以在grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf上获得。

根据

End Repair Module，通过在热循环仪中的200μl离心管中将40μl cfDNA与NEBNext^TM DNA Sample Prep DNA Reagent Set 1中提供的5μl 10X磷酸化缓冲液，2μl脱氧核苷酸溶液混合物(每个dNTP 10mM)，1μl1:5稀释的DNA聚合酶I，1μl T4DNA聚合酶和1μl T4多核苷酸激酶在20℃下孵育30分钟将包含在40μl中的约2ng纯化的cfDNA片段的突出端转换成磷酸化平末端。将样品冷却至4℃，并如下使用QIAQuick PCRPurification Kit(QIAGEN Inc.,Valencia,CA)中提供的QIAQuick柱进行纯化。将50μl反应转移到1.5ml离心管中，并加入250μl的Qiagen Buffer PB。将所得的300μl转移到QIAquick柱，其在离心管中于13,000RPM离心1分钟。利用750μl Qiagen Buffer PE洗涤柱，并再次离心。通过在13,000RPM额外离心5分钟去除残留的乙醇。通过离心在39μl QiagenBuffer EB中洗脱DNA。根据制造商的

dA-Tailing Module，使用16μl含有Klenow片段(3’-5’exo minus)的dA-tailing主混合物((NEBNext^TM DNA Sample Prep DNAReagent Set 1)，并在37℃下孵育30分钟来完成34μl平末端DNA的dA加尾。将样品冷却至4℃，并如下使用MinElute PCR Purification Kit(QIAGEN Inc.,Valencia,CA)中提供的柱进行纯化。将50μl反应转移到1.5ml离心管中，并加入250μl的Qiagen Buffer PB。将所得的300μl转移到MinElute柱，其在离心管中于13,000RPM离心1分钟。利用750μl QiagenBuffer PE洗涤柱，并再次离心。通过在13,000RPM额外离心5分钟去除残留的乙醇。通过离心在15μl Qiagen Buffer EB中洗脱DNA。根据

Quick Ligation Module，将10μl DNA洗脱物与1μl的1:5稀释的Illumina Genomic Adapter Oligo Mix(PartNo.1000521),15μl的2X Quick Ligation Reaction Buffer和4μl Quick T4DNA连接酶在25℃下孵育15分钟。将样品冷却至4℃，并如下使用MinElute柱进行纯化。向30μl反应中加入150μl Qiagen Buffer PE，并将全部体积转移到MinElute柱，转移到MinElute柱，其在离心管中于13,000RPM离心1分钟。利用750μl Qiagen Buffer PE洗涤柱，并再次离心。通过在13,000RPM额外离心5分钟去除残留的乙醇。通过离心在28μl Qiagen Buffer EB中洗脱DNA。使用NEBNext^TM DNA Sample Prep DNA Reagent Set 1中提供的Illumina GenomicPCR引物(Part Nos.100537和1000538)和Phusion HF PCR Master Mix，根据制造商的说明书，使23μl接头连接的DNA洗脱物进行18个PCR循环(98℃，30秒；98℃，10秒，65℃，30秒，和72℃，30秒，18个循环；最后在72℃延伸5分钟，并保持在4℃)。使用Agencourt AMPure XPPCR纯化系统(Agencourt Bioscience Corporation,Beverly,MA)，根据www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf上可获得的制造商的说明书纯化所扩增的产物。Agencourt AMPure XP PCR纯化系统去除未整合的dNTP，引物，引物二聚体，盐和其他污染物，并去除大于100bp的扩增子。从40μl的Qiagen EB缓冲液中的Agencourt珠上洗脱纯化的扩增产物，并使用用于2100Bioanalyzer(Agilenttechnologies Inc.,Santa Clara,CA)的Agilent DNA 1000Kit分析文库的大小分布。

C.根据缩略(a)和全长(b)方案制备的测序文库的分析

在图7A和7B中显示了由Bioanalyzer生成的电泳图。图7A显示了使用(a)中描述的全长方案从血浆样本M24228纯化的cfDNA制备的文库DNA的电泳图，并且图7B显示了使用(b)中描述的全长方案从血浆样本M24228纯化的cfDNA制备的文库DNA的电泳图。在两个图中，峰1和4分别表示15bp Lower Marker和1,500Upper Marker；峰上的数字表示文库片段的迁移时间；并且水平线表示积分(integration)的设定阈值。图7A中的电泳图显示了187bp的片段的小峰值和263bp片段的主峰，而图7B中的电泳图只显示了265bp的一个峰。峰面积的积分导致图7A中187bp峰的DNA的计算浓度为0.40ng/μl，图7A中263bp峰的DNA的浓度为7.34ng/μl，图7B中256bp峰的DNA的浓度为14.72ng/μl。已知连接到cfDNA的Illumina接头为92bp，当从265bp减去时，其表明cfDNA的峰值大小为173bp。187bp的小峰可能代表末端连接末端的两个引物的片段。当使用缩略方案时，从最终文库产物中消除线性双引物片段。缩略方案也消除了小于187bp的其他较小片段。在该实施例中，纯化的接头连接的cfDNA的浓度是使用全长方案产生的接头连接的cfDNA的浓度的两倍。已经注意到，接头连接的cfDNA片段的浓度总是大于使用全长方案获得的浓度(数据未显示)。

因此，使用缩略方案制备测序文库的优点在于所获得的文库始终仅包含在262-267bp范围内的一个主峰，而如通过代表cfDNA之外的峰的数量和迁移率所反映，使用全长方案制备的文库的质量是变化的。非cfDNA产物将占据流动室上的空间，并降低聚类扩增的质量以及随后的测序反应的成像，其是非整倍性状态的整体分配的基础。缩略方案显示不影响文库的测序。

使用缩略方案制备测序文库的另一个优点是平末端化，d-A加尾和接头连接的三个酶促步骤花费少于一小时完成，以支持快速非整倍体诊断服务的验证和实施。

另一个优点是在相同的反应管中进行平末端化，d-A加尾和接头连接的三个酶促步骤，从而避免可能导致材料损失的多次样本转移，并且更重要的是导致可能的样本混乱和样本污染。

实施例2

使用片段大小的非侵入性产前测试

介绍

自2011年底和2012年初开始商业推出以来，母体血浆中无细胞DNA(cfDNA)的非侵入性产前检测(NIPT)已经迅速成为筛选胎儿非整倍性高危孕妇的首选方法。该方法主要基于孕妇血浆中cfDNA的分离和测序，并计数与参考人类基因组的特定区域比对的cfDNA片段的数目(参考文献：Fan等,Lo等)。这些DNA测序和分子计数方法允许高精度测定基因组中每条染色体的相对拷贝数。在多项临床研究中已经重现了高灵敏度和特异性用于检测21，18和13三体性(参考文献,引用Gil/Nicolaides宏分析(meta-analysis))。

最近，另外的临床研究已经显示，这种方法可以扩展到一般产科人群。高危人群和平均危险人群之间的胎儿分数没有可检测的差异(参考文献)。临床研究结果表明，使用通过cfDNA测序分子计数的NIPT在两个群体中表现等同。已经证明了相对于标准血清筛选的阳性预测值(PPV)的统计学显著提高(参考文献)。与血清生物化学和颈部半透明度(nuchaltranslucency)测量相比，较低的假阳性检测结果显著降低了对侵入性诊断方法的需求(参见Larion等来自Abuhamad组的参考文献)。

由于在一般产科人群中良好的NIPT表现，工作流程简单性和成本现在已成为在一般产科人群中实施全染色体非整倍性检测的cfDNA测序的主要考虑因素(参考文献：ISPDDebate 1,Brisbane)。大多数NIPT实验室方法在文库制备和单末端测序之后利用聚合酶链反应(PCR)扩增步骤，其需要1000-2000万个独特的cfDNA片段以实现检测非整倍体的合理灵敏度。基于PCR的工作流程的复杂性和更深层次的测序要求已经限制了NIPT测定的潜力，并已经导致成本增加。

在这里证明，使用非常低的不需要PCR扩增的cfDNA输入的简单文库制备可以实现高分析灵敏度和特异性。无PCR方法简化了工作流程，改善了周转时间，并消除了PCR方法固有的偏差。无扩增工作流程可与配对末端测序相结合，以允许确定每个标签的片段长度和每个样本中的总胎儿分数。因为胎儿cfDNA片段比母体片段短[参考文献Quake 2010，也应该引用Lo的科学临床翻译文章]，从母体血浆中检测胎儿非整倍性可以更加强大和有效，需要更少的独特cfDNA片段。结合起来，在显著较低数量的cfDNA片段上以非常快的周转时间实现了改进的分析灵敏度和特异性。这可能允许NIPT以显著降低的成本进行，以促进在一般产科人群中应用。

方法

将外周血样本吸入BCT管(Streck，Omaha，NE，USA)，并运输到Redwood City的Illumina CLIA实验室用于商业NIPT测试。签署的患者同意书允许脱鉴定(de-identified)第二份血浆等分试样并将其用于临床研究，但从纽约州发送的患者样本除外。选择用于这项工作的血浆样本以包括具有一定范围的cfDNA浓度和胎儿分数的未受影响的和非整倍体的胎儿。

文库加工的简化

使用NucleoSpin 96孔血液纯化试剂盒(Macherey-Nagel,Düren,Germany)从900μL的母体血浆中提取cfDNA，其具有较小的修改以适应更大的裂解物输入。将分离的cfDNA直接进行测序文库加工，无需cfDNA输入的任何归一化。使用TruSeq PCR Free DNA文库试剂盒(Illumina,San Diego,CA,USA)制备测序文库，其具有双指标用于标记(barcoding)cfDNA片段用于样本鉴定。对文库方案的以下修改用于提高具有低浓度输入cfDNA的文库制备的兼容性。模板输入量增加，而末端修复、A加尾和连接主混合物和接头浓度降低。另外，在末端修复后，引入热灭活步骤以使酶失活，去除末端修复SPRI(供应商)后的珠纯化步骤，并且在连接SPRI后珠纯化步骤过程中的洗脱使用HT1缓冲液(Illumina)。

单个

STAR(Hamilton，Reno，NV，USA)液体处理器，配置有96通道头和8个1mL移液通道用于一次批量处理96个血浆样本。液体处理器通过DNA提取、测序文库制备和定量处理每个单独的血浆样本。用AccuClear(Biotium，Hayward，CA，USA)定量单个样本文库，并且用归一化的输入制备48个样本的库，产生32pM的最终浓度用于测序。

配对末端测序

使用采用2x36bp配对末端测序的Illumina NextSeq 500仪器，再加上用于测序样本条形码的16个循环进行DNA测序。共有364个样本经过8个独立的测序批次运行。

使用bcl2fastq(Illumina)将配对的DNA序列去多重化并使用bowtie2比对算法[参考文献.Landmead]将其定位到参考人基因组(hg19)。配对读取必须匹配待计数的正义链和反义链。超过定位质量得分10(Ruan等)的所有计数定位对(具有全局唯一的第一个读取)被分配到大小为100kb的非重复连续固定宽度的基因组箱体中。大约2％的基因组在独立的一组NIPT样本中显示出高度可变的覆盖率，并被排除在进一步的分析之外。

使用可从测序的cfDNA片段的两端各自定位位置得到的基因组位置信息和片段大小，为每个100kb窗口导出两个变量：(a)长度小于150个碱基对的短片段的总计数，以及(b)低于250个碱基对的所有片段集合内的80-150个碱基对之间的片段的分数。将片段的大小限制为小于150个碱基对富集源自胎盘的片段，其是胎儿DNA的代用品。短片段的级分表征血浆混合物中的相对胎儿cfDNA量。与针对该染色体为二体性的整倍体胎儿相比，来自三体性胎儿的CfDNA将预期具有较高分数的短读取定位到三体性染色体。

短片段的计数和分数被独立地归一化，以利用图2D所示的方法去除归因于基因组鸟嘌呤胞嘧啶(GC)含量的系统测定偏差和样本特异性变异。通过去除偏离整个染色体中位数的标准偏差超过3个稳健量度来调整归一化值。最后，对于两个变量中的每一个，将与目标染色体相关联的调整的归一化值与归一化参考染色体上的归一化值进行比较以构建t统计量。

来自每个配对末端测序运行的数据遵循四个步骤进行分析：1)读取转换，2)100kb分辨率下的特征合并(binning)，3)以100kb分辨率对每个特征(计数和分数)进行归一化，以及4)组合非整倍性检测的特征和得分。在步骤1中，将样本数据从各条形码去多重化，与基因组比对，并对序列质量进行过滤。步骤2，对于每个箱体，确定长度低于150个碱基对的短片段的总计数，和在250个碱基对之下的所有片段的集合内的80-150个碱基对之间的片段的分数。测定偏差和样本特异性变化在步骤3中被去除。最后，使用针对每个计数和分数的t检验来确定相对于参考的富集并对其进行评分，并将其组合用于非整倍性检测的最终得分。

检测胎儿全染色体非整倍性

我们测试了是否可以组合计数和分数数据以提高检测胎儿21三体性的能力。来自携带具有核型证实为21三体性的胎儿的孕妇的16份血浆样本和来自未受影响的妊娠的294份样本被随机分布在加工批次中，产生9个流动室用于测序。分别检查每个算法步骤，以确定每个步骤和步骤组合检测非整倍性的能力。将组合病例中用于胎儿非整倍性检测的最终得分定义为两个个体t统计量的平方和的平方根，并应用单个阈值以产生“检测到的非整倍性”相对于“未检测到的非整倍性”的调用。

计算胎儿分数

对于每个样本，使用大小[111,136bp]的片段的总数与基因组100kb箱体的子集中大小[165,175bp]的片段的总数的比率估计胎儿分数。使用携带已知男性胎儿的妇女的样本，确定最高的10％基因组箱体，其与来自X染色体拷贝数的胎儿分数具有最高相关性[参考文献Rava]。使用包括箱体选择和回归模型参数评估的留一交叉验证[REF]分析来计算基于片段大小的胎儿分数评估与来自已知男性胎儿中的X染色体的那些之间的相关性。然后使用来自片段大小比率的线性回归模型导出估计的胎儿分数。

结果

文库加工的简化

图8显示了与标准实验室工作流程相比，该新版本的NIPT的整体工作流程和时间表。用于血浆分离、cfDNA提取、文库构建、定量和汇集的整个96样本制备工作流程能够在单个Hamilton STAR上在小于6小时的总制备时间内处理样本。这比较9小时和两个HamiltonSTAR与在CLIA实验室中使用的基于PCR的方法。每个样本提取的cfDNA数量平均为60pg/μL，并且测序文库输出的产量与图9所示的cfDNA输入呈线性相关(R²＝0.94)。平均回收率大于70％(添加范围)，表明在SPRI珠纯化后，cfDNA的高效回收。每个测序运行使用去多重化的48个样本的归一化量，并且需要大约14个小时才能完成。唯一定位对配对读取的中位数为XXX M，其95％的样本高于YYY。

配对末端测序

每个48个样本批次的总测序时间在NextSeq 500上小于14小时。这比较了HiSeq2500上实验室流程的40小时(1个流动室，96个样本)或50小时(2个流动室，192个样本)。cfDNA片段两端的定位基因组位置提供了cfDNA片段大小信息。图10显示了从具有男性胎儿的妊娠的324个样本测量的cfDNA片段大小分布。定位于已知为整倍体且主要代表母体染色体的常染色体染色体的片段的大小由细曲线表示。插入物的平均大小为175bp，其中XX％的片段测量在100bp和200bp之间。粗曲线表示唯一产生于代表仅胎儿cfDNA片段的Y染色体的片段大小。来自Y染色体特异性序列的大小分布较小，平均167bp，具有较短片段大小的10个碱基周期。

由于cfDNA的较短片段富集胎儿DNA，因此预期使用仅较短片段的选择性分析将由于优先选择胎儿读取而增加相对胎儿代表(fetal representation)。图11显示了与小于150bp的配对末端读取的计数相比，来自定位的配对末端读取的总计数的相对胎儿分数。总体来说，与总计数相比，胎儿分数中位数增加了2倍，尽管方差有一些增加。发现150bp的大小截断(cutoff)提供了计数与胎儿代表对计数方差的增加的最佳的权衡(an optimumtradeoff for counts with an increase in fetal representation versus variancein the counts)。

检测胎儿全染色体非整倍性

测试每个可用的度量、总计数、小于150bp的计数、富集胎儿cfDNA的计数的分数(计数在80-150bp/计数<250bp之间)和较短片段计数与分数的组合区分三体性21样本与在21号染色体中的那些整倍体的能力。图12显示了每个这些度量的结果。总计数具有XX计数的中位数，而小于150bp的计数则具有YY计数的中位数。然而，如从图4A和4B可以看出，较小的计数显示21三体性与整倍体之间的较好分离，这主要是因为该度量富集了胎儿cfDNA。单独的分数几乎与区分非整倍性的总计数一样有效(图4C)，但是当与短片段计数组合使用(图4D)时，提供了相对于单独短片段计数的改善的区分。这表明该分数提供了增强检测21三体性的独立信息。当与使用具有PCR扩增和中位数为16M计数/样本的文库制备的当前CLIA实验室工作流程相比，无PCR的配对末端测序工作流程显示相当的性能，其具有显著更少的计数/样本(例如，6M计数/样本或更少)和更简单，更短的样本制备工作流程。

计算胎儿分数

使用来自怀有男性胎儿的妊娠的X染色体结果，归一化的染色体值可用于确定计数的胎儿分数(ClinChem ref)，并比较不同的cfDNA片段大小。使用来自X染色体的胎儿分数来校准一组140个样本的比率，并使用留一交叉验证来估计性能。图13显示了交叉验证的胎儿分数预测的结果，并证明了两个数据集之间的相关性，表明可以从任何样本，包括一旦已经测量了校准集后来自携带女性胎儿的妇女的样本中获得胎儿分数估计值。

讨论

已经证明，通过与配对末端DNA测序偶联的无PCR文库制备可以实现对母体血浆中cfDNA的胎儿非整倍性检测的高分析灵敏度和特异性。该方法简化了工作流程，提高了周转时间(图8)，并且应该消除PCR方法固有的一些偏差。配对末端测序允许确定片段长度大小和胎儿分数，与目前实现的商业方法相比，其可以进一步用于以显著降低标签计数来增强非整倍性的检测。无PCR的配对末端实施方式的性能似乎类似于使用多达标签数量的三倍的单末端测序方法。

文库加工的简化

无PCR的工作流程对于临床实验室具有几个优点。由于文库制备的高产率和线性行为，可以从单个样本文库浓度直接制备用于测序的归一化样本池。由此消除了文库制备过程的PCR扩增中固有的偏差。此外，不需要分离用于PCR前和PCR后活动的单独的液体处理程序；这减少了实验室的资本负担。这种简化的工作流程允许待在临床实验室的单班内制备样本批次，然后对其进行过夜测序和分析。总体来说，减少资本支出，减少“手头”时间和快速周转允许NIPT的成本和整体稳健性潜在显著的降低。

配对末端测序

在NextSeq 500系统上使用配对末端测序对于计数cfDNA片段具有几个优点。首先，使用双指数条形码，样本可以高水平多重化，允许以高统计置信度归一化和校正运行与运行之间的变化。此外，由于每个运行中多重化48个样本，并且用于聚类的流动室上所需的量是有限的，所以每个样本的输入要求显著降低，允许利用无PCR的文库工作流程。每个样本其典型的cfDNA产量约为5ng，研究人员即使没有PCR扩增也能够获得每个样本2-3次测序运行。这与需要来自多个血管的大量血浆输入以产生足够的用于非整倍性确定的cfDNA(REF)的其他方法相反。最后，配对末端测序允许确定cfDNA片段大小和对胎儿cfDNA的分析性富集。

检测胎儿全染色体非整倍性

我们的研究结果表明，低于150bp的cfDNA片段的计数能够比总计数更好地区分非整倍性与整倍体染色体。这一观察结果与Fan等的结果相反，他们提示使用较短的片段降低计数统计量的准确性(Fan等)，因为减少了可用计数的数量。短片段的分数也为如Yu等所暗示的21三体性检测提供一些区分，虽然具有比计数小的动态范围。然而，结合计数和分数度量导致21三体性样本与整倍体的最佳分离，并且暗示这两个度量是染色体代表的互补测量。其他生物度量，例如甲基化也可能提供可以增强非整倍性检测的信噪比的正交信息。

计算胎儿分数

本文呈现的方法还允许估计每个样本中的胎儿分数，而不产生额外的实验室工作。在每个流动室上的许多样本(其大约一半是男性)，可以通过利用从男性样本确定的胎儿分数测量校正来自片段大小信息的胎儿分数测量为所有样本获得精确的胎儿分数评估。在商业环境中，研究人员的临床经验已经表明，即使在没有特定胎儿分数测量(REF)的情况下，使用较大量单末端标签的标准计数方法也已经导致非常低的假阴性率。考虑到这里观察到的类似检测极限，预期会有等效的测试性能。

结论

已经证明，通过与配对末端DNA测序偶联的无PCR文库制备可以实现对母体血浆中cfDNA的胎儿非整倍性检测的高分析灵敏度和特异性。该简化的工作流程具有非常快的周转时间，潜在允许NIPT以显著较低的成本进行，用于一般产科人群。此外，配对末端测序技术具有测量其他生物现象的潜能，并提供其他临床应用。例如，来自基因组或CpG岛的甲基化特异性区域的大小信息可以提供用于增强整个基因组拷贝数变体检测的另一正交度量。

本公开内容可以以其他具体形式体现，而不脱离其精神或本质特征。所描述的实施方案仅在所有方面被认为是说明性的而不是限制性的。因此，本公开内容的范围由所附权利要求而不是前面的描述来说明。落入权利要求的等同物的含义和范围内的所有变化将被包括在其范围内。

Claims

1.非暂时机器可读介质，其具有其上储存的程序指令，当通过一个或多个计算机系统的处理器执行该指令时，导致所述计算机系统实现用于确定包括源于两个或更多个基因组的无细胞核酸片段的测试样本中目的核酸序列的拷贝数变化的方法，所述方法包括：

(a)接收通过测序所述测试样本中的所述无细胞核酸片段获得的序列读取；

(b)将所述无细胞核酸片段的所述序列读取与包含所述目的序列的参考基因组比对，由此提供测试序列标签，其中所述参考基因组被分成多个箱体(bins)；

(c)确定所述测试样本中至少一些所述无细胞核酸片段的大小；

(d)基于从其获得所述标签的无细胞核酸片段的大小加权所述测试序列标签；

(e)基于加权的测试序列标签计算所述箱体的覆盖率(coverage)；和

(f)从所计算的覆盖率中鉴定目的序列中的拷贝数变化。

2.权利要求1所述的机器可读介质，其中对所述测试序列标签进行加权包括将覆盖率偏向从所述测试样本中一个基因组特征性的大小范围的无细胞核酸片段获得的测试序列标签。

3.权利要求2所述的机器可读介质，其中对所述测试序列标签进行加权包括从(e)的计算中排除从所述大小范围之外的无细胞核酸片段获得的标签。

4.权利要求3所述的机器可读介质，其中对所述测试序列标签进行加权包括从(e)的计算中排除大于特定值的大小的片段。

5.权利要求4所述的机器可读介质，其中对所述测试序列标签进行加权包括从(e)的计算中排除大于约150个碱基对的大小的片段。

6.权利要求1所述的机器可读介质，其中基于加权标签的覆盖率相比于未加权的覆盖率在确定所述拷贝数变化中提供更高的灵敏度和更高的选择性。

7.前述权利要求中任一项的机器可读介质，其中通过测序所述无细胞核酸片段获得所述序列读取，而不首先使用PCR扩增所述无细胞核酸片段的核酸。

8.前述权利要求中任一项所述的机器可读介质，其中通过测序所述无细胞核酸片段至每个样本不超过约6M片段的深度来获得所述测序读取。

9.前述权利要求中任一项所述的机器可读介质，其中通过测序所述无细胞核酸片段至每个样本不超过约1M片段的深度来获得所述测序读取。

10.前述权利要求中任一项的机器可读介质，其中通过多重测序获得所述测序读取，其中多重化样本数为至少约24。

11.前述权利要求中任一项所述的机器可读介质，其中所述测试样本包括来自个体的血浆。

12.前述权利要求中任一项所述的机器可读介质，所述方法还包括测序源于两个或更多个基因组的无细胞核酸片段。

13.权利要求12的机器可读介质，其中所述测序还包括配对末端测序。

14.前述权利要求中任一项的机器可读介质，其中所述两个或更多个基因组包含来自母亲和胎儿的基因组。

15.权利要求14的机器可读介质，其中所述目的序列中的拷贝数变化包括所述胎儿的基因组中的非整倍性。

16.前述权利要求中任一项的机器可读介质，其中所述两个或更多个基因组包含来自癌症和体细胞的基因组。

17.权利要求1所述的机器可读介质，其中所述拷贝数变化引起遗传异常。

18.权利要求1所述的机器可读介质，所述方法还包括：

为所述目的序列的箱体提供全局覆盖谱(coverage profile)，其中所述全局覆盖谱包括所述目的序列的至少箱体中的预期覆盖率，并且其中所述预期覆盖率从未受影响的训练样本的训练集获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期覆盖率显示出从箱体到箱体的变化；以及

使用至少所述目的序列的箱体中的所述预期覆盖率调整(e)中计算的覆盖率，由此获得所述目的序列的全局谱校正的覆盖率，

其中(f)中鉴定所述拷贝数变化使用所述全局谱校正的覆盖率。

19.权利要求1所述的机器可读介质，所述方法还包括：

为所述目的序列的箱体提供全局大小谱，其中所述全局大小谱包括所述目的序列的至少箱体中的大小参数的预期值，并且其中所述大小参数的预期值从未受影响的训练样本的训练集中的无细胞核酸片段的长度获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期的大小参数显示出从箱体到箱体的变化，以及

使用至少所述目的序列的箱体中的预期大小参数来调整所述目的序列中的片段大小参数的值，由此获得用于所述目的序列的片段大小参数的全局谱校正的值。

20.前述权利要求中任一项所述的机器可读介质，所述方法还包括：

使用所述测试样本中GC含量水平与覆盖率值之间的关系来调整在(e)中计算的覆盖率，由此获得所述目的序列的覆盖率的GC校正值，

其中(f)中鉴定所述拷贝数变化使用GC校正的覆盖率。

21.前述权利要求中任一项所述的机器可读介质，所述方法还包括：

在包括所述目的序列的参考基因组的箱体中确定从测试所述样本中的所述无细胞核酸片段的量获得的片段大小参数的值，所述无细胞核酸片段具有比阈值短或长或在片段大小范围内的片段大小，

其中鉴定所述目的序列中的拷贝数变化包括使用片段大小参数的值以及在(e)中计算的覆盖率的值。

22.权利要求21所述的机器可读介质，所述方法还包括：

基于GC含量水平调整所述片段大小参数的值，由此获得所述目的序列的GC校正的覆盖率和GC校正的片段大小参数的值。

23.权利要求21所述的机器可读介质，所述方法还包括：

提供所述目的序列的箱体的全局谱，其中所述全局谱包括所述目的序列的箱体中片段大小参数的预期值，并且其中所述片段大小参数的预期值从未受影响的训练样本的训练集中获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述片段大小参数的预期值显示出从箱体到箱体的变化；以及

使用至少所述目的序列的箱体中的参数预期值调整所述箱体的片段大小参数值，由此获得所述目的序列的全局谱校正的参数值，

其中使用所述片段大小参数值鉴定拷贝数变化包括使用所述全局谱校正的片段大小参数值。

24.权利要求23所述的机器可读介质，所述方法还包括：

使用所述测试样本中GC含量水平与覆盖率值之间的关系调整(e)中计算的覆盖率，由此获得所述目的序列的覆盖率的GC校正的值，

其中(f)中鉴定拷贝数变化使用GC校正的覆盖率。

25.前述权利要求中任一项所述的机器可读介质，所述方法还包括：

在包括所述目的序列的参考基因组的箱体中确定所述箱体中所述无细胞核酸片段的甲基化水平，

其中鉴定所述目的序列中的拷贝数变化包括使用所述甲基化水平以及(e)中计算的覆盖率。

26.权利要求25所述的机器可读介质，所述方法还包括：

为所述目的序列的箱体提供全局甲基化谱，其中所述全局甲基化谱包括所述目的序列的至少箱体中的预期甲基化水平，并且其中所述预期的甲基化水平从未受影响的训练样本的训练集中的无细胞核酸片段获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期的甲基化水平显示出从箱体到箱体的变化；以及

使用至少所述目的序列的箱体中预期的甲基化水平调整甲基化水平值，由此获得所述目的序列的全局谱校正的甲基化水平值，

其中鉴定所述拷贝数变化包括使用全局谱校正的覆盖率和所述全局谱校正的甲基化水平。

27.权利要求26所述的机器可读介质，所述方法还包括：

基于GC含量水平调整所述全局谱校正的覆盖率和所述全局谱校正的甲基化水平，由此获得所述目的序列的GC校正的覆盖率和GC校正的甲基化水平值，

其中鉴定拷贝数变化包括使用GC校正的覆盖率和GC校正的甲基化水平。

28.前述权利要求中任一项所述的机器可读介质，所述方法还包括：

获得所述箱体的片段大小参数值，其中所述片段大小参数值中的每一个包括下述分数或比率，其包括具有短于或长于阈值的片段大小的所述测试样本中的所述无细胞核酸片段的量，

其中鉴定所述目的序列中的拷贝数变化包括使用(i)(f)中获得的覆盖率，和(ii)所述片段大小参数值。

29.权利要求28所述的机器可读介质，其中所述箱体的片段大小参数值偏向来自片段大小谱较长末端的片段的标签。

30.用于评估测试样本中目的核酸序列的拷贝数的系统，所述系统包括：

用于从所述测试样本接收核酸片段并提供所述测试样本的核酸序列信息的测序仪；

处理器；和

一个或多个计算机可读存储介质，其上存储有用于在所述处理器上执行的指令，以使用以下方法评估所述测试样本中的拷贝数，所述方法包括：

(a)接收通过对所述测试样本中的所述无细胞核酸片段进行测序获得的序列读取；

(b)使所述无细胞核酸片段的序列读取与包含所述目的序列的参考基因组比对，由此提供测试序列标签，其中所述参考基因组被分成多个箱体；

(c)确定所述测试样本中至少一些无细胞核酸片段的大小；

(d)基于从其获得标签的无细胞核酸片段的大小加权所述测试序列标签；

(e)基于(d)的加权标签计算所述箱体的覆盖率；和

(f)从所计算的覆盖率中鉴定所述目的序列中的拷贝数变化。

31.权利要求30所述的系统，其中加权所述测试序列标签包括将所述覆盖率偏向从所述测试样本中一个基因组的特征性大小范围中的无细胞核酸片段获得的测试序列标签。

32.权利要求30所述的系统，其中加权所述测试序列标签包括从(e)的计算中排除从所述大小范围之外的无细胞核酸片段获得的标签。

33.权利要求32所述的系统，其中加权所述测试序列标签包括从(e)的计算中排除比特定值大的大小的片段。

34.权利要求32所述的系统，其中加权所述测试序列标签包括从(e)的计算中排除大于约150个碱基对的大小的片段。

35.权利要求30-34中任一项所述的系统，其中基于加权标签的覆盖率相比于未加权的覆盖率在确定所述拷贝数变化中提供了更高的灵敏度和更高的选择性。

36.权利要求30-35中任一项所述的系统，所述测试样本包含来自个体的血浆，并且所述测试样本中的核酸片段包含源自两个或更多个基因组的无细胞核酸片段。

37.权利要求30-36中任一项所述的系统，所述测试样本包括来自个体的血浆，并且所述测试样本中的核酸片段包含源自两个或更多个基因组的无细胞核酸片段。

38.权利要求30-37中任一项所述的系统，其中所述拷贝数变化引起遗传异常。

39.权利要求30-38中任一项所述的系统，其中所述拷贝数变化引起遗传异常。

40.权利要求30所述的系统，其中所述方法还包括：

为所述目的序列的箱体提供全局覆盖谱，其中所述全局覆盖谱包括所述目的序列的至少箱体中的预期覆盖率，并且其中所述预期覆盖率从未受影响的训练样本的训练集获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期覆盖率显示出从箱体到箱体的变化；以及

使用至少所述目的序列的箱体中的预期覆盖率调整(e)中计算的覆盖率，由此获得所述目的序列的全局谱校正的覆盖率，

其中(f)中鉴定拷贝数变化使用所述全局谱校正的覆盖率。

41.权利要求30所述的系统，其中所述方法还包括：

为所述目的序列的箱体提供全局大小谱，其中所述全局大小谱包括所述目的序列的至少箱体中的大小参数的预期值，并且其中所述大小参数的预期值从未受影响的训练样本的训练集中的无细胞核酸片段的长度获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期的大小参数显示出从箱体到箱体的变化，以及；

使用至少所述目的序列的箱体中的预期大小参数来调整所述目的序列中的片段大小参数的值，由此获得所述目的序列的所述片段大小参数的全局谱校正的值。

42.权利要求30-41中任一项所述的系统，其中所述方法还包括：

其中(f)中鉴定所述拷贝数变化使用GC校正的覆盖率。

43.权利要求30-42中任一项所述的系统，其中所述方法还包括：

在包括所述目的序列的所述参考基因组的箱体中确定从所述测试样本中的所述无细胞核酸片段的量获得的片段大小参数的值，所述无细胞核酸片段具有比阈值短或长或在片段大小范围内的片段大小，

其中鉴定所述目的序列中的拷贝数变化包括使用所述片段大小参数以及在(e)中计算的覆盖率的值。

44.权利要求43所述的系统，其中所述方法还包括：基于GC含量水平调整所述片段大小参数的值，由此获得所述目的序列的GC校正的覆盖率和GC校正的片段大小参数的值。

45.权利要求43所述的系统，其中所述方法还包括：

提供所述目的序列的箱体的全局谱，其中所述全局谱包括所述目的序列的箱体中片段大小参数的预期值，并且其中片段大小参数的预期值从未受影响的训练样本的训练集中获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述片段大小参数的预期值显示出从箱体到箱体的变化；以及

其中使用所述片段大小参数值鉴定拷贝数变化包括使用全局谱校正的片段大小参数值。

46.权利要求45所述的系统，其中所述方法还包括：

其中(f)中鉴定所述拷贝数变化使用GC校正的覆盖率。

47.权利要求30-46中任一项所述的系统，其中所述方法还包括：

在包括所述目的序列的所述参考基因组的箱体中确定所述箱体中无细胞核酸片段的甲基化水平，

其中鉴定所述目的序列中的拷贝数变化包括使用甲基化水平以及(e)中计算的覆盖率。

48.权利要求47所述的系统，其中所述方法还包括：

其中鉴定所述拷贝数变化包括使用全局谱校正的覆盖率和全局谱校正的甲基化水平。

49.权利要求48所述的系统，其中所述方法还包括：

基于GC含量水平调整所述全局谱校正的覆盖率和全局谱校正的甲基化水平，由此获得所述目的序列的GC校正的覆盖率和GC校正的甲基化水平值，

50.权利要求30-49中任一项所述的系统，所述方法还包括：

获得箱体的片段大小参数值，其中所述片段大小参数值中的每一个包括下述分数或比率，其包括具有短于或长于阈值的片段大小的测试样本中的无细胞核酸片段的量，

51.权利要求50所述的系统，其中所述箱体的片段大小参数值偏向来自片段大小谱较长末端的片段的标签。

52.计算机系统，其包含一个或多个处理器、系统存储器和一个或多个计算机可读存储介质，所述介质上存储有计算机可执行指令，当通过所述一个或多个处理器执行所述指令时，导致所述计算机系统实现用于确定包括源于两个或更多个基因组的无细胞核酸片段的测试样本中目的核酸序列的拷贝数变化的方法，所述方法包括：

(b)将所述无细胞核酸片段的序列读取与包含所述目的序列的参考基因组比对，由此提供测试序列标签，其中所述参考基因组被分成多个箱体；

(c)确定所述测试样本中存在的所述无细胞核酸片段的大小；

(d)在所述参考基因组的箱体，包括所述目的序列中的箱体中确定偏向基因组之一特征性的片段大小的片段大小参数值；

(e)提供所述目的序列的箱体的全局谱，其中所述全局谱包括所述目的序列的箱体中参数的预期值，并且其中所述参数的预期值从未受影响的训练样本的训练集获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述参数的预期值显示出从箱体到箱体的变化；

(f)使用至少所述目的序列的箱体中的参数预期值调整所述测试序列标签的参数值，由此获得所述目的序列的全局谱校正的参数值；和

(g)基于全局谱校正的参数值评估所述测试样本中所述目的序列的拷贝数，其中所述全局谱校正的参数值提高信号水平和/或降低噪音水平用于确定所述目的序列的拷贝数。

53.权利要求52所述的计算机系统，所述方法还包括：

(e)使用所述测试样本中GC含量水平与参数值之间的关系调整所述测试序列的参数值，由此获得所述目的序列的参数的GC校正值，

其中(g)中所用的所述全局谱校正的值是参数的GC校正值。

54.权利要求52所述的计算机系统，其中所述片段大小参数偏向来自片段大小谱较短端的片段的片段或标签。

55.权利要求52所述的计算机系统，其中所述片段大小参数偏向来自短于特定值的大小的片段的片段或标签。

56.权利要求55所述的计算机系统，其中所述特定值(i)为约150个碱基对或更少，或(ii)在包括110个碱基对的范围内。

57.权利要求52所述的计算机系统，其中通过基于其片段的大小加权标签并计数加权的标签来确定所述片段大小参数。

58.权利要求52所述的计算机系统，其中所述片段大小参数包括这样的分数或比率，其包含所述测试样本中具有比阈值更短或更长的片段大小的部分无细胞核酸片段。

59.权利要求58所述的计算机系统，其中所述片段大小参数包括分数，其包含(i)包含110碱基对的第一大小范围内的测试样本中的片段数目，和(ii)在第二大小范围内的测试样本中的片段数目，所述第二大小范围包括在所述第一大小范围和第一大小范围之外的大小。

60.权利要求52-59中任一项的计算机系统，其中通过测序所述无细胞核酸片段获得所述序列读取，而不首先使用PCR扩增所述无细胞核酸片段的核酸。

61.权利要求52-60中任一项的计算机系统，其中通过测序所述无细胞核酸片段至每个样本不超过约6M片段的深度来获得所述测序读取。

62.权利要求52-61中任一项的计算机系统，其中通过多重测序获得所述测序读取，其中多重化样本数至少约为24。

63.权利要求52-62中任一项的计算机系统，其中所述测试样本包括来自个体的血浆。

64.权利要求52-63中任一项的计算机系统，还包括测序源于两个或更多个基因组的所述无细胞核酸片段。

65.权利要求52-64中任一项的计算机系统，其中所述两个或更多个基因组包含来自母亲和胎儿的基因组。

66.权利要求65所述的计算机系统，其中所述目的序列中的拷贝数变化包括所述胎儿的基因组中的非整倍性。

67.权利要求52-66中任一项的计算机系统，其中所述两个或更多个基因组包含来自癌症和体细胞的基因组。

68.权利要求52所述的计算机系统，其中所述拷贝数变化引起遗传异常。

69.权利要求52-68中任一项所述的计算机系统，其中所述片段大小参数是参考基因组，包括所述目的序列的箱体中的测试序列标签的覆盖率，其中所述箱体中的所述覆盖率偏向来自基因组之一特征性的大小或大小范围的无细胞核酸片段的测试序列标签，

所述方法还包括：

使用第二个片段大小参数重复操作(d)-(f)，其中所述第二个片段大小参数包括分数或比率，其包含测试样本中具有比阈值更短或更长的片段大小的无细胞核酸片段的量，

其中鉴定所述目的序列中的拷贝数变化包括使用(i)在(f)中从所述箱体中的覆盖率获得的全局谱校正的值，和(ii)在(f)中从所述第二个片段大小参数获得的全局谱校正的值。

70.权利要求52所述的计算机系统，其中所述箱体的片段大小参数偏向来自片段大小谱较长末端的片段的标签。

71.权利要求52所述的计算机系统，其中所述箱体的片段大小参数偏向来自长于特定值的大小的片段的标签。

72.权利要求71的计算机系统，其中所述片段大小参数偏向来自片段大小范围中的片段的标签，并且其中所述范围的下限是约150个碱基对或更多。

73.权利要求52-72中任一项所述的计算机系统，还包括：

其中鉴定所述目的序列中的拷贝数变化包括使用在(d)中确定的甲基化水平以及片段大小参数。

74.权利要求73的计算机系统，其中鉴定拷贝数变化包括：

为所述目的序列的箱体提供全局甲基化谱，其中所述全局甲基化谱包括所述目的序列的至少箱体中的预期甲基化水平，并且其中预期的甲基化水平从未受影响的训练样本的训练集中的无细胞核酸片段的长度获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期的甲基化水平显示出从箱体到箱体的变化；

使用至少所述目的序列的箱体中预期的甲基化水平调整甲基化水平值，由此获得所述目的序列的全局谱校正的甲基化水平值；和

使用全局谱校正的片段大小参数和全局谱校正的甲基化水平鉴定拷贝数变化。

75.权利要求74所述的计算机系统，其中使用所述全局谱校正的片段大小参数和所述全局谱校正的甲基化水平鉴定拷贝数变化还包括：

基于GC含量水平调整全局谱校正的甲基化水平，由此获得所述目的序列的GC校正的甲基化水平值；以及

使用GC校正的甲基化水平鉴定拷贝数变化。

76.计算机系统，其包含一个或多个处理器、系统存储器和一个或多个计算机可读存储介质，所述介质上存储有计算机可执行指令，当通过所述一个或多个处理器执行所述指令时，导致所述计算机系统实现用于确定包括源于两个或更多个基因组的无细胞核酸片段的测试样本中目的核酸序列的拷贝数变化的方法，所述方法包括：

(c)确定所述测试样本中存在的所述无细胞核酸片段的大小；

(d)在所述参考基因组的箱体，包括所述目的序列中的箱体中确定偏向基因组之一特征性的片段大小的片段大小参数；

(e)使用所述测试样本中GC含量水平与参数值之间的关系调整所述测试序列标签的片段大小参数值，由此获得所述目的序列的GC校正的片段大小参数值；以及

(f)基于GC校正的片段大小参数值评估所述测试样本中所述目的序列的拷贝数，其中所述GC校正的片段大小参数值提高信号水平和/或降低噪音水平用于确定所述目的序列的拷贝数。

77.权利要求76所述的计算机系统，其中调整操作(e)中的片段大小参数值包括：

将参考基因组中的箱体分组到多个GC组中，每个GC组包含多个箱体，其中所述多个箱体含有具有相似GC含量的测试序列标签；

确定多个稳健常染色体的每个GC组的预期片段大小参数值；和

基于所确定的相同GC组的预期值调整每个GC组的操作(e)中的片段大小参数值，由此获得目的序列中GC校正的片段大小参数值。

78.权利要求76所述的计算机系统，所述方法还包括在(d)之后且(e)之前，

提供目的序列的箱体的全局谱，其中全局谱包括目的序列的箱体中参数的预期值，并且其中参数的预期值从未受影响的训练样本的训练集获得，所述未受影响的训练样本包含以与测试样本的核酸片段基本相同的方式测序和比对的核酸，所述参数的预期值显示出从箱体到箱体的变化；以及

基于至少目的序列的箱体中的预期参数值更新片段大小参数的值。

79.权利要求76所述的计算机系统，其中所述片段大小参数偏向来自片段大小谱较短端的片段的片段或标签。

80.权利要求76所述的计算机系统，其中所述片段大小参数偏向来自短于特定值的大小的片段的片段或标签。

81.权利要求76所述的计算机系统，其中所述特定值(i)为约150个碱基对或更少，或(ii)在包括110个碱基对的范围内。

82.权利要求76所述的计算机系统，其中通过基于其片段的大小加权标签并计数加权的标签来确定片段大小参数。

83.权利要求76所述的计算机系统，其中所述片段大小参数包括这样的分数或比率，其包含测试样本中具有比阈值更短或更长的片段大小的部分无细胞核酸片段。

84.权利要求83所述的计算机系统，其中所述片段大小参数包含分数，其包含(i)包含110个碱基对的第一大小范围内的测试样本中的片段数目，和(ii)在第二大小范围内的测试样本中的片段数目，所述第二大小范围包括在第一大小范围和第一大小范围之外的大小。

85.权利要求76-84中任一项所述的计算机系统，其中通过测序所述无细胞核酸片段获得所述序列读取，而不首先扩增所述无细胞核酸片段的核酸。

86.权利要求76-85中任一项所述的计算机系统，其中通过测序所述无细胞核酸片段至每个样本不超过约1M片段的深度来获得所述测序读取。

87.权利要求76-86中任一项所述的计算机系统，其中通过多重测序获得所述测序读取，其中多重化样本数至少约为24。

88.权利要求76-87中任一项所述的计算机系统，其中所述测试样本包括来自个体的血浆。

89.权利要求76-88中任一项所述的计算机系统，所述方法还包括测序源于两个或更多个基因组的无细胞核酸片段。

90.权利要求76-89中任一项所述的计算机系统，其中所述两个或更多个基因组包含来自母亲和胎儿的基因组。

91.权利要求90的计算机系统，其中所述目的序列中的拷贝数变化包括胎儿基因组中的非整倍性。

92.权利要求76-91中任一项所述的计算机系统，其中所述两个或更多个基因组包含来自癌症和体细胞的基因组。

93.权利要求76所述的计算机系统，其中所述拷贝数变化引起遗传异常。

94.权利要求76-93中任一项所述的计算机系统，其中所述片段大小参数是参考基因组，包括目的序列的箱体中的测试序列标签的覆盖率，其中所述箱体中的所述覆盖率偏向来自基因组之一特征性的大小或大小范围的无细胞核酸片段的测试序列标签，

所述方法还包括：

其中鉴定所述目的序列中的拷贝数变化包括使用(i)在(f)中从箱体中的覆盖率获得的GC校正的值，和(ii)在(f)中从第二个片段大小参数获得的GC校正的值。

95.权利要求76所述的计算机系统，其中所述箱体的片段大小参数偏向来自片段大小谱较长末端的片段的标签。

96.权利要求76所述的计算机系统，其中所述箱体的片段大小参数偏向来自长于特定值的大小的片段的标签。

97.权利要求96所述的计算机系统，其中所述片段大小参数偏向来自片段大小范围中的片段的标签，并且其中所述范围的下限是约150个碱基对或更多。

98.权利要求76-97中任一项所述的计算机系统，还包括：

在包括目的序列的参考基因组的箱体中确定所述箱体中所述无细胞核酸片段的甲基化水平，

其中鉴定目的序列中的拷贝数包括使用在(d)中确定的甲基化水平以及片段大小参数。

99.权利要求98的计算机系统，其中鉴定拷贝数变化包括：为所述目的序列的箱体提供第二个全局大小谱，其中所述第二个全局大小谱包括所述目的序列的至少箱体中的预期甲基化水平，并且其中所述预期甲基化水平从未受影响的训练样本的训练集中的无细胞核酸片段的长度获得，所述未受影响的训练样本包含以与所述测试样本的核酸片段基本相同的方式测序和比对的核酸，所述预期甲基化水平显示出从箱体到箱体的变化；