TW201814290A

TW201814290A - 一種鑑定樣本中腫瘤負荷的方法和系統

Info

Publication number: TW201814290A
Application number: TW106131581A
Authority: TW
Inventors: 薄世平; 梁覃斯; 任軍; 陸思嘉
Original assignee: 大陸商上海億康醫學檢驗所有限公司
Priority date: 2016-09-22
Filing date: 2017-09-14
Publication date: 2018-04-16
Also published as: CN106367512A; TWI670495B; WO2018054254A1

Abstract

本發明提供了一種鑒定樣本中腫瘤負荷的方法和系統，具體地，本發明提供了一種非診斷性地鑒定樣本中腫瘤負荷的方法，包括步驟：(i)提供一待測樣本；(ii)對所述待測樣本進行測序，從而獲得所述樣本的基因組序列；(iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；(iv)將所述的參考基因組分成M個區域片段，其中每個區域片段為一個視窗b，計算每個視窗b的拷貝數；(v)對步驟(iv)的每個視窗b進行Z檢驗，從而計算每個視窗b的Z值；和(vi)根據步驟(v)所得到的Z值，計算基因組混亂度(GAS)，基於基因組混亂度的數值鑒定所述待測樣本中的腫瘤負荷。本發明的方法和系統可提高腫瘤檢測的靈敏性和通用性。

Description

一種鑑定樣本中腫瘤負荷的方法和系統

本領域涉及生物技術領域，具體地，涉及一種鑒定樣本中腫瘤負荷的方法和系統。

在生物醫學的科學研究及臨床應用領域，腫瘤患者的腫瘤細胞經常有大量的基因組拷貝數變異。拷貝數變異可存在於腫瘤組織、體液(如血液、組織間隙液、淋巴液、腦脊液、尿液、唾液等)中，體液中具體存在於游離的迴圈腫瘤細胞(CTC)、細胞外游離DNA(cfDNA)、外泌體等。體液中基因組拷貝數變異的情況是鑒定腫瘤負荷的重要指標，鑒定腫瘤負荷可應用於腫瘤早期篩查、診斷，患者的病情監控、預後治療等。　　目前檢測腫瘤基因組拷貝數變異的主要方法有：比較基因組雜交(comparative genomic hybridization,CGH)，螢光定量PCR(realtime fluorescence quantitative PCR，RTFQ PCR)，螢光原位雜交(fluorescence in situ hybridization, FISH)，多重連接探針擴增技術(multiplex ligation-dependent probe amplification ,MLPA)。　　然而，比較基因組雜交解析度比較低，Mb級，通量低，成本高；螢光定量PCR同樣通量低，成本高，一次只能測一個拷貝數變異；螢光原位雜交，只針對特定位置，解析度低，探針雜交效率不穩定；多重連接探針擴增技術，操作複雜，通量低，成本高，覆蓋度小，易造成PCR污染。除上述技術上的缺陷，以上技術檢測大部分隻針對基因組上特定的區域，而腫瘤異質性很強，特定的一個或幾個位點不能有效綜合評價體液中腫瘤的負荷。　　因此，本領域迫切需要開發一種能夠更有效綜合評價體液中腫瘤的負荷，提高腫瘤檢測的靈敏性和通用性的方法和設備。

本發明提供一種能夠更有效綜合評價體液中腫瘤的負荷，提高腫瘤檢測的靈敏性和通用性的方法和設備。　　本發明第一方面提供了一種非診斷性地鑒定樣本中腫瘤負荷的方法，包括步驟：　　(i)提供一待測樣本；　　(ii)對所述待測樣本進行測序，從而獲得所述樣本的基因組序列；　　(iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；　　(iv)將所述的參考基因組分成M個區域片段，其中每個區域片段為一個視窗b，計算每個視窗b的拷貝數；　　(v)對步驟(iv)的每個視窗 b進行Z檢驗，從而計算每個視窗b的Z值；和　　(vi)根據步驟(v)所得到的Z值，計算基因組混亂度(GAS)，基於基因組混亂度的數值鑒定所述待測樣本中的腫瘤負荷。　　在另一優選例中，所述參考基因組可以是連續的，也可以是不連續的。　　在另一優選例中，所述參考基因組包括全基因組。　　在另一優選例中，所述參考基因組指該物種(如人)所有染色體的全長、單條或多條染色體的全長、單條或多條染色體的一部分、或其組合。　　在另一優選例中，所述參考基因組的覆蓋率達到全基因組的50%以上，較佳地，60%以上，更佳地，70%以上，更佳地，80%以上，最佳地，95%以上。　　在另一優選例中，所述樣本來自待檢測個體。　　在另一優選例中，所述待檢測個體為人或非人哺乳動物。　　在另一優選例中，所述樣本為固體樣本或液體樣本。　　在另一優選例中，所述樣本包括體液樣本。　　在另一優選例中，所述樣本選自下組：血液、血漿、組織間隙液、淋巴液、腦脊液、尿液、唾液、房水、精液、或其組合。　　在另一優選例中，所述樣本選自下組：游離的迴圈腫瘤細胞(CTC)、細胞外游離DNA(cfDNA)、外泌體、或其組合。　　在另一優選例中，所述測序選自下組：單端測序、雙端測序、或其組合。　　在另一優選例中，所述步驟(iv)還包括校正每個視窗b的拷貝數，計算每個視窗b校正後的拷貝數的步驟。　　在另一優選例中，所述校正方法選自下組：Loess校正、權重法、殘差法、或其組合。　　在另一優選例中，根據基因組序列在參考基因組上的位置資訊，統計落到每個視窗b的序列數目、堿基分佈、參考基因組的堿基分佈。　　在另一優選例中，根據每個視窗b的序列及堿基含量，校正每個視窗b的拷貝數。　　在另一優選例中，用下述公式計算每個窗口b的Z值：；　　其中，i為1至M的任意正整數；M為參考基因組分成的視窗的總數量，其中M為≥50的正整數，較佳地，50≤M≤10⁵ ，更佳地，100≤M≤10⁵ ，最佳地，200≤M≤10⁵ ； x_i 為所述待測樣本在第i個視窗b_i 檢測的拷貝數值；b_i 為第i個窗口；μ_i 為正常對照樣本在視窗b_i 的拷貝數的算術平均值，用如下公式計算：；　　其中，j為1至N的任意正整數；N為正常對照樣本的總數量，其中N為≥30的正整數，較佳地，30≤N≤10⁸ ，更佳地，50≤N≤10⁷ ，最佳地，100≤N≤10⁴ ；X_j 指第j個正常對照樣本在所述視窗b_i 檢測的拷貝數值；σ_i 為正常對照樣本在所述視窗b_i 的拷貝數的標準差，用如下公式計算：；　　式中，N、j、X_j 和μ_i 的定義如上。　　在另一優選例中，所述正常對照樣本指同一物種的正常人的同類樣本。　　在另一優選例中，用下述公式計算基因組混亂度：；　　其中，m_b 為排序在第m%的視窗，p_b 為排序在第p%的窗口，m為30-98，較佳地，40-97，更佳地，60-96，最佳地，80-95，最佳地，95，p為80-100，較佳地，85-100，更佳地，90-100，最佳地，100，且p-m≥2（較佳地，≥5，更佳地，≥10，更佳地，≥15，最佳地，≥20）。　　在另一優選例中，所述計算基因組混亂度之前，包括如下步驟：　　(a)根據參考基因組序列特徵去除基因組上著絲粒、端粒、隨體、異染色質等高通量測序測不到的區域，去除基因組上著絲粒、端粒、隨體、異染色質附近L長度的區域，L為小於3M的任何長度；或　　(b)根據樣本的拷貝數特徵去除基因組上著絲粒、端粒、隨體、異染色質等高通量測序測不到的區域。　　在另一優選例中，所述步驟(v)之前還包括如下步驟：　　(iv1)根據步驟(iv)的每個視窗b的拷貝數，計算正常對照樣本中每個視窗b的變異係數CV_i ；和　　(iv2)將所述CV_i 從小到大排序，去除最大的前n%的視窗，其中，n 為大於0，小於等於5的任意數值，較佳地，n＝1、2、2.5、3、3.1、4、4.2或5。　　在另一優選例中，所述變異係數CV_i 用下述公式進行計算：；　　其中，μ_i 為正常對照樣本拷貝數的算術平均值，用如下公式計算：；　　σ_i 為正常對照樣本拷貝數的標準差，用如下公式計算：；　　式中，N、j、X_j 、μ_i 和σ_i 的定義如上。　　本發明第二方面提供了一種用於鑒定樣本中腫瘤負荷的系統(設備)，包括：　　測序單元，所述測序單元用於對待測樣本進行核酸測序，從而獲得所述樣本的基因組序列；　　比對單元，所述比對單元與所述測序單元相連，用於將獲得的所述樣本的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；　　計算與檢驗單元，所述計算與檢驗單元和所述比對單元相連，用於計算所述參考基因組的每個視窗b的拷貝數，並對每個視窗進行Z檢驗，從而計算每個視窗b的Z值；以及　　鑒定單元，所述鑒定單元和所述計算與檢驗單元相連，用於根據所得到Z的值，計算基因組混亂度(GAS)，並基於基因組混亂度的數值鑒定樣本中的腫瘤負荷。　　在另一優選例中，所述系統還包括校正單元，所述校正單元和所述計算與檢驗單元相連，用於校正所述參考基因組的每個視窗b的拷貝數，從而計算每個視窗b校正後的拷貝數。　　在另一優選例中，在所述計算與檢驗單元中，在對每個視窗b進行Z檢驗前，可根據每個視窗b的拷貝數，計算每個視窗b的變異係數CV_i ，並將所述CV_i 從小到大排序，去除最大的前n%的視窗，其中，n為大於0，小於等於5的任意數值，較佳地，n＝1、2、2.5、3、3.1、4、4.2或5。　　應理解，在本發明範圍內中，本發明的上述各技術特徵和在下文(如實施例)中具體描述的各技術特徵之間都可以互相組合，從而構成新的或優選的技術方案。限於篇幅，在此不再一一累述。

本發明人通過廣泛而深入的研究，首次建立了一種有效且可提高腫瘤檢測的靈敏性和通用性的鑒定樣本中腫瘤負荷的方法，具體地，通過計算基因組混亂度(GAS)，從而基於基因組混亂度的數值鑒定樣本中的腫瘤負荷。　　此外，本發明還提供了一種鑒定樣本中腫瘤負荷的系統（設備），所述系統（設備）包括：測序單元；比對單元；計算與檢驗單元和鑒定單元。在本發明的一個優選例中，還包括校正單元。在此基礎上，本發明人完成了本發明。術語如本文所用，術語“拷貝數變異(Copy Number Variations，CNV)”是指樣本基因組染色體或染色體片段拷貝數異常，包括但不限於染色體非整倍體、缺失、重複，大於1000bp堿基的微缺失、微重複。　　如本文所用，術語“基因組混亂度值(Genomic Abnormality Score，GAS)”是根據樣本基因組染色體或染色體片段拷貝數異常計算得到的分值，分值檢測範圍包括但不限於全基因組、特定的染色體、染色體片段、特定基因。　　如本文所用，術語“Z值(Z-score)”也叫標準分值(standard score),是一個數值與平均數的差再除以標準差的過程。用公式表示為： Z score=(x-μ)/σ 　　其中x為某一具體數值，μ為算術平均值，σ為標準差；Z值代表著原始數值和參考平均值之間的距離，是以標準差為單位計算。　　如本文所用，術語“部分緩解(PR, partial response)”指靶病灶最大徑之和減少≥30%，至少維持4周。　　如本文所用，術語“疾病進展(PD, progressive disease)”指靶病灶最大徑之和至少增加≥20%，或出現新病灶。　　如本文所用，術語“系統”、“設備”為相同含義。參考基因組 在本發明中，以人為例，所述參考基因組可以是全基因組，也可以是部分基因組。並且，所述參考基因組可以是連續的，也可以是不連續的。當所述參考基因組為部分基因組時，所述參考基因組的總覆蓋率(F)為全基因組的50%以上，較佳地，較佳地，60%以上，更佳地，70%以上，更佳地，80%以上，最佳地，95%以上，其中，所述總覆蓋率(F)指參考基因組占全基因組的百分比。　　在一優選實施方式中，所述參考基因組為全基因組。　　在一優選實施方式中，所述參考基因組為該物種(如人)所有染色體的全長、單條或多條染色體的全長、單條或多條染色體的一部分、或其組合。腫瘤負荷 在本發明中，所述“腫瘤負荷”指腫瘤對機體的危害程度，比如腫瘤的大小，腫瘤的活躍程度，腫瘤的轉移情況，不同部位的腫瘤對機體的危險程度。一些評價腫瘤負荷的指標包括(但不限於)：腫瘤大小、腫瘤標記物高低、臨床症狀(喘憋、疼痛等等)、相關併發症(上腔靜脈綜合征等)、消耗情況(貧血、低蛋白血症等)。測序在本發明中，可用常規的測序技術和平臺進行測序。測序平臺不受特別限制，其中第二代測序平臺包括(但不限於)：Illumina公司的GA、GAII、GAIIx、HiSeq1000/2000/2500/3000/4000、X Ten、X Five、NextSeq500/550、MiSeq、MiSeqDx、MiSeq FGx、MiniSeq；Applied Biosystems的SOLiD；Roche的454 FLX；Thermo Fisher Scientific(Life Technologies)的Ion Torrent、Ion PGM、Ion Proton I/II；華大基因的BGISEQ1000、BGISEQ500、BGISEQ100；博奧生物集團的BioelectronSeq 4000；中山大學達安基因股份有限公司的DA8600；貝瑞和康的NextSeq CN500；紫鑫藥業旗下子公司中科紫鑫的BIGIS；華因康基因HYK-PSTAR-IIA。　　第三代單分子測序平臺包括(但不限於)：Helicos BioSciences公司的HeliScope系統，Pacific Bioscience的SMRT系統，Oxford Nanopore Technologies的GridION、MinION。測序類型可為單端(Single End)測序或雙端(Paired End)測序，測序長度可為30bp、40bp、50bp、100bp、300bp等大於30bp的任意長度，測序深度可為基因組的0.01、0.02、0.1、1、5、10、30倍等大於0.01的任意倍數。　　在本發明中，優選Illumina公司的HiSeq2500高通量測序平臺，測序類型為單端(Single End)測序，測序長度41bp，測序數據量為5M。資料處理 在本發明中，資料處理通常包括以下步驟：　　(a)對待測樣本的基因組進行核酸提取、測序，以獲得基因組序列；　　(b)將所述樣本的基因組序列比對到參考基因組，得到序列在參考基因組上的位置；　　(c)將參考基因組分成一定長度的視窗，計算每個視窗b的拷貝數；　　(d)對每個視窗b進行Z檢驗，計算每個視窗的Z值；和　　(e)計算基因組混亂度(GAS)。　　其中，在步驟(a)中，具體還包括：所述待測樣本的類型為體液，體液可以是血液、組織間隙液（簡稱組織液或細胞間液）、淋巴液、腦脊液、尿液、唾液，檢測目標為體液中含有的DNA，DNA具體存在於游離的迴圈腫瘤細胞（CTC）、細胞外游離DNA（cfDNA）、外泌體等。所述待測樣本DNA的提取方式包括（但不限於）：柱式提取、磁珠提取。對樣本進行文庫構建，採用高通量測序平臺，對樣本進行測序。　　其中，在步驟(b)中，具體還包括：將測序結果去掉接頭及低質量數據，比對到參考基因組。參考基因組可為全基因組、任意染色體、染色體的一部分。參考基因組通常選擇已被公認確定的序列，如人的基因組可為NCBI或UCSC的hg18(GRCh18)、hg19(GRCh19)、hg38(GRCh38)，或任意一條染色體及染色體的一部分。比對軟體可用任何一種免費或商務軟體，如BWA(Burrows-Wheeler Alignment tool)、SOAPaligner/soap2 (Short Oligonucleotide Analysis Package)、Bowtie/Bowtie2。將序列比對到參考基因組，得到序列在基因組上的位置。可以選擇在基因組上唯一比對的序列，去除基因組上多處比對的序列，消除重複序列對拷貝數計算帶來的誤差。　　其中，在步驟(c)中，具體還包括：將基因組分成一定長度的視窗，根據測的資料量，視窗長度也可以為100bp-3,000,000bp(3M)範圍內相同或不同的整數。視窗的數量可以是1,000-30,000,000範圍內的任意整數。根據測的序列在基因組上的位置，統計落到每個視窗的序列數目、堿基分佈、參考基因組的堿基分佈。根據每個視窗的序列及堿基GC含量，校正每個視窗的拷貝數，校正方法包括但不限於Loess校正，計算每個視窗校正後的拷貝數。　　其中，在步驟(d)中，具體還包括：取N(N為不少於30的自然數)個正常人的樣本，同樣的提取、建庫、測序條件，重複上述步驟(a)-(c)，作為參考資料集。對於每個視窗b_i ，都對應N個正常拷貝數值。　　計算正常對照樣本拷貝數的算術平均值μ_i ，算術平均值μ_i 計算公式為：；　　計算正常對照樣本拷貝數的標準差σ_i ，標準差的計算公式為：；　　X₁,X₂,X₃,......X_j 為正常樣本的拷貝數值。　　計算待檢測樣本每個視窗b_i 的Z值，Z值的計算公式為：；　　x_i 為視窗b_i 檢測的拷貝數值。　　其中，在步驟(e)中，具體還包括：在整個基因組、某條染色體、染色體片段或基因周圍存在高重複區域，如近著絲粒、端粒、隨體、異染色質等區域。首先去除高重複區域，以消除對混亂度計算的影響。　　在一優選實施方式中，去除的方法包括(但不限於)：　　a. 根據參考基因組序列特徵去除　　去除基因組上著絲粒、端粒、隨體、異染色質等高通量測序測不到的區域，去除基因組上著絲粒、端粒、隨體、異染色質附近L長度的區域，L可以為小於3M的任何長度；或　　b. 根據正常樣本的拷貝數特徵去除　　對於每個視窗bi，計算正常對照樣本在這個視窗的變異係數CV_i (Coefficient of Variation)，CV_i 計算公式為：；　　μ_i 為正常對照樣本拷貝數的算術平均值，σ_i 為正常對照樣本拷貝數的標準差。　　CV從小到大排序，去除最大的前n%的視窗，n可以為大於0，小於等於5的任意數值。　　其中，在步驟(e)中，具體還包括基因組混亂度(GAS)的計算方式：　　首先確定混亂度的檢測範圍，檢測範圍包括但不限於整個基因組、特定染色體、特定染色體片段或特定的基因等1M到基因組長度(如人的基因組約3G)範圍內的任意值。在混亂度檢測範圍內，去除重複序列影響的視窗的Z值取絕對值，Z值絕對值從小到大排序，並將排好序的Z值絕對值平均分配到0%-100%範圍內，其中Z值絕對值最小值被分配至0%，Z值絕對值的最大值被分配給100%。計算對應於第m%到第p%範圍內的各視窗Z值絕對值的累計值，其中，m為30-98，較佳地，40-97，更佳地，60-96，最佳地，80-95，最佳地，95；p為80-100，較佳地，85-100，更佳地，90-100，最佳地，100，且p-m≥2(較佳地≥5，更佳地≥10，更佳地≥15，最佳地≥20)，所述的累計值即為基因組混亂度(GAS)，計算公式為：；　　m_b 為排序在第m%的窗口，p_b 為排序在第p%的窗口。用GAS的值鑒定體液中腫瘤負荷。鑒定樣本中腫瘤負荷的方法 在本發明中，提供了一種有效且可提高腫瘤檢測的靈敏性和通用性的鑒定樣本中腫瘤負荷的方法，包括步驟：　　(i)提供一待測樣本；　　(ii)對所述待測樣本進行測序，從而獲得所述樣本的基因組序列；　　(iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；　　(iv)將所述的參考基因組分成M個區域片段，其中每個區域片段為一個視窗b，計算每個視窗b的拷貝數；　　(v)對步驟(iv)的每個視窗 b進行Z檢驗，從而計算每個視窗b的Z值；和　　(vi)根據步驟(v)所得到的Z值，計算基因組混亂度(GAS)，基於基因組混亂度的數值鑒定所述待測樣本中的腫瘤負荷。　　在本發明的一個優選例中，所述方法包括步驟：　　(a)對樣本基因組進行核酸提取、測序，以獲得基因組序列；　　(b)將序列比對到參考基因組，得到序列在基因組上的位置；　　(c)將參考基因組分成一定長度的視窗b，計算每個視窗b的拷貝數；以及　　(d)對每個視窗b進行Z檢驗，計算每個視窗b的Z值；計算基因組混亂度(GAS)，從而基於基因組混亂度的數值鑒定樣本中的腫瘤負荷。鑒定樣本中腫瘤負荷的系統（設備） 在本發明中，還提供了一種鑒定樣本中腫瘤負荷的系統（設備），包括：　　測序單元，所述測序單元用於對待測樣本進行核酸測序，從而獲得所述樣本的基因組序列；　　比對單元，所述比對單元與所述測序單元相連，用於將獲得的所述樣本的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；　　計算與檢驗單元，所述計算與檢驗單元和所述比對單元相連，用於計算所述參考基因組的每個視窗b的拷貝數，並對每個視窗進行Z檢驗，從而計算每個視窗b的Z值；以及　　鑒定單元，所述鑒定單元和所述計算與檢驗單元相連，用於根據所得到Z的值，計算基因組混亂度(GAS)，並基於基因組混亂度的數值鑒定樣本中的腫瘤負荷。　　在一優選實施方式中，所述系統還包括校正單元，所述校正單元和所述計算與檢驗單元相連，用於校正所述參考基因組的每個視窗b的拷貝數，從而計算每個視窗b校正後的拷貝數。　　本發明的主要優點包括：　　(1)本發明首次建立一種鑒定樣本中腫瘤負荷的方法和系統，本發明的方法和系統可準確、有效的鑒定樣本中腫瘤負荷。　　(2)本發明的方法和系統可提高腫瘤檢測的靈敏性和通用性。　　(3)本發明的方法和系統可減少腫瘤患者檢測時取樣帶來的痛苦，實現無創檢測。　　(4)本發明的方法和系統可有效的檢測某些常規檢測無法取樣的患者；　　(5)本發明的方法和系統可對腫瘤患者即時檢測，監測用藥療效，對醫生用藥、治療做出一定的指導。　　下面結合具體實施例，進一步陳述本發明。應理解，這些實施例僅用於說明本發明而不用於限制本發明的範圍。下列實施例中未注明詳細條件的實驗方法，通常按照常規條件如Sambrook等人，分子克隆：實驗室手冊(New York:Cold Spring Harbor Laboratory Press,1989)中所述的條件，或按照製造廠商所建議的條件。除非另外說明，否則百分比和份數按重量計算。　　除非有特別說明，否則實施例所用的材料均為市售產品。實施例 1 本發明已經應用到15個例子，並取得良好的效果。為了使本發明的用法和效果更加易於理解和掌握，下面將舉一個實例進行進一步的闡述。實施的簡要流程圖如圖1所示，詳細實施過程如下：1 ．對樣本基因組進行核酸提取、測序 在本實施例中，檢測樣本來源為某胃癌患者血液，提取血液中游離DNA(cfDNA)及白細胞。核酸提取採用康為世紀生物科技有限公司的CW2603核酸提取試劑盒，提取方法按照康為世紀生物科技有限公司提供的產品說明書操作。　　採用康為世紀生物科技有限公司的CW2185建庫試劑盒進行文庫構建，上機測序。上機測序採用Illumina公司的HiSeq2500高通量測序平臺，按照Illumina公司提供的說明書操作。測序類型為單端(Single End)測序，測序長度41bp，測序數據量為5M。2 ．將序列比對到參考基因組，得到序列在基因組上的位置 將測序結果去掉接頭及低質量數據，比對到參考基因組。參考基因組為人的基因組UCSC的hg19(GRCh19)，比對軟體為BWA(Burrows-Wheeler Alignment tool)，採用默認參數，將序列比對到參考基因組，得到序列在基因組上的位置，選擇在基因組上唯一比對的序列。3 ．將參考基因組分成一定長度的視窗，計算每個視窗的拷貝數 將基因組分成15489個視窗b(區域)，每個視窗b長度為200K，根據序列在基因組上的位置，統計落到每個視窗b的序列數目、堿基分佈、參考基因組的堿基分佈。根據每個視窗b的序列及堿基GC含量，校正每個視窗b的拷貝數，校正方法為Loess，計算每個視窗b校正後的拷貝數。4 ．計算每個窗口的 CV 值取100個正常人的樣本，同樣的提取、建庫、測序條件，重複上述1、2、3步驟，獲得正常對照樣本資料，作為參考資料集，計算待檢測樣本每個視窗b_i 的CV值。　　對於每個視窗b_i ，都對應N(本實施例N=100)個正常拷貝數值。　　計算正常對照樣本拷貝數的算術平均值μ_i ，算術平均值μ_i 計算公式為：；　　計算正常對照樣本拷貝數的標準差σ_i ，標準差的計算公式為：；　　X₁,X₂,X₃,......X_j 為正常樣本的拷貝數值。　　計算待檢測樣本每個視窗b_i 的CV值，CV值的計算公式為：。5 ．對每個視窗進行 Z 檢驗，計算每個視窗的 Z 值計算待檢測樣本每個視窗b_i 的Z值，Z值的計算公式為：；　　x_i 為視窗b_i 檢測的拷貝數值，μ_i 為正常對照樣本拷貝數的算術平均值，σ_i 為正常對照樣本拷貝數的標準差，計算公式同步驟4。6 ．計算基因組混亂度 (GAS) 在本實施例中，每個視窗CV從小到大排序，去除最大的前5%的視窗，不參與以下混亂度計算。混亂度的檢測範圍為整個基因組；Z值取絕對值，並從小到大排序，計算第m%到第p%視窗Z值絕對值的累計值，其累計值即為基因組混亂度(GAS)。計算公式為：；　　m_b 為排序在第m%的視窗，p_b 為排序在第p%的視窗，其中，m為95，p為100。　　用GAS的值鑒定體液中腫瘤負荷。7. 檢測結果 對十幾個樣本進行檢測。一個典型病理的情況如下所示。　　檢測結果如表1、圖2和圖3所示。表1 實施例1對某胃癌患者的臨床用藥效果做腫瘤負荷檢測結果結果顯示，患者臨床用藥前，確診為胃癌，此時cfDNA拷貝數嚴重異常(圖3 S1)，全基因組混亂度為999.84，血液中腫瘤負荷較嚴重。　　伴隨著用藥，到第四週期cfDNA拷貝數正常，全基因組混亂度為728.80，和正常白細胞729.86接近。　　用本實施例相同的方法，計算上述100例正常人的全基因組混亂度，正常範圍為722.87-739.89，算數平均值733.22，本實施例第四用藥週期及白細胞的全基因組混亂度值在正常範圍內，說明血液中腫瘤負荷很小，與其臨床評效結果PR(部分緩解)是對應的。　　伴隨進一步用藥，腫瘤產生抗藥性，cfDNA拷貝數異常情況又變嚴重，全基因組混亂度分值變大，血液中腫瘤負荷變嚴重，到用藥第七週期，全基因組混亂度最高，與其臨床評效結果PD(疾病進展)是對應的。　　結果表明，基因組混亂度可有效鑒定體液中的腫瘤負荷。　　在本發明提及的所有文獻都在本申請中引用作為參考，就如同每一篇文獻被單獨引用作為參考那樣。此外應理解，在閱讀了本發明的上述講授內容之後，本領域技術人員可以對本發明作各種改動或修改，這些等價形式同樣落於本申請所附申請專利範圍所限定的範圍。

圖1顯示了體液中鑒定腫瘤負荷的分析方法流程圖。　　圖2顯示了患者不同臨床用藥週期的腫瘤負荷檢測結果。　　圖3顯示了S1-7全基因組拷貝數變異及對應的GAS。

Claims

一種非診斷性地鑒定樣本中腫瘤負荷的方法，其特徵在於，包括步驟：　　(i)提供一待測樣本；　　(ii)對所述待測樣本進行測序，從而獲得所述樣本的基因組序列；　　(iii)將步驟(ii)獲得的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；　　(iv)將所述的參考基因組分成M個區域片段，其中每個區域片段為一個視窗b，計算每個視窗b的拷貝數；　　(v)對步驟(iv)的每個視窗b進行Z檢驗，從而計算每個視窗b的Z值；和　　(vi)根據步驟(v)所得到的Z值，計算基因組混亂度(GAS)，基於基因組混亂度的數值鑒定所述待測樣本中的腫瘤負荷。
如請求項1所述的方法，其中，所述參考基因組包括全基因組。
如請求項1或2所述的方法，其中，所述參考基因組的覆蓋率達到全基因組的50%以上，較佳地，60%以上，更佳地，70%以上，更佳地，80%以上，最佳地，95%以上。
如請求項1所述的方法，其中，所述樣本選自下組：血液、血漿、組織間隙液、淋巴液、腦脊液、尿液、唾液、房水、精液、或其組合。
如請求項1所述的方法，其中，所述步驟(iv)還包括校正每個視窗b的拷貝數，計算每個視窗b校正後的拷貝數的步驟。
如請求項1所述的方法，其中，用下述公式計算每個窗口b的Z值：；　　其中，i為1至M的任意正整數；M為參考基因組分成的視窗的總數量，其中M為≥50的正整數，較佳地，50≤M≤10⁵ ，更佳地，100≤M≤10⁵ ，最佳地，200≤M≤10⁵ ；x_i 為所述待測樣本在第i個視窗b_i 檢測的拷貝數值；b_i 為第i個窗口；μ_i 為正常對照樣本在視窗b_i 的拷貝數的算術平均值，用如下公式計算：；　　其中，j為1至N的任意正整數；N為正常對照樣本的總數量，其中N為≥30的正整數，較佳地，30≤N≤10⁸ ，更佳地，50≤N≤10⁷ ，最佳地，100≤N≤10⁴ ；X_j 指第j個正常對照樣本在所述視窗b_i 檢測的拷貝數值；σ_i 為正常對照樣本在所述視窗b_i 的拷貝數的標準差，用如下公式計算：；　　式中，N、j、X_j 和μ_i 的定義如上。
如請求項1所述的方法，其中，用下述公式計算基因組混亂度：；　　其中，m_b 為排序在第m%的視窗，p_b 為排序在第p%的窗口，m為30-98，較佳地，40-97，更佳地，60-96，最佳地，80-95，最佳地，95，p為80-100，較佳地，85-100，更佳地，90-100，最佳地，100，且p-m≥2（較佳地，≥5，更佳地，≥10，更佳地，≥15，最佳地，≥20）。
如請求項1所述的方法，其中，所述步驟(v)之前還包括如下步驟：　　(iv1)根據步驟(iv)的每個視窗b的拷貝數，計算正常對照樣本中每個視窗b的變異係數CV_i ；　　(iv2)將所述CV_i 從小到大排序，去除最大的前n%的視窗，其中，n 為大於0，小於等於5的任意數值，較佳地，n＝1、2、2.5、3、3.1、4、4.2或5。
如請求項8所述的方法，其中，所述變異係數CV_i 用下述公式進行計算：；　　其中，μ_i 為正常對照樣本拷貝數的算術平均值，用如下公式計算：；　　σ_i 為正常對照樣本拷貝數的標準差，用如下公式計算：；　　式中，N、j、X_j 、μ_i 和σ_i 的定義如上。
一種用於鑒定樣本中腫瘤負荷的系統，其特徵在於，包括：　　測序單元，所述測序單元用於對待測樣本進行核酸測序，從而獲得所述樣本的基因組序列；　　比對單元，所述比對單元與所述測序單元相連，用於將獲得的所述樣本的基因組序列與參考基因組進行比對，從而獲得基因組序列在參考基因組上的位置資訊；　　計算與檢驗單元，所述計算與檢驗單元和所述比對單元相連，用於計算所述參考基因組的每個視窗b的拷貝數，並對每個視窗進行Z檢驗，從而計算每個視窗b的Z值；以及　　鑒定單元，所述鑒定單元和所述計算與檢驗單元相連，用於根據所得到Z的值，計算基因組混亂度(GAS)，並基於基因組混亂度的數值鑒定樣本中的腫瘤負荷。