CN107548498A

CN107548498A - 用于反应预测高级别膀胱癌中的化疗的系统和方法

Info

Publication number: CN107548498A
Application number: CN201680008725.2A
Authority: CN
Inventors: C·司徒
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2015-01-20
Filing date: 2016-01-19
Publication date: 2018-01-05
Also published as: IL253550B; CA2974199A1; JP2018507470A; AU2019203295A1; AU2016209478B2; KR102116485B1; EP3248127A4; US11101038B2; US20180004905A1; EP3248127A1; AU2016209478A1; IL253550A0; KR20180010176A; WO2016118527A1

Abstract

考虑的系统和方法允许预测诊断为高级别膀胱癌的患者的化疗结果。在特别优选的方面，使用基于机器学习的模型来执行预测，其中该模型具有最小预定准确度增益，并且其中如此确定的模型提供了在结果预测中使用的组学数据的身份和权重因子。

Description

用于反应预测高级别膀胱癌中的化疗的系统和方法

本申请要求15年1月20日提交的序号为62/105697美国临时申请的优先权和15年3月3日提交的序号为62/127546的美国临时申请的优先权，它们通过引用并入本文。

技术领域

本发明的领域是在电脑中预测膀胱癌中化疗的治疗结果的系统和方法。

背景技术

背景描述包括可用于理解本发明的信息。不是承认本文提供的任何信息是现有技术或与当前要求保护的发明相关，或者任何具体或隐含参考的出版物是现有技术。

本文的所有出版物通过引用并入本文，就像每个单独的出版物或专利申请被具体地和单独地指示通过引用并入本文中一样。凡合并参考文献中术语的定义或用途不一致或与本文中提供的术语的定义相违背时，本文中提供的术语的定义适用，该参考文献中该术语的定义不适用。

历史上，选择癌症的药物治疗选择仅限于经验数据和组织学发现，以使药物与特定癌症类型相匹配。最近，考虑到细胞中特异性受体的存在或不存在，信号分子的突变状态等，分子医学的进展已经允许在选择化学疗法时使用更个性化的方法。尽管这些改善至少在某些情况下已经翻译为了增加生存时间，对化疗药物的反应在所有或几乎所有情况下都不是完全可预测的。此外，一旦患者致力于特定治疗方案，治疗方案的改变通常不被建议和/或患者耐受性差。

为了帮助预测药物干预措施的治疗结果，已经开发了各种计算系统和方法。最为显着地，WO 2014/193982描述系统和方法，其中途径模型的通路元件(对应于细胞体内特征)在电脑中被修改以模拟用药物治疗细胞。然后，修改后的模型可用于帮助预测药物对一个或多个途径的影响，并间接预测药物对患病组织的影响。虽然这种制度在某些情况下提供了显着的预测能力，但是这样的系统是基于细胞培养数据，因此没有充分体现体内环境。此外，使用基于测量和假设属性的单一模型进行处理的模拟，因此依赖于对模型的真实性的具体假设。所描述的方法未能提供关于减轻与模型的具体假设相关的风险的见解。

为了适应来自复杂体内系统的大量数据，已经开发了基于计算机的机器学习技术，其可以摄取超过人类吸收能力的大数据集。通常，机器学习算法被配置为识别训练数据集中的模式，使得算法“学习”或成为“训练有素的”如何在呈现新的输入数据时预测可能的结果。值得注意的是，有许多类型的机器学习算法，每个都有自己的具体的底层分析模式(例如，支持向量机、Bayesian统计、Random Forests等)以及该固有偏差。这样的分析的例子在Wei的US2004/0193019中给出，其中基于判别分析的模式识别用于生成将生物概况信息与治疗结果信息相关联的预测模型。然后使用如此形成的预测模型对治疗的可能反应进行排序。Wei简单地建立了预测结果模型，对基于结果的患者特异性资料信息进行了评估。不幸的是，并不是所有的算法都适用于药物治疗的预测分析，因为每个算法都建立了对特定疾病和/或药物治疗可能无效的假设。此外，与随机事件和/或其他模型相比，针对特定预测最大化的模型不一定提供最佳准确度。

为了解决这些困难，Cesano等人的美国专利2014/0199273讨论适用于医疗保健环境中预测或预后的特定模型/统计方法的选择。虽然切萨诺讨论了合适模型的选择，但这些模型一旦被选择仍然遭受同样的固有偏差困难。

因此，即使在本领域中已知各种系统和治疗预测方法，其全部或几乎全部都具有各种缺点。因此，仍然需要有助于在开始治疗之前更准确地预测癌症患者对预期化学疗法的药物治疗反应的系统和方法。

发明概述

本发明人发现，高级别膀胱癌的治疗结果的预测模型可以从模型集合中衍生，所述模型使用以前已知的高级别膀胱癌omics信息训练的各种机器学习算法制备，所述信息和治疗结果相关。最优选地，通过识别具有高准确度增益的模型和从识别的模型中选择轨迹参数和相关加权来改进预测准确度。

在本发明的一个方面，本发明人考虑预测具有高水平膀胱癌的患者的治疗结果的方法。在优选方面中，考虑的方法包括获得来自患者的多种组学数据的步骤，和另外的步骤(a)使用准确度增益度量来选择至少单一模型以预测高级别膀胱癌治疗的治疗结果，或(b)基于之前确定的准确度增益度量选择至少单一模型以预测高级别膀胱癌治疗的治疗结果。模型可以从较大数量中选择，例如，从至少10个训练有素的模型中，或从至少100训练的模型中，甚至更多。在又一步骤中，分析引擎然后使用单一模型和来自患者的多种组学数据来计算预测结果(例如治疗完全反应、治疗部分反应、治疗稳定无反应和治疗进行性无反应)。

最典型地，组学数据包括全基因组差异对象、外显子差异对象、SNP数据、拷贝数数据、RNA转录数据、蛋白质表达数据和/或蛋白质活性数据，并且进一步优选准确度增益度量可以是准确度增益、准确度增益分布、曲线下面积度量、R²度量、p-值度量、轮廓系数和/或混淆矩阵。虽然不限制本发明的主题，还考虑的是单一模型的准确度增益度量在所有模型的前四分之一内，或在所有模型的前5％内，或其中单一模型的准确度增益度量超过所有其他模型。

在另外考虑的方面，单一模型可使用机器学习算法产生，机器学习算法使用选自下列的分类器：NMFpredictor(线性),SVMlight(线性),SVMlight一阶多项式核函数(degree-d polynomial),SVMlight二阶多项式核函数(degree-d polynomial),WEKA SMO(线性),WEKA j48树(树-基),WEKA hyper pipes(distribution-基),WEKA randomforests(树-基),WEKA naive Bayes(probabilistic/bayes),WEKA JRip(rules-基),glmnet lasso(稀疏线性),glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。

最优选地，计算步骤包括选择具有最小绝对预定权重的单一模型的特征的步骤(例如在单一模型中所有权重的前四分之一内)。虽然许多特征可能是合适的，考虑的是计算步骤在单一模型中使用至少10个不同的选定特征。在高级别膀胱癌的特别优选的方法中，单一模型的特征是选自下列的基因的RNA转录值：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。而且，考虑的是，基因的RNA转录值使用各自因子计算，各因子使用绝对值按下列顺序加权：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。

从不同的角度来看，因此，发明人也考虑预测具有高水平膀胱癌的患者的治疗结果的方法。这些方法优选包括获得患者的多种RNA转录数据的步骤，和另外的步骤：通过分析引擎和使用所述患者的多种RNA转录数据、治疗结果得分，使用模型来计算。最典型地，模型使用选自下列的基因的RNA转录值：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。

最优选地，多种RNA转录数据得自polyA RNA，和/或治疗结果得分指示治疗完全反应、治疗部分反应、治疗稳定无反应或治疗进行性无反应。如上所述，考虑的是模型使用机器学习算法产生，机器学习算法使用选自下列的分类器：NMFpredictor(线性),SVMlight(线性),SVMlight一阶多项式核函数(degree-d polynomial),SVMlight二阶多项式核函数(degree-d polynomial),WEKA SMO(线性),WEKA j48树(树-基),WEKA hyper pipes(distribution-基),WEKA random forests(树-基),WEKA naive Bayes(probabilistic/bayes),WEKA JRip(rules-基),glmnet lasso(稀疏线性),glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)，和/或基因的RNA转录值用各自的因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。

因此，发明人还考虑预测具有高水平膀胱癌的患者的治疗结果的方法。特别优选的方法包括：获得患者的多种RNA转录数据的步骤，其中RNA转录值是选自下列的至少两种基因的值：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN；和另外步骤：使用在模型中通过机器学习算法产生的RNA转录值，以预测患者的治疗结果。

虽然不限于本发明的主题，通常优选的是机器学习算法使用选自下列的分类器：NMFpredictor(线性),SVMlight(线性),SVMlight一阶多项式核函数(degree-dpolynomial),SVMlight二阶多项式核函数(degree-d polynomial),WEKA SMO(线性),WEKAj48树(树-基),WEKA hyper pipes(distribution-基),WEKA random forests(树-基),WEKA naive Bayes(probabilistic/bayes),WEKA JRip(rules-基),glmnet lasso(稀疏线性),glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。而且，考虑的是，基因的RNA转录值使用各自因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。

因此，本发明人还考虑使用RNA转录值来预测高级别膀胱癌治疗的治疗结果，其中该预测使用从机器学习算法获得的单一模型，并且其中基因的RNA转录值选自：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。通常但不一定，基因的RNA转录值用各自的因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4,PCDHGB1,HSP90AB2P,SPAG9,DDI2,TOP1P2,AGAP1,BBS9,FNIP2,LOC647121,NFIC,TGFBRAP1,EPRS,C9orf129,SARS,RBM28,NACC2,GTPBP5,PRKAR2A,CDK8,FAM24B,CRK,RAB2A,SMAD2,ELP2,WWP1,KIF5B,RPL39,PSEN1,SURF4,TTC35,TOM1,TES,VWA1,GOLGA2,ARHGAP21,FLJ37201,KIAA1429,AZIN1,SCAMP2,H1F0,PYCR1,SEC24D,FLNB,PATL1,HDLBP,RRBP1,OXR1,GLB1,NPEPPS,KIF1C,DDB1和GSN。

本发明主题的各种目的、特征、方面和优点将从以下对优选实施例的详细描述以及附图中变得更加明显，其中相同的附图标记表示相同的部件。

附图简述

图1是使用TCGA高级别膀胱癌数据从具有高准确度增益的模型导出的特征和特征权重的示例表。

图2是来自药物治疗应答者和无应答者的TCGA高级别膀胱癌数据的RNA转录值的示例性热图。

发明详述

本发明主题涉及各种计算机系统和方法，其中针对特定肿瘤疾病(例如膀胱癌)的相对较大类别的患者的基因组信息经受相对大量的机器学习算法，从而识别相应的大量预测模型。然后分析预测模型的准确度增益，然后使用最高准确度增益的模型来识别预测的相关因子。

因此，应特别理解的是，考虑的系统和方法既不是基于单一模型的预测优化，也不是基于选择的项目参数与治疗预测的最佳相关性的识别。相反，应该认识到，考虑的系统和方法依赖于从机器学习算法的一个或多个实现中导出的omics参数和相关联的权重因子的识别，其导致具有预定或最小准确度增益的训练模型。值得注意的是，如此确定的omics参数通常本身不具有统计学上的预测能力，因此不会在任何基于omics的测试系统中使用。然而，在具有高准确度增益的训练模型的上下文中使用这种识别的轨迹参数的情况下，多个轨迹参数将为系统提供高预测能力，特别是当使用与训练模型相关联的加权因子在系统中应用时。当然，也应该意识到，这样的模型和omics参数和权重对于特定训练集和/或结果预测的类型是唯一的，并且其他疾病(例如肺癌)和/或结果预测(例如，5年以上的生存时间)可能导致完全不同的模型、omics参数和权重。因此，发明人被认为发现与高级别膀胱癌相关联的具有高预测能力的体重和/或训练模型。另外，通过在电脑中调制，使用已知的路径建模系统和方法，治疗预测可以从先验鉴定的途径和/或途径元件或鉴定的途径和/或途径元件验证，以此来帮助确定系统预测的治疗策略。

因此，预期本发明主题涉及各种系统和方法，其中用于患有高级膀胱癌的相对较大类别的患者的基因组信息和相关联的元数据经受多个且不同的机器学习算法。在本发明主题的一个优选方面，RNA转录值和相关联的元数据(例如，治疗结果)在预处理步骤中进行训练和验证分割，然后将该数据提供给不同的机器学习包用于分析。

应该注意，所公开的发明主题的重点是使得能够构建或配置计算设备以超越人的能力对大量的数字数据进行操作。虽然数字数据可以表示组学数据和治疗结果的机器训练的计算机模型，但应当理解，数字数据是这样的真实世界项目的一个或多个数字模型的表示，而不是实际项目。相反，通过适当地配置或编程本文所公开的设备，通过在计算设备的存储器中实例化这些数字模型，计算设备能够以超出人的能力的方式来管理数字数据或模型。此外，没有这种配置，计算设备缺乏先验能力。此外，应当理解，本发明的主题显着地改善/减轻了复杂轨迹计算的计算分析固有的问题。

从不同的角度来看，应当理解，计算机技术中的现有系统和方法被用于解决组学数据的计算模型中固有的问题。因此，没有计算机，问题以及因此本发明的主题将不存在。更具体地，所公开的方法导致一个或多个优化的训练模型具有比其他训练较差能力的训练模型更高的准确度增益，这导致基于患者数据产生预测结果的较少等待时间。

应该注意，应该阅读指向计算机的任何语言，以包括计算设备的任何合适的组合，包括服务器、接口、系统、数据库、代理、对等体、引擎、控制器、模块或单独或集体运行的其他类型的计算设备。应该理解，计算设备包括被配置为执行存储在有形的、非暂时的计算机可读存储介质(例如，硬盘驱动器、FPGA、PLA、固态驱动器、RAM、闪存、ROM等)上的软件指令的处理器。软件指令配置或以其他方式编程计算设备以提供以下关于所公开的设备所讨论的角色、职责或其他功能。此外，所公开的技术可以体现为计算机程序产品，其包括存储软件指令的非暂时性计算机可读介质，所述软件指令使处理器执行与基于计算机的算法、过程、方法或其他说明。在一些实施例中，各种服务器、系统、数据库或接口使用可能基于HTTP、HTTPS、AES、公共-私人密钥交换、web服务API，已知金融交易协议或其他电子信息的标准化协议或算法交换数据交换方法。设备之间的数据交换可以通过分组交换网络、因特网、LAN、WAN、VPN或其他类型的分组交换网络、电路交换网络和/或小区交换网络进行。

如在本文的描述和整个所附权利要求中所使用的，当系统、引擎、服务器、设备、模块或其他计算元件描述为被配置为对存储器中的数据执行或执行功能时，“被构造为”或“编程为”被定义为计算元件的一个或多个处理器或核心被存储在计算元件的存储器中的一组软件指令编程，以执行该组功能或对存储器中所存储的目标数据或数据对象进行操作。

例如，在高级膀胱癌的分析中，处理了大量具有来自诊断为高级膀胱癌的患者的元数据的基因组数据，以创建训练数据集，然后将其馈送到模型模板集合(即，机器学习算法的软件实现)。使用数据集和机器学习系统，创建相应的训练模型，随后分析(和排名)准确度增益，如下所述。从具有最高准确度增益的模型中，提取每个参数的轨迹参数和加权因子作为预测模型。

更具体地说，使用上述方法，发明人通过分析公开的数据进行调查(这里：TCGABLCA数据)，其中高级别膀胱癌患者的数据将对化疗做出反应，这可能至少可能消除手术。在这个数据集中，在50例患者中追踪了116例药物治疗过程。在这116项治疗中，111种是化学药剂，包括阿霉素、阿瓦斯丁、卡铂、顺铂、多西紫杉醇、多柔比星、Etopside、吉西他滨、异环磷酰胺、甲氨蝶呤、紫杉醇和长春碱(或这些药物的相应品牌)。在这111项化疗中，有78项“治疗最佳反应”记录。如果患者具有记录完整或部分反应的化学药剂，则被认为是“化疗应答者”。如果他们有临床进展或稳定的疾病，他们被认为是“化疗无应答者”。共有33名患者记录了化疗反应(15名无应答者和18名应答者)。所有33例患者均使用进一步的TCGA临床资料证实为高级别膀胱癌患者。

这些数据用于产生72个候选预测模型，其中高级别肿瘤患者可以对化疗作出反应。通过将数据集分为训练集和验证集，使用k-fold交叉验证来训练每个模型。使用通过scikit-learn(scikit-learning developers，online scikit-learn.org)提供的预测模型模板，为每个可用数据集计算了24个预测模型，使用各种分类器，包括线性分类器、NMF-基分类器、图形-基分类器、树-基分类器、Bayesian-基分类器和net-基分类器，从而产生360个评估模型。然后，所有这样构建的评估模型进行准确度增益分析，以确定具有最高准确度增益的模型建立过程。在该例子中，通过使用验证数据集的正确预测百分比与多数分类器(本处：治疗有反应)的发生百分比(频率)进行比较来计算准确度增益。例如，如果在已知数据集中响应治疗频率为60％，并且如果该模型正确地预测了85％的治疗结果作为响应，准确度增益是25％。值得注意的是，在构建所有模型中，交叉验证测试折叠中最好的模型构建过程是88％准确的(比多数人好33％)并且使用elastic net分类器。使用最准确的构建过程的最终完全训练的模型从72个候选模型中选出。

应当理解，使用这种方法将快速产生相对大量的训练模型。例如，其中使用p个交叉验证的m种输入数据集使用n个算法，训练模型的总数为n×m×p。然后将所有这样构建的模型进行准确度增益分析，以确定具有最高准确度增益的模型。在该例子中，通过比较正确的预测百分比、使用验证数据集与多数分类器的发生百分比(频率)(这里：治疗是响应的)计算准确度增益。例如，如果在已知数据集中响应治疗频率为60％，并且如果该模型正确地预测了85％的治疗结果作为响应，准确度增益是25％。值得注意的是，在构建所有模型时，交叉验证测试折叠中最好的模型是88％准确(比多数人好33％)并使用elastic net分类器。

在这种情况下，必须理解，每种类型的模型包括固有的偏差或假设，这可能会影响所得到的训练模型如何相对于其他类型的训练模型操作，即使在相同的数据上训练。因此，当使用相同的训练数据集时，不同的模型将产生不同的预测/准确度增益。迄今为止，为了提高预测结果，单机器学习算法被优化，以增加相同数据集的正确预测。然而，由于算法的固有偏差，这种优化不一定会提高准确度(即，针对“硬币翻转”的准确预测能力)的可预测性。通过使用不同的基本原理和分类器对具有相关元数据的疾病特异性数据集进行训练，并通过从训练有素的模型中选择具有期望的准确度增益或坚固性的模型，可以克服这种偏差。

一旦选择了具有高准确度增益的期望模型，然后可以从模型中选择具有高相关性的omic参数，以产生具有改进的预测准确度的预测模型。图1示例性地描绘了编码RNA的基因的集合，其中来自患者的组学数据是RNA转录数据(转录强度)。此处，如前所述，使用来自基因表达面板的RNA转录水平的先验已知的TCGA数据构建预测模型。最佳预测模型在交叉验证测试折叠中具有88％的准确度，并且显示了具有最高加权因子的前53个基因。例如，PCDHGA4基因(原钙粘附蛋白伽玛亚科A,4)对RNA表达的加权因子为-121543.6202，其他基因和加权因子列在PCDHGA4基因下面。应该理解的是，超过RNA转录数据的多种不同类型的数据也被用于创建训练有素的模型。发明人发现，相对于在其他类型的Omic数据(例如，WGS，SNP拷贝数，蛋白质组学等)上训练的其他训练的模型，使用RNA转录数据作为训练数据，得到最佳模型(即具有最高准确度增益的模型)。

图2示例性描述用于实际患者数据的热图，其中地图中的每一行对应于单个患者，并且每列对应于特定基因(此处，图1所示的基因)。从热图可以看出，患者数据分组为应答者(分类为CR：完全应答和PR：部分应答)和无应答者(分类为Prog：伴随疾病进展；和稳定：无疾病进展)。颜色深度/灰度值对应于测量的转录水平，并表示为-1.8和1.8之间的颜色/灰度值。采用图1的加权因子，每个患者的最终预测分数是图2的表达值与每个基因乘以加权因子的总和。任何超过零的最终预测分数(红色/灰色与+符号)表示可能的治疗反应，而最终预测分数低于零(蓝色/灰色带符号)表明可能缺乏治疗反应。可以从“顶级模型签名”(最终预测分数)中获取，“应答者”类别(应答者分类首排)只有一个假阳性结果，而无应答者有两个假阴性结果(Prog类别中的底行，稳定类别中的底行).

此外，进一步参考图2的热图，应当理解，每个RNA转录数据的统计学意义本身不足以用于精确预测，如图中底部的条形图所示。此处，条形表示响应者组和未应答者组的结果之间的已签名t检验值，该组对于使用Bonferroni校正的多重假设检验进行了校正。显而易见的是，如黑条(例如，DDI2、AGAP1等)和白条(RPL39)所示，只有有限的一组数据显示了应答者和无应答者之间的统计学显着差异。然而，当个别结果中的至少一些结合在一起(特别是与计算的加权相结合)时，模型的预测能力将优于大多数(如果不是所有竞争的其他模型)。

此外，还应该理解，使用路径建模算法(例如参见WO 2011/139345、WO 2013/062505、WO 2014/059036和WO 2014/193982)患者数据可用于在患者进行实际治疗之前验证和/或模拟治疗，并且可以使用高级别膀胱癌的最佳模型重新评估此类验证。例如，高度加权的RNA转录可以在通路建模系统中的电脑中夹断，并重新推断活动，这实际上在电脑中模拟药物干预在体内的预期效果。然后可以使用预测模型重新评估新推断的干预后数据。

在本发明主题的进一步设想的方面，应当认识到，虽然上述实施例使用RNA转录数据，但是一个或多个其他(或附加的)组学数据也适合于结合本文的教导使用。例如，合适的替代或附加组学数据包括全基因组差异对象数据、外显子差异对象数据、SNP数据、拷贝数数据、蛋白质表达数据和/或蛋白质活性数据。同样，与组学数据相关联的元数据不需要限于治疗结果，而是可以包括大量替代的患者或护理相关度量。例如，预期的元数据可以包括治疗费用、抵抗的可能性、转移性疾病的可能性、5年生存率、免疫治疗适用性、患者人口信息等。

类似地，应该注意，所创建的模型的数量不限于本发明的主题，并且(通常)较高数量的模型是优选的。这些模型优选地基于多个和不同的机器学习算法，并且应当理解，所有已知的机器学习算法被认为适合于在本文中使用。例如，考虑的分类器包括一种或多种线性分类器、基于NMF的分类器、基于图形的分类器、基于树的分类器、基于贝叶斯的分类器、基于规则的分类器、网络分类器和kNN分类器。然而，特别优选的算法将包括那些使用分类器的算法，所述分类器选自NMFpredictor(线性),SVMlight(线性),SVMlight一阶多项式核函数(degree-d polynomial),SVMlight二阶多项式核函数(degree-d polynomial),WEKASMO(线性),WEKA j48树(树-基),WEKA hyper pipes(distribution-基),WEKA randomforests(树-基),WEKA naive Bayes(probabilistic/bayes),WEKA JRip(rules-基),glmnet lasso(稀疏线性),glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。除了上述分类器，其他合适的算法包括各种形式的神经网络(例如人造神经网络、卷积神经网络等)、二元决策树或其他类型的学习。这些算法的来源可以通过下列容易地获得：TensorFlow(参见URL www.tensorflow.com)、OpenAI(参见URL www.openai.com)和Baidu(参见URL research.baidu.com/warp-ctc)。因此，发明人考虑：至少5、至少10、至少20、至少50、至少100、至少500、至少1,000、至少5,000、或至少10,000种训练模型产生。根据可能的训练数据集的数量、验证次数和算法类型的数量，得到训练的模型的数量甚至可能超过1,000,000训练模型。

一旦模型被创建，模型质量被评估，并且最优选地保留具有超过随机选择的预测能力的模型。从不同的角度来看，模型将根据其在准确度中的增益进行评估。有许多评估准确度的方式，具体选择可能至少部分取决于所使用的算法。例如，适当的指标包括准确度值、准确度增益、性能度量或对应模型的其他度量。额外的示例度量包括曲线下的面积度量、R²、p值度量、剪影系数、混淆矩阵或与模型或其对应的模型模板的性质有关的其他度量。

例如，可以通过使用已知数据集和相应的已知临床结果数据来推导出模型的准确度。因此，对于特定模型模板，可以建立针对输入已知数据集进行训练和验证的多个评估模型(例如，k倍交叉验证)。例如，可以根据80％的输入数据来训练训练有素的模型。一旦对该评估模型进行了培训，剩下的20％的基因组数据就可以通过评估模型来运行，看看它是否产生与已知临床结果数据的剩余20％相似或者相互关联的预测数据。训练后的评估模型的准确度被认为是正确预测数与总结果数之比。

例如，RNA转录数据集/临床结果数据集代表500名患者的队列。然后，数据集可以被划分成一组或多组评估训练集合，例如包含400个患者样本。然后根据400名患者样本创建模型，通过在剩余的100名患者的转录数据集上执行模型来验证如此训练的模型，以产生100个预测结果。然后将100个预测结果与临床结果数据集中患者数据的实际100个结果进行比较。训练模型的准确度是相对于总结果数量的正确预测结果的数量。如果在100个预测结果中，训练有素的评估模型可以生成符合患者数据的实际或已知临床结果的85个正确结果，则训练评估模型的准确度被认为是85％。或者，如果观察结果(例如，药物应答者)在RNA转录数据集的元数据中具有60％的频率，并且模型在100个预测结果中产生85个正确结果，则准确度增益将为25％(即，比随机观察结果高25％预测事件发生在60％，正确预测在85％，准确度增益为25％)。

根据模型/准确度分布的数量，应当理解，用于预测的模型可以被选择为顶尖模型(具有最高准确度增益或最高准确度得分等)、或顶部n-瓷砖(n-tile)(三分位数、四分位数、五分位数等)、或位于所有模型(前5％、前10％等)的前n％。因此，合适的模型可能具有超过所有其他模型的准确度增益度量。

对于单一模型，应当理解，基于顶部(或其他选择的单个)模型的预测可以基于作为输入数据的一部分的所有组学数据(即，使用所有RNA表达水平用于训练模型)或只是组学数据的一小部分。例如，只有组学数据的分数用于最终预测，模型中具有最高或最小绝对预定权重(例如，单一模型中所有权重的顶部四分位数)的组学数据通常是优选的显示在图1的所选特征(基因)中。因此，合适的模型将在预测中使用至少5个，或至少10个，或至少20个，或至少50个，或至少100个特征。此外，还应当理解，在识别出在治疗结果之间具有实质统计意义的特征的情况下，这些特征可以优选地组合在基因表达阵列中而不是预测算法中使用(例如，图中的显著特征2)。

对于本领域技术人员显而易见的是，除了已经描述的那些之外，在不脱离本文的发明构思的条件下还可以进行更多的修改。因此，除了所附权利要求的范围之外，本发明的主题不受限制。此外，在解释说明书和权利要求书时，所有术语应以符合上下文的最广泛的方式进行解释。特别地，术语“包括”和“包含”应被解释为以非排他性方式指代元素、组件或步骤，指示所引用的元件、组件或步骤可以与未明确引用的其他元素、组件或步骤存在、或使用、或组合。凡说明书声明涉及选自A、B、C...和N中的至少一种，文本应被解释为仅需要来自组中的一个元素，而不是A加N或B加N等。此外，如在本文的描述和整个权利要求中所使用的，“一个”、“一种”和“该”包括复数参考，除非上下文另有明确规定。此外，如本说明书中所使用的那样，“在...中”的含义包括“在...中”和“在...上”，除非上下文另有明确规定。

Claims

1.一种预测具有高水平膀胱癌的患者的治疗结果的方法，该方法包括：

获得来自患者的多种组学数据；

使用准确度增益度量来选择单一模型以预测高级别膀胱癌治疗的治疗结果，或基于之前确定的准确度增益度量选择单一模型以预测高级别膀胱癌治疗的治疗结果；

通过分析引擎，使用单一模型和来自患者的多种组学数据计算预测结果。

2.权利要求1所述的方法，其中所述组学数据选自：全基因组差异对象、外显子差异对象、SNP数据、拷贝数数据、RNA转录数据、蛋白质表达数据和蛋白质活性数据。

3.前述权利要求中任一项所述的方法，其中所述准确度增益度量选自：准确度增益、准确度增益分布、曲线下面积度量、R²、p-值度量、轮廓系数和混淆矩阵。

4.前述权利要求中任一项所述的方法，其中所述单一模型选自至少100种模型。

5.前述权利要求中任一项所述的方法，其中所述单一模型的准确度增益度量在所有模型的前四分之一内。

6.前述权利要求中任一项所述的方法，其中所述单一模型的准确度增益度量在所有模型的前5％内。

7.前述权利要求中任一项所述的方法，其中所述单一模型的准确度增益度量超过所有其他模型。

8.前述权利要求中任一项所述的方法，其中所述预测结果选自：治疗完全反应、治疗部分反应、治疗稳定无反应和治疗进行性无反应。

9.前述权利要求中任一项所述的方法，其中所述单一模型使用机器学习算法产生，所述机器学习算法使用选自下列的分类器：NMFpredictor(线性)、SVMlight(线性)、SVMlight一阶多项式核函数(degree-d polynomial)、SVMlight二阶多项式核函数(degree-dpolynomial)、WEKA SMO(线性)、WEKA j48树(树-基)、WEKA hyper pipes(distribution-基)、WEKA random forests(树-基)、WEKA naive Bayes(probabilistic/bayes)、WEKAJRip(rules-基)、glmnet lasso(稀疏线性)、glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。

10.前述权利要求中任一项所述的方法，其中计算步骤包括选择具有最小绝对预定权重的单一模型的特征的步骤。

11.权利要求10所述的方法，其中所述最小绝对预定权重在单一模型中在所有权重的最高四分之一内。

12.前述权利要求中任一项所述的方法，其中计算步骤在单一模型中使用至少10个不同的选定特征。

13.权利要求10所述的方法，其中所述特征是选自下列的基因的RNA转录值：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

14.权利要求13所述的方法，其中基因的RNA转录值用各自的因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

15.权利要求1所述的方法，其中所述准确度增益度量选自：准确度增益、准确度增益分布、曲线下面积度量、R²、p-值度量、轮廓系数和混淆矩阵。

16.权利要求1所述的方法，其中所述单一模型选自至少100种模型。

17.权利要求1所述的方法，其中所述单一模型的准确度增益度量在所有模型的前四分之一内。

18.权利要求1所述的方法，其中所述单一模型的准确度增益度量在所有模型的前5％内。

19.权利要求1所述的方法，其中所述单一模型的准确度增益度量超过所有其他模型。

20.权利要求1所述的方法，其中所述预测结果选自：治疗完全反应、治疗部分反应、治疗稳定无反应和治疗进行性无反应。

21.权利要求1所述的方法，其中所述单一模型使用机器学习算法产生，所述机器学习算法使用选自下列的分类器：NMFpredictor(线性)、SVMlight(线性)、SVMlight一阶多项式核函数(degree-d polynomial)、SVMlight二阶多项式核函数(degree-d polynomial)、WEKA SMO(线性)、WEKA j48树(树-基)、WEKA hyper pipes(distribution-基)、WEKArandom forests(树-基)、WEKA naive Bayes(probabilistic/bayes)、WEKA JRip(rules-基)、glmnet lasso(稀疏线性)、glmnet ridge regression(稀疏线性)和glmnet elasticnets(稀疏线性)。

22.权利要求1所述的方法，其中计算步骤包括选择具有最小绝对预定权重的单一模型的特征的步骤。

23.权利要求22所述的方法，其中所述最小绝对预定权重在单一模型中的所有权重的前四分之一内。

24.权利要求1所述的方法，其中计算步骤在单一模型中使用至少10个不同的选定特征。

25.权利要求22所述的方法，其中所述特征是选自下列的基因的RNA转录值：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

26.权利要求25所述的方法，其中基因的RNA转录值用各自的因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

27.一种预测具有高水平膀胱癌的患者的治疗结果的方法，该方法包括：

获得患者的多种RNA转录数据；和

通过分析引擎和使用所述患者的多种RNA转录数据、治疗结果得分，使用模型来计算；

其中所述模型使用选自下列的基因的RNA转录值：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

28.权利要求27所述的方法，其中所述多种RNA转录数据获得自polyA RNA。

29.权利要求27或28所述的方法，其中所述治疗结果得分指示治疗完全反应、治疗部分反应、治疗稳定无反应或治疗进行性无反应。

30.权利要求27至29中任一项所述的方法，其中所述模型使用机器学习算法产生，所述机器学习算法使用选自下列的分类器：NMFpredictor(线性)、SVMlight(线性)、SVMlight一阶多项式核函数(degree-d polynomial)、SVMlight二阶多项式核函数(degree-dpolynomial)、WEKA SMO(线性)、WEKA j48树(树-基)、WEKA hyper pipes(distribution-基)、WEKA random forests(树-基)、WEKA naive Bayes(probabilistic/bayes)、WEKAJRip(rules-基)、glmnet lasso(稀疏线性)、glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。

31.权利要求27至30中任一项所述的方法，其中基因的RNA转录值用各自的因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

32.权利要求27所述的方法，其中所述治疗结果得分指示治疗完全反应、治疗部分反应、治疗稳定无反应或治疗进行性无反应。

33.权利要求27所述的方法，其中所述模型使用机器学习算法产生，所述机器学习算法使用选自下列的分类器：NMFpredictor(线性)、SVMlight (线性)、SVMlight一阶多项式核函数(degree-d polynomial)、SVMlight二阶多项式核函数(degree-d polynomial)、WEKASMO(线性)、WEKA j48树(树-基)、WEKA hyper pipes(distribution-基)、WEKA randomforests(树-基)、WEKA naive Bayes(probabilistic/bayes)、WEKA JRip(rules-基)、glmnet lasso(稀疏线性)、glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。

34.权利要求27所述的方法，其中基因的RNA转录值用各自的因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

35.一种预测具有高水平膀胱癌的患者的治疗结果的方法，该方法包括：

获得患者的多种RNA转录数据；

其中所述RNA转录值是选自下列的至少两种基因的值：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN；以及

使用在模型中通过机器学习算法产生的RNA转录值，以预测患者的治疗结果。

36.权利要求35所述的方法，其中所述机器学习算法使用选自下列的分类器：NMFpredictor(线性)、SVMlight(线性)、SVMlight一阶多项式核函数(degree-dpolynomial)、SVMlight二阶多项式核函数(degree-d polynomial)、WEKA SMO(线性)、WEKAj48树(树-基)、WEKA hyper pipes(distribution-基)、WEKA random forests(树-基)、WEKA naive Bayes(probabilistic/bayes)、WEKA JRip(rules-基)、glmnet lasso(稀疏线性)、glmnet ridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。

37.权利要求36所述的方法，其中所述机器学习算法使用glmnetelastic nets(稀疏线性)分类器。

38.权利要求35所述的方法，其中所述基因的RNA转录值使用各自因子计算，并且其中各因子使用绝对值按下列顺序加权：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

39.RNA转录值用于预测高级别膀胱癌治疗的治疗结果的用途，其中所述预测使用得自机器学习算法的单一模型，并且其中所述基因的RNA转录值选自：PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

40.权利要求39所述的用途，其中所述基因的RNA转录值使用各自因子计算，并且其中各因子使用绝对值按下列顺序加权PCDHGA4、PCDHGB1、HSP90AB2P、SPAG9、DDI2、TOP1P2、AGAP1、BBS9、FNIP2、LOC647121、NFIC、TGFBRAP1、EPRS、C9orf129、SARS、RBM28、NACC2、GTPBP5、PRKAR2A、CDK8、FAM24B、CRK、RAB2A、SMAD2、ELP2、WWP1、KIF5B、RPL39、PSEN1、SURF4、TTC35、TOM1、TES、VWA1、GOLGA2、ARHGAP21、FLJ37201、KIAA1429、AZIN1、SCAMP2、H1F0、PYCR1、SEC24D、FLNB、PATL1、HDLBP、RRBP1、OXR1、GLB1、NPEPPS、KIF1C、DDB1和GSN。

41.权利要求39所述的用途，其中所述机器学习算法使用选自下列的分类器：NMFpredictor(线性)、SVMlight(线性)、SVMlight一阶多项式核函数(degree-dpolynomial)、SVMlight二阶多项式核函数(degree-d polynomial)、WEKA SMO(线性)、WEKAj48树(树-基)、WEKA hyper pipes(distribution-基)、WEKA random forests(树-基)、WEKA naive Bayes(probabilistic/bayes)、WEKA JRip(rules-基)、glmnet lasso(稀疏线性)、glmnetridge regression(稀疏线性)和glmnet elastic nets(稀疏线性)。

42.权利要求41所述的用途，其中所述机器学习算法使用glmnet elastic nets(稀疏线性)。