CN101378764A

CN101378764A - 通过血液白细胞微阵列分析对系统性红斑狼疮的诊断、预后和疾病发展的监测

Info

Publication number: CN101378764A
Application number: CNA2006800526082A
Authority: CN
Inventors: D·乔萨贝尔; J·F·班切里奥
Original assignee: Baylor Research Institute
Current assignee: Baylor Research Institute
Priority date: 2005-12-09
Filing date: 2006-12-09
Publication date: 2009-03-04
Also published as: US20140179807A1; US20070231816A1; CN101374964B; CN101374964A

Abstract

本发明包括使用基因表达数据模块分析，用于SLE早期检测和相容性测定的组合物、系统、阵列和方法。

Description

通过血液白细胞微阵列分析对系统性红斑狼疮的诊断、预后和疾病发展的监测

发明领域

本发明总体上涉及系统性红斑狼疮的诊断领域，并且更特别涉及用于在治疗前、治疗过程中和治疗后对系统性红斑狼疮的诊断、预后和疾病发展的监测的系统、方法和装置。

长表格

本申请包括以下的表格，它们的全部内容都引入本发明作为参考。一同附上包括文件区的两个CD副本。

发明背景

所描述的与诊断、预后和疾病发展的监测有关的背景并不是对本发明范围的限制。

系统性红斑狼疮(SLE)是以先天性免疫和获得性免疫调节异常为特征的自身免疫疾病(1-6)。发病过程是以不能预期的复发性红斑和使患者状况恶化为特征。现有的治疗是基于非特异性免疫抑制，其特别需要识别用于干预治疗的新靶点。对小鼠和人的研究提供了有力的证据，即α-干扰素，一种有效的抗病毒细胞因子，对SLE免疫系统异常有作用，可能代表了一种这样的新靶点(7-9)。

然而，检测新治疗剂的临床试验受到了SLE临床表现的多样性，以及缺乏可靠的疾病活动和终末器官损伤的标记的阻碍。至少有6种对SLE整体疾病活动的组合测量手段可以使用(10-15)。这些工具能够评价文献，并且对疾病活动定量，已经被用于临床试验中。然而，某些被包括在内的测量手段并不容易获得。相反地，鉴于临床疾病的多样性，并非所有SLE表现都可以在这些工具中进行计算，使得全面评估患者的病征很困难。因此，开发更好的用于评估疾病的整体活动，例如监测疾病发展的系统的需求是很重要的。

现有的用于确定和追踪SLE疾病活动以及全身症状的方法是随着个体的SLE病征变化的，包括例如SLE疾病活动指数(SLEDAI)，系统性狼疮活动测量值(SLAM)，患者视觉模拟评分(Patient Visual Analog Scale，患者VAS)以及Kxupp疲劳程度评分(Kxupp Fatigue Severity Score，KFSS)。开始评价后确定SLEDAI、KFSS、VAS和SLAM值之间的差别，开始治疗前确定SLEDAI、KFSS、VAS和SLAM的基线值。

尽管SLE优先影响育龄妇女，但是高达20％的患者在18岁之前就被确诊了。儿科和成人SLE患者的表现、临床症状和免疫学调查结果相似。然而，相比成人患者，儿童发病倾向于更严重，器官损害的风险更高，并且临床过程更危险(16-18)。诊断儿童SLE所依据的标准与用于成人的标准相同(19，20)。

血清中出现抗核抗体(ANA)是SLE中普遍存在的。然而，高达5-10％的正常人群的ANA检测呈现低滴度阳性(21)。当患有慢性骨骼肌疼痛的患者的ANA滴度呈阳性时，他们可能被误诊为患有SLE，并且进行不必要的检测和长期治疗。一种这样的症状是纤维肌痛，对成人和儿童都有影响的病症(23)。

发明概述

基因组研究正面临重大挑战，即转录数据分析的噪音很大，难以解释且不能很好地进行跨实验室和平台的对比。本发明人已经研发了重点在于在分析早期阶段筛选生物学上相关基因的分析策略，其被整理成分析模块以克服微阵列平台间的不一致性。研发的转录模块可以被用于大量基因表达数据集的分析。这种分析获得的结果很容易解释，并且特别稳定，正如跨商用微阵列平台所观察到的高度重现性所证实的。

通过挖掘一个大的PBMC转录情况集合对这种分析过程的应用进行说明。对4742个基因重新分组，确定了28个转录模块。利用本发明能够证明疾病的唯一特征在于模块水平上测定的例如血液白细胞的转录变化组合。实际上，血液白细胞转录水平中的模块水平变化构成了疾病或样品的分子指纹。

本发明的应用范围很广，例如表征任何生物系统(例如，外周血单核细胞(PBMCs)、血细胞、粪便细胞、腹膜细胞、固体器官活检物、切除的肿瘤、原代细胞、细胞系、细胞克隆等)的模块转录组分。通过该方法形成的模块PBMC转录数据能够被用于分子诊断、预后、疾病严重程度的评估、药物治疗的响应、药物毒性等。使用该方法处理的其它数据能够被用于例如机理研究或药物化合物的筛选。实际上，数据分析策略和挖掘算法可以在一般的基因表达数据分析软件中进行，并且甚至可以被用于发现、开发和测试新的疾病或病征的特异性模块。本发明还可以与药物基因组学、分子诊断学、生物信息学等等联合使用，其中深入的表达数据可以被用于改善可能在临床试验期间获得的结果(例如改善或在大量样品中进一步筛选(sub-selecting))。

更特别地，本发明包括用于诊断疾病或病征的阵列、装置、系统和方法，它们是通过获取患者的转录组(transcriptome)；根据一个或多个作为疾病或病征指示物(indacative)的转录模块分析转录组；并且根据一种或多种转录模块的转录组中基因的存在、缺失或表达水平确定患者的疾病和病征。转录模块可以这样获得:从与每种疾病或病征匹配的每个类(clusters)中选择用于模块的基因，由此反复地选择用于一种或多种转录模块的基因表达值；除去分析中被选中的基因；以及针对在疾病和病征子分类(sub-fraction)中形成类的基因，重复选择基因表达值的过程；并且反复地重复产生针对每个类的模块，直到所有的基因类都用完。

被选中的用于本发明的类的例子包括但不限于:表达值类、关键词类、代谢类、疾病类、感染类、移植类、信号类、转录类、复制类、细胞周期类、siRNA类、miRNA类、线粒体类、T细胞类、B细胞类、细胞因子类、淋巴因子类、热休克类以及它们的组合。利用本发明来分析的疾病和病征的例子包括，例如自身免疫疾病、病毒感染、细菌感染、癌症和移植排斥。更特别地，被分析的疾病可以选自一种或多种以下病征:全身型幼年特发性关节炎、系统性红斑狼疮、I型糖尿病、接受肝移植者、黑色素瘤患者，以及如大肠杆菌、金黄色葡萄球菌的细菌感染，如甲型流感的病毒感染，以及它们的组合的患者。甚至可以制备检测与生物恐怖试剂有关的特定疾病或病征的特定阵列。

可以使用本发明分析的细胞包括，例如外周血单核细胞(PBMCs)，血细胞、粪便细胞、腹膜细胞、固体器官活检物、切除的肿瘤、原代细胞、细胞系、细胞克隆和它们的组合。本发明描述的分析工具可以用于分析多种生物，例如小鼠、大鼠、狗、牛、绵羊、马、斑马鱼等中的特定模块中的基因表达。细胞可以是单细胞、细胞的集合、组织、细胞培养物、例如血液的体液中的细胞。细胞可以获自组织活检、一种或多种分类的细胞群、细胞培养物、细胞克隆、转化的细胞、活组织检查(biopies)或单个细胞。细胞的类型可以是例如脑、肝、心脏、肾、肺、脾、视网膜、骨骼、神经系统的、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织和嗅觉上皮细胞。细胞被分离后，获得这些细胞的这些mRNA，采用例如探针阵列、PCR、定量PCR、基于微球的阵列以及它们的组合进行个体基因表达水平的分析。甚至可以利用固体支持物上的核酸杂交来进行个体基因表达水平的分析，其中利用了由从细胞中收集的mRNA制备的cDNA作为逆转录酶的模板。

本发明包括用于预后、诊断和监测系统性红斑狼疮(SLE)的疾病发展的系统和方法，它们利用了多变量基因表达分析方法。基因表达保持差异可以归因于对未匹配的变量的高度置信度。因此，经确认的基因表达差别可以被用于，例如诊断疾病、鉴定生理状态、设计药物和监测治疗。

在一个实施方案中，本发明包括通过测定一种或多种形成基因模块组成部分的生物标记的表达水平来识别易患SLE的人类受试者的方法，正如本发明所述，如本发明下文所述的模块中的基因:

以该例子中使用的字母和数字列出下列模块，而模块包括一种或多种列出的基因(以及它们的互补物或等同物)，这些基因形成如M1.7、M2.2；M2.7；和3.1列出的模块。同样地，模块限于一种或多种列出的基因，例如1、2、3、4、5、6、7、8、9、10、15、20、25、30、50、75、100或更多个下列基因，它们被分到下列可以被用于分析一种或多种基因表达的转录组中，这些基因随后被加工成一种或多种表达向量(vector)，这是用于诊断、预后以及甚至是疾病治疗和监测的患者组合表达水平(及其变化)，而这些患者被怀疑患有某种自发炎症、自身免疫或者其它疾病(遗传的或获得性的)，包括:

模块M1.7，其中包括一种或多种以下基因或基因片段:UniGene ID:Hs.406683；Hs.514581；Hs.546356；Hs.374553；Hs.448226；Hs.381172；Hs.534255；Hs.406620；Hs.534255；Hs.410817；Hs.136905；Hs.546394；Hs.419463；Hs.5308；Hs.514581；Hs.387804；Hs.546286；Hs.300141；Hs.356366；Hs.433427；Hs.533624；Hs.546356；Hs.370504；Hs.433701；Hs.153177；Hs.150580；Hs.514581；Hs.356794；Hs.419463；Hs.433427；Hs.469473；Hs.380953；Hs.410817；Hs.421257；Hs.408054；Hs.433529；Hs.458476；Hs.439552；Hs.156367；Hs.546291；Hs.546290；Hs.514581；Hs.144835；Hs.439552；Hs.356502；Hs.397609；Hs.446628；Hs.546356；Hs.265174；Hs.425125；Hs.374596；Hs.381126；Hs.381061；Hs.406620；Hs.533977；Hs.447600；Hs.148340；Hs.421907；Hs.448226；Hs.410817；Hs.119598；Hs.433427；Hs.410817；Hs.8102；Hs.446628；Hs.356572；Hs.381123；Hs.515329；Hs.408054；Hs.483877；Hs.386384；Hs.337766；Hs.408073；Hs.546289；Hs.374596；Hs.512199；Hs.119598；Hs.499839；Hs.446588；Hs.356572；Hs.397609；Hs.356572；Hs.144835；Hs.515329；Hs.534833；Hs.374588；Hs.144835；Hs.80545；Hs.546356；Hs.400295；Hs.119598；Hs.408073；Hs.412370；Hs.401929；Hs.425125；Hs.374588；Hs.374588；Hs.356366；Hs.186350；和/或Hs.186350；以及

M2.2，其中包括一种或多种以下基因或基因片段:UniGene ID:Hs.513711；Hs.375108；Hs.176626；Hs.2962；Hs.41；Hs.99863；Hs.530049；Hs.51120；Hs.480042；Hs.36977；Hs.294176；Hs.529019；Hs.2582；Hs.550853；Hs.529517和/或Hs.204238；以及

M2.4，其中包括一种或多种以下基因或基因片段:Hs.518827；Hs.8102；Hs.190968；Hs.508266；Hs.523913；Hs.437594；Hs.515598；Hs.54780；Hs.534384；Hs.527105；Hs.522885；Hs.462341；Hs.127610；Hs.408018；Hs.381219；Hs.6917；Hs.109798；Hs.497581；Hs.369728；Hs.432485；Hs.314359；Hs.409140；Hs.529798；Hs.477028；Hs.107003；Hs.528668；Hs.314359；Hs.6917；Hs.333120；Hs.500822；Hs.131255；Hs.469925；Hs.410817；Hs.277517；Hs.529631；Hs.367900；Hs.408054；Hs.467284；Hs.111099；Hs.378103；Hs.108332；Hs.397609；Hs.80545；Hs.529631；Hs.472558；Hs.519452；Hs.516023；Hs.438429；Hs.515472；Hs.512675；Hs.438429；Hs.314359；Hs.75056；Hs.482526；Hs.333388；Hs.483305；Hs.515329；Hs.288856；Hs.546288；Hs.483305；Hs.534346；Hs.528435；Hs.381219；Hs.469925；Hs.172791；Hs.190968；Hs.182825；Hs.492599；Hs.406620；Hs.549130；Hs.532359；Hs.534346；Hs.421257；Hs.511831；Hs.380920；Hs.311640；Hs.546356；Hs.119598；Hs.405590；Hs.178551；Hs.499839；Hs.148340；Hs.483305；Hs.505735；Hs.381219；Hs.299002；Hs.532359；Hs.5662；Hs.515329；Hs.408073；Hs.515070；Hs.448226；Hs.515329；Hs.511582；Hs.421608；Hs.186350；Hs.529798；和/或Hs.294094；以及

M2.8，其中包括一种或多种以下基因或基因片段:Hs.397891；Hs.438801；Hs.125036；Hs.210891；Hs.220629；Hs.376208；Hs.316931；Hs.196981；Hs.271272；Hs.397891；Hs.7946；Hs.505326；Hs.369581；Hs.58685；Hs.7236；Hs.17109；Hs.49143；Hs.505806；Hs.60339；Hs.13262；Hs.22380；Hs.233044；Hs.133397；Hs.445489；Hs.60339；Hs.428214；Hs.431498；Hs.533994；Hs.533994；Hs.498317；Hs.533994；Hs.517717；Hs.173135；Hs.522679；Hs.446149；Hs.525700；Hs.519580；Hs.481704；Hs.379414；Hs.125036；Hs.440776；Hs.475602；Hs.173135；Hs.481704；Hs.167087；Hs.142023；Hs.524134；Hs.98309；Hs.433700；Hs.480837；Hs.5019；Hs.525700；Hs.94229；Hs.446149；Hs.502710；

M3.1，其中包括一种或多种以下基因或基因片段:Hs.276925；Hs.98259；Hs.478275；Hs.273330；Hs.175120；Hs.190622；Hs.175120；Hs.415534；Hs.62661；Hs.344812；Hs.145150；Hs.5148；Hs.302123；Hs.65641；Hs.62661；Hs.86724；Hs.120323；Hs.370515；Hs.291000；Hs.62661；Hs.118110；Hs.131431；Hs.464419；Hs.65641；Hs.145150；Hs.415534；Hs.54483；Hs.520102；Hs.414579；Hs.190622；Hs.374950；Hs.478275；Hs.369039；Hs.229988；Hs.458414；Hs.425777；Hs.531314；Hs.352018；Hs.526464；Hs.470943；Hs.514535；Hs.487933；Hs.481143；Hs.217484；Hs.524117；Hs.137007；Hs.458414；Hs.374650；Hs.470943；Hs.50842；Hs.118633；Hs.130759；Hs.384598；Hs.524760；Hs.441975；Hs.530595；Hs.546467；Hs.529317；Hs.175687；Hs.112420；Hs.1706；Hs.523847；Hs.388733；Hs.163173；Hs.470943；Hs.481141；Hs.171426；Hs.174195；Hs.518201；Hs.118633；Hs.489118，Hs.489118；Hs.193842；Hs.551516；Hs.518203；Hs.371794；Hs.529317；Hs.195642；Hs.12341；Hs.414332；Hs.524760；Hs.479264；Hs.501778；Hs.414332；Hs.12646；Hs.518200；Hs.441975；Hs.441975；Hs.437609；Hs.130759；Hs.82316；Hs.518200；Hs.458485；Hs.31869；Hs.166120；Hs.549041；Hs.17518；Hs.546467；Hs.517307；Hs.549041；Hs.528634；Hs.389724；Hs.546523；Hs.82316；Hs.7155；Hs.521903；Hs.26663；Hs.120323；和/或Hs.926。

其中，生物标记是与SLE的易感性和/或预后相关联的。

生物标记可以包括选自上调和下调这些基因的转录调节基因。特定的一种或多种基因模块集合选自:

一种或多种包括I型MHC分子:HLA-A、B、C、G、E)+β2-微球蛋白(B2M)，核糖体蛋白:RPLs、RPSs的“MHC/核糖体基因”；以及附表中列出的用于模块M1.7的基因；

一种或多种包括乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白(BPI)，Cathelicidin抗菌蛋白(CAMP)的“中性粒细胞基因”；以及附表中列出的用于模块M2.2的基因；

一种或多种包括RPLs，RPSs，真核翻译延伸因子家族成员(EEFs)，核仁蛋白:NPM1、NOAL2、NAP1L1的“核糖体蛋白基因”；以及附表中列出的用于模块M2.4的基因；

一种或多种包括CD5、CD6、CD7、CD26、CD28、CD96、淋巴毒素β、IL2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3以及STAT5B的T细胞表面标记基因；以及附表中列出的用于模块M2.8的基因；以及

一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)，信号分子(STAT1、STAt2、IRF7、ISGF3G)的“干扰素可诱导的基因”；以及附表中列出的用于模块M3.1的基因；

它们足以用来区分SLE、纤维肌痛、病毒感染、细菌感染、癌症和移植排斥。特别地，参考引入本发明作为参考的长表格，可以用于区分SLE和纤维肌痛的模块可以包括:M1.1、M1.7、M2.1、M2.2、M2.3、M2.4、M2.5、M2.6、M2.7、M2.8和M3.1，其中每一个都可以包括1、2、3、4、5、6、7、8、9、10、15、20或更多个用于分析的基因。

可以通过对生物标记的mRNA、蛋白质、或mRNA和蛋白质两者的水平定量来筛选生物标记。当生物标记为mRNA水平时，可以通过选自聚合酶链反应、实时聚合酶链反应、逆转录酶聚合酶链反应、杂交、探针杂交以及基因表达阵列的方法来对其定量。筛选方法也可以包括检测生物标记中的多态性。备选地，筛选步骤可以利用至少一种选自聚合酶链反应、异源双链分析、单链构象多态性分析(single stand conformationalpolymorphism analysis)、连接酶链反应、比较性基因组杂交、Southern印迹、Northern印迹、Western印迹、酶联免疫吸附试验、荧光共振能量转移以及测序的技术来完成。对于本发明的应用而言，样品可以是多种免疫细胞，例如全血细胞、白细胞或它们的组成成分(sub-components)中的任何一种。

另一个实施方案包括根据组织样品诊断系统性红斑狼疮(SLE)的方法，该方法包括从组织样品获取基因表达的情况，其中由M1.1、M1.7、M2.1、M2.2、M2.3、M2.4、M2.5、M2.6、M2.7、M2.8和/或M3.1测量两种或多种下列基因相对于正常对照样品的表达。用作生物标记，例如RNA的原料的组织可以是血液或其组成成分。

本发明的阵列、方法和系统甚至可以用于筛选用于临床试验的患者，这是通过获取疑似患者(prospective patient)的转录组；将转录组与一种或多种转录模块进行对比，而这些模块是在临床试验中将被治疗的疾病或病征的指示物；以及根据患者的转录组中表达的一种或多种基因的存在、缺失或水平，确定患者成为适宜用于临床试验的候选者的可能性，所述转录组处在与临床试验的取得成功相关联的一种或多种转录模块中。通常地，对于每个转录模块，可以使用与样品中转录物的比例总和相关联的向量，例如当每个模块包括向量时，并且其中一种或多种疾病或病征与一种或多种向量相关联。因此，每个模块可以包括与每个模块中一种或多种基因的表达水平相关联的向量。

本发明也包括阵列，例如定制微阵列、微珠阵列、液体悬浮阵列等，其包括固定于固体支持物上的核酸探针，该固体支撑物包括足够的来自一个或多个模块的探针，从而提供足够比例的表达有差异的基因以区分一种或多种疾病，探针选自以下表格。例如，固定于固体支持物上的核酸探针阵列包括至少两个探针模块的集合，该探针模块选自一种或多种以下模块:M1.1、M1.7、M2.1、M2.2、M2.3、M2.4、M2.5、M2.6、M2.7、M2.8和/或M3.1中列出的基因，其中第一探针集合中的探针具有分别对应于一种或多种疾病的探测位置(interrogation position)。阵列可以具有100到100,000个探针，每个探针的长度可以是例如9、15、20、30、40、50、75、100或更多个核苷酸。在某些实施方案中，探针的长度可以是上千个碱基，要不就是几十万个碱基(例如限制性片段、质粒、粘粒等)。当探针被分到有序的探针集合时，这些探针可以一起被探测或单独被探测。

本发明也包括一种或多种固定于固体支持物上的核酸探针以形成模块阵列，该模块阵列包括至少一对第一和第二探针组，每组具有一种或多种由表3定义的探针(例如，M1.7、M2.2、M2.4、M2.8和M3.1列出的模块中所列出的探针)。选择探针组以提供跨微阵列平台保持一致的组合转录标记(向量)。实际上，探针组甚至可以被用于提供跨微阵列平台保持一致并且显示在用于监管审批(regulatory approval)的概要中的组合转录向量。技术人员将认识到使用本发明的模块能够快速地开发出一种或多种疾病特异性阵列，其可以被用于快速诊断或区分不同的疾病和/或病征。

用于确定个体是否患有系统性红斑狼疮(SLE)方法为通过获取患者的转录组，根据一种或多种转录模块对转录组进行评分；并且根据一种或多种转录模块的转录组中基因的存在、缺失或表达水平确定患者的疾病或病征，所述转录模块是SLE的指示物。更特别地，转录模块是这样获得的:从与每种疾病或病征匹配的每个类中选择用于模块的基因，由此反复选择用于一种或多种转录模块的基因表达值；除去分析中被选中的基因；以及针对在疾病或病征的子分类中形成类的基因，重复选择基因表达值的过程；以及反复地重复形成针对每个类的模块，直到所有的基因类用完。

类可以选自表达值类、关键词类、代谢类、疾病类、感染类、移植类、信号类、转录类、复制类、细胞周期类、siRNA类、miRNA类、线粒体类、T细胞类、B细胞类、细胞因子类、淋巴因子类、热休克类及它们的组合。患者可以是人类SLE患者，并且甚至可以是接受了治疗有效量的药物患者，该药物选自糖皮质激素、非甾体抗炎剂和免疫抑制剂。

本发明也包括诊断或监测患者自身免疫或慢性炎性疾病的方法，其包括检测两种或更多种基因模块的表达水平，这些模块包括选自:免疫球蛋白、中性粒细胞、干扰素、T细胞和核糖体蛋白的基因。一种或更多种基因可以选自一种或更多种下列模块:M1.7、M2.2、M2.4、M2.8和M3.1中列出的基因，并且所述疾病是系统性红斑狼疮(SLE)。

在另一实施方案中，通过测定基因表达的RNA水平来检测基因及其产物的表达水平。该方法也包括在检测基因表达的RNA水平之前从患者中分离RNA，其中通过PCR和/或杂交，例如与互补的寡核苷酸的杂交来检测RNA水平。在某些实施方案中，分析基因表达也可以使用作为DNA、RNA、cDNA、PNA、基因组DNA或合成的寡核苷酸的探针。可以通过测定基因的蛋白水平来检测患者的基因表达水平，这作为备选或与上文提及的方法联合使用。

本发明的另一实施方案还包括疾病分析工具，其包括一种或多种作为转录模块的组成部分的探针，这些模块包括一种或多种选自下列基因的基因:

转录模块

一种或多种包括I型MHC分子:HLA-A、B、C、G、E)+β2-微球蛋白(B2M)，核糖体蛋白:RPLs、RPSs的MHC/核糖体基因；以及附表中模块M1.7列出的基因；

一种或多种包括乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白(BPI)，Cathelicidin抗菌蛋白(CAMP)的中性粒细胞基因；以及附表中模块M2.2列出的基因；

一种或多种包括RPLs，RPSs，真核翻译延伸因子家族成员(EEFs)，核仁蛋白:NPM1、NOAL2、NAP1L1的核糖体蛋白基因；以及附表中模块M2.4列出的基因；

一种或多种包括CD5、CD6、CD7、CD26、CD28、CD96、淋巴毒素β、IL2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3以及STAT5B的T细胞表面标记基因；以及附表中模块M2.8列出的基因；以及

一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的干扰素可诱导的基因；以及附表中模块M3.1列出的基因；

它们足以区分自身免疫性疾病(例如SLE)、病毒感染、细菌感染、癌症和移植排斥。

另一实施方案是作为定制基因阵列的预后基因阵列，其包括代表一种或多种转录模块的基因的组合，其中与定制基因阵列接触的患者的转录组作为SLE的预后。阵列可以被用于监测患者对SLE治疗的响应。阵列也可以被用于区分自身免疫性疾病、病毒感染、细菌感染、癌症和移植排斥。为了达到某些直接的检测目的，甚至可以将阵列组织成两个或更多个转录模块，这些模块可以经可视化扫描，并且对表达程度进行光学分析，例如利用肉眼和/或利用图像处理设备。例如，可以将阵列组织成三个转录模块，这三个转录模块具有一个或多个选自下列模块的子模块:

模块标识	探针集合的数量	关键词的选择	评估
模块标识	探针集合的数量	关键词的选择	评估	M1.1	76	Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu	血浆细胞。包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因。
M1.2	130	血小板、粘附、聚集、内皮、血管	血小板。包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)和源于血小板的免疫介质，如PPPB(前血小板碱性蛋白)和PF4(血小板因子4)的基因。	M1.1	76	Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu	血浆细胞。包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因。
M1.2	130	血小板、粘附、聚集、内皮、血管		M1.3	80	免疫受体、BCR、B细胞、IgG	B细胞。包括编码B细胞表面标记(CD72、CD79A/B、CD19、CD22)和其它B细胞相关分子:早期B细胞因子(EBF)、B细胞连接蛋白(BLINK)和B淋巴酪氨酸激酶(BLK)的基因。
M1.4	132	复制、抑制、修复、CREB、淋	未确定的。该集合包括cAMP信号传导途径(JUND、ATF4、CREM、	M1.3	80	免疫受体、BCR、B细胞、IgG

		巴的、TNF-α	PDE4、NR4A2、VIL2)的调节子和靶点，以及TNF-α介导的NF-KB活化的阻遏物(CYLD、ASK、TNFAIP3)。
		巴的、TNF-α		M1.5	142	单核细胞、树突状、MHC、共刺激、TLR4、MYD88	髓系。包括由髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中的一些涉及病原体识别(CD14、TLR2、MYD88)。该集合也包括TNF家族成员(TNFR2、BAFF)。
M1.6	141	锌、指、P53、RAS	未确定的。该集合包括编码信号分子，例如包含活化的STAT抑制剂(PLAS1和PLAS2)的锌指，或者活化的T细胞NFATC3核因子的基因。	M1.5	142	单核细胞、树突状、MHC、共刺激、TLR4、MYD88
M1.6	141	锌、指、P53、RAS		M1.7	129	核糖体、翻译的、40S、60S、HLA	MHC/核糖体蛋白。几乎专门由编码I型MHC分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因形成。
M1.8	154	代谢、生物合成、复制、解旋酶	未确定的。包括编码代谢酶(GLS、NSF1、NAT1)和涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因。	M1.7	129	核糖体、翻译的、40S、60S、HLA
M1.8	154	代谢、生物合成、复制、解旋酶		M2.1	95	NK、杀伤细胞、溶解细胞的、CD8、细胞介导的、T细胞、CTL、IFN-g	细胞毒性细胞。包括细胞毒性T细胞和NK细胞表面标记(CD8A、CD2、CD160、NKG7、KLRs)，溶解细胞的分子(颗粒酶、穿孔素、颗粒溶解素)，趋化因子(CCL5、XCL1)和CTL/NK细胞相关的分子(CTSW)。
M2.2	49	粒细胞、中性粒细胞、防御、髓	中性粒细胞。该集合包括中性粒细胞颗粒中发现的固有分子(乳运铁	M2.1	95	NK、杀伤细胞、溶解细胞的、CD8、细胞介导的、T细胞、CTL、IFN-g

		的、骨髓	蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白:BPI，Cathelicidin抗菌蛋白:CAMP......)。
		的、骨髓		M2.3	148	红细胞、红、贫血、球蛋白、血红蛋白	红细胞。包括血红蛋白基因(HGBs)和其它与血红蛋白相关的基因(红细胞alkirin:ANK1，血型糖蛋白C:GYPC，羟甲基胆素合成酶:HMBS，红细胞相关因子:ERAF)。
M2.4	133	核糖核蛋白、60S、核仁、装配、延伸	核糖体蛋白。包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)和核仁蛋白(NPM1、NOAL2、NAP1L1)的基因。	M2.3	148	红细胞、红、贫血、球蛋白、血红蛋白
M2.4	133	核糖核蛋白、60S、核仁、装配、延伸		M2.5	315	腺瘤、间质性、间充质、树突状、运动	未确定的。该模块包括编码免疫相关的(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关的分子(肌球蛋白、胞质分裂作用因子(dedicator)、粘结蛋白聚糖2、Plexin C1、Distrobrevin)的基因。
M2.6	165	粒细胞、单核细胞、髓的、ERK、坏死	髓系。包括在髓系细胞，如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓相关蛋白8/14甲酰肽受体1)。	M2.5	315	腺瘤、间质性、间充质、树突状、运动
M2.6	165	粒细胞、单核细胞、髓的、ERK、坏死		M2.7	71	未提取关键词	未确定的。该模块大部分由功能未知的转录物组成。只有20个基因与文献有关，包括趋化因子样因子超家族中的成员(CKLFSF8)。
M2.8	141	淋巴瘤、T细胞、CD4、CD8、TCR、胸腺、淋巴的、IL-2	T细胞。包括T细胞表面标记(CD5、CD6、CD7、CD26、CD28、CD96)和由髓系细胞表达的分子(淋巴毒素β、IL-2可诱导的T细胞激酶、	M2.7	71	未提取关键词

			TCF7、T细胞分化蛋白mal、GATA3、STAT5B)。
			TCF7、T细胞分化蛋白mal、GATA3、STAT5B)。	M2.9	159	ERK、反式激活、细胞骨架、MAPK、JNK	未确定的。包括编码与细胞骨架相关的分子(肌动蛋白相关的蛋白2/3，MAPK1、MAP3K1、RAB5A)的基因。还代表T细胞表达的基因(FAS、ITGA4/CD49D、ZNF1 A1)。
M2.10	106	髓的、巨噬细胞、树突状、炎性、白介素	未确定的。包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL 15)和涉及信号传导途径的分子(FYB、TICAM2-钟样(Toll-like)受体途径)的基因。	M2.9	159	ERK、反式激活、细胞骨架、MAPK、JNK
M2.10	106	髓的、巨噬细胞、树突状、炎性、白介素		M2.11	176	复制、抑制、RAS、自身磷酸化、致癌的	未确定的。包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)和RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)。
M3.1	122	ISRE、流感、抗病毒、IFN-γ、IFN-α、干扰素	干扰素可诱导的。该集合包括干扰素可诱导的基因:抗病毒分子(OAS1/2/3L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、SATt2、IRF7、ISGF3G)。	M2.11	176	复制、抑制、RAS、自身磷酸化、致癌的
M3.1	122	ISRE、流感、抗病毒、IFN-γ、IFN-α、干扰素		M3.2	322	TGF-β、TNF、炎性、凋亡、脂多糖	炎症I。包括编码涉及炎症过程的分子(例如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)和凋亡调节子(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因。

M3.3	276	炎性、防御、溶酶体、氧化、LPS	炎症II。包括编码诱导炎症或由炎症诱导的分子(IL 18、ALOX5、ANPEP、AOAH、HMOX1、SERPINB1)，以及溶酶体酶(PPT1、CTSB/S、NEU1、ASAH1、LAMP2、CAST)。
M3.3	276	炎性、防御、溶酶体、氧化、LPS		M3.4	325	连接酶、激酶、KIP1、泛素、伴侣蛋白	未确定的。包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)和磷酸肌醇3-激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)。
M3.5	22	未提取关键词	未确定的。仅有少量转录物组成。包括血红蛋白基因(HBA1、HBA2、HBB)。	M3.4	325	连接酶、激酶、KIP1、泛素、伴侣蛋白
M3.5	22	未提取关键词	未确定的。仅有少量转录物组成。包括血红蛋白基因(HBA1、HBA2、HBB)。	M3.6	288	核糖体的、T细胞、β-连接素	未确定的。该集合包括线粒体核糖体蛋白(MRPLs、MRPs)、线粒体延长因子(GFM1/2)、Sortin Nexins(SN1/6/14)以及溶酶体ATP酶(ATP6V1C/D)。
M3.7	301	剪接体、甲基化、泛素	未确定的。包括编码蛋白酶体亚基(PSMA2/5、PSMB5/8)；泛素蛋白连接酶HIP2、STUB1，以及泛素连接酶复合物的组分(SUGT1)的基因。	M3.6	288	核糖体的、T细胞、β-连接素
M3.7	301	剪接体、甲基化、泛素		M3.8	284	CDC、TCR、CREB、糖酶	未确定的。包括编码酶:氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶......的基因。
M3.9	260	染色质、检查点、复制、反式激活	未确定的。包括编码激酶(IBTK、PRKRIR、PRKDC、PRKCI)和磷酸酶(例如PTPLB、PPP2CB/3CB、PTPRC、MTM1、MTMR2)的基因。	M3.8	284	CDC、TCR、CREB、糖酶

其中，与一种或多种基因特异性结合的探针选自三种或更多种模块，并且是系统性红斑狼疮的指示物。

本发明的另一实施方案包括选择用于临床试验的患者的方法，其中获取疑似患者的转录组；将转录组与一种或多种转录模块进行对比，而这些模块是临床试验中将要治疗的疾病或病征的指示物；以及根据患者的转录组中表达的一种或多种基因的存在、缺失或水平来确定患者适宜作为临床试验的候选者的可能性，所述转录组位于与临床试验取得成功有关联的一种或多种转录模块中。为了使用该方法，每个模块可以包括与样品中转录物的比例总和相关联的向量；当一种或多种疾病和病征与一种或多种向量相关联时的向量；与每个转录模块中的一种或多种基因的表达水平相关联的向量和/或包括用于检测、表征、诊断、预后和/或监测正常人相对于SLE患者(或者其他患者(例如纤维肌痛))的模块的向量，所述模块选自一种或多种下列模块中列出的基因:

转录模块

M1.7一种或多种包括I型MHC分子:HLA-A、B、C、G、E)+β2-微球蛋白(B2M)，核糖体蛋白:RPLs，RPSs的MHC/核糖体基因；

M2.2一种或多种包括乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白(BPI)，Cathelicidin抗菌蛋白(CAMP)的中性粒细胞基因；

M2.4一种或多种包括RPLs，RPSs，真核翻译延伸因子家族成员(EEFs)，核仁蛋白:NPM1、NOAL2、NAP1L1的核糖体蛋白基因；

M2.8一种或多种包括CD5、CD6、CD7、CD26、CD28、CD96、淋巴毒素β、IL2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3以及STAT5B的T细胞表面标记基因；以及

M3.1一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)，信号分子(STAT1、STAt2、IRF7、ISGF3G)的干扰素可诱导基因；以及它们的组合。

另一实施方案是固定于固体支持物上的核酸探针阵列，其具有来自一种或多种模块的探针，足以提供充足比例的表达有差异的基因以区分一种或多种疾病，所述探针选自表4。另一实施方案为包括定制基因阵列的预后基因阵列，该定制基因阵列上布置了作为SLE预后的探针以及选自M1.7、M2.2、M2.4、M2.8和M3.1的探针的组合。

附图的简要说明

为了更完整地理解本发明的技术特征和优势，现将附图作为本发明详细说明的参考，其中:

图1a和1c概述了微阵列数据分析策略图，其中有代表性的步骤涉及被接受的基因水平微阵列数据分析(1a)，以及建议的模块数据分析策略(1b)。图1c完整地表示了模块提取算法。图1c:模块提取算法。数据形成于经定义的实验系统(例如体外PBMCs)中。获取几个实验组(例如G1-8)的转录情况。对于每一组而言，基于表达情况的相似性(使用k均值聚类算法)，将基因分布于x个类中(例如，x＝30)。将跨不同实验组的每个基因的类分布记录在表中，并且比较分布模式。通过反复的过程选择模块，由跨不同实验组的相同类中分布的最大基因集合开始(例如8组中发现8个相同类)。将筛选由该核心参考模式扩展到包括7/8、6/8和5/8匹配的基因中。一旦模块已经形成，将基因从筛选池(selection pool)中移出。然后重复该过程，由第二大组基因开始，逐渐地降低严格程度。

图2a至2d显示和概述了患者血液白细胞转录情况的分析情况。图2a是常规的基因水平分析结果，其显示了患有转移性黑色素瘤的患者或接受肝移植者以及他们各自的对照之间表达有差异的转录物的表达模式(p<0.001，Mann Whitney U检验)。根据表达模式以聚类分析对基因分组，结果由热图(heatmap)表示(过表达的转录物＝红色，表达不足的＝蓝色；每个基因的表达都以对照组的中间表达值进行归一化)。(图2b)模块水平分析:将模块M1.2、M1.3、M1.4和M2.1中获得的患者(“黑色素瘤”或“移植”)的基因表达水平与各自的健康志愿者PBMCs基因表达水平进行比较(p<0.05，Mann-Whitney U检测)。饼图显示了显著变化的基因的比例。曲线图表示显著变化的基因的转录情况，每条曲线显示了多种条件下(样品，x轴)单个转录物的表达水平(y轴)。每个基因的表达都以对照组的中间表达值进行归一化。(中间部分)获得的有关28PBMC转录模块的结果显示于格栅中。坐标用于显示模块标识(例如，M2.8为M2行，8列)。点显示每种模块中显著变化的基因的比例。红点:过表达的基因的比例(即患者相比健康人基因活性的升高)，蓝点:表达不足的基因的比例(即患者相比健康人基因活性的降低)。(较低部分)功能性释义由颜色代码显示在格栅上。每个模块更详细的功能描述可以见于附表1(所附的加长表格，引入本发明作为参考)。图2c和2d:模块形成一致的(coherent)转录和功能单元，a)转录行为的一致性(Coherence)是由获自21名健康志愿者的样品集合来说明的。这些样品不用于模块的选择过程。曲线图表示转录的情况，每条曲线显示多种条件下(样品，x轴)单个转录物的表达水平(y轴)。显示了模块1.2、1.7、2.1和2.11的转录情况。每个基因的表达都以跨所有样品的基因获得的测量值的中间值进行归一化，b)针对与至少10篇出版物有关的M3.1、M1.5、M1.3和M1.2中的所有基因，计算摘要中术语出现的水平(代表超过26,000篇摘要)。提取每个模块的关键词的情况，并且利用这样的选择生成该图。摘要中关键词出现的水平是由比色刻度尺显示的，黄色代表出现率高。M3.1(例如STAT1、CXCL10、OAS2、MX2)与干扰素有关，M1.5(例如MYD88、CD86、TLR2、LILRB2、CD 163)与病原体识别分子/髓系细胞有关，M1.3(例如CD19、CD22、CD72A、BLNK、PAX5)与B细胞有关，以及M1.2(例如ITGA2B、PF4、SELP、GP6)与血小板有关。

图3a至3c显示了显著性模式分析。图3a显示了相对于健康志愿者，在IV期黑色素瘤和肝移植患者中表达水平都相当高的基因。P-值是根据其它疾病:患有SLE，GVHD或者流感病毒(甲型流感病毒)、大肠杆菌、肺炎链球菌(Strep.Pneumo.)、金黄色葡萄球菌(Staph，aureus)的急性感染的患者中形成的基因表达情况获得的。每种这样的群组都与它们各自的对照组(这些研究过程中自然增加的健康志愿者)进行对比。通过对上面所列条件下产生的p值进行分层聚类而对基因进行分级。由比色刻度尺表示P值:绿色＝低p值/显著的，白色＝高p值/不显著的。不同的显著性模式是经过识别的:P1＝普遍存在的；P2＝对黑色素瘤和肝移植组最具特异性的。图3b显示黑色素瘤和移植组共有的普遍存在且特异性的基因标识的模块分布。确定了28个PBMC转录模块中P1(特异性-红色)和P2(普遍存在的-蓝色)转录物的分布。对于每个模块，P1或P2共享的基因的比例由直方图表示。图3c显示免疫抑制的转录标识。患有黑色素瘤的患者和接受移植者(P1)中最具特异性过表达的转录物包括免疫应答阻遏物，其抑制:(1)NF-kB易位；(2)白介素-2的产生和信号传导；(3)MAPK途径以及(4)细胞增殖。这些因子中的一些是被充分表征的抗炎分子，其它的在无变应性T细胞中表达。

图4显示了表示选择步骤的示意图，这些步骤用于对疾病特异性表达向量的表征。

图5a至5g显示了在开始治疗之前从儿科SLE患者群取样并鉴定的某些免疫转录向量。雷达标图(radar plot)上的每条线代表患者的情况。在图5a中，较深的线代表该组患者的平均归一化表达情况。对于从健康志愿者(图5b)中分离的PBMC，以及治疗中的儿科SLE患者的独立群组(图5c)，利用相同向量集合来获得情况。将治疗的(绿色)和未治疗的(橙色)患者群组的平均归一化表达情况绘制在图5d中。在临床活动的基础上(SLEDAI)，无论是否治疗，患者的情况都绘制在相同的向量上。疾病活动少(SLEDAI从0至6)的患者由图5e显示，疾病活动多(SLEDAI从14至28)的患者由图5f显示。图5g中显示的另外部分概述了接受治疗的儿科SLE患者的模块转录变化。

图6a至6c显示了在开始治疗之前从儿科SLE患者群取样并鉴定的免疫转录向量。雷达标图上的每条线代表患者的情况。较深的线代表该组患者的平均归一化表达情况。针对从治疗中的成人SLE患者(图6a)中分离的PBMC，健康成人(图6b)以及经诊断患有纤维肌痛的成人受试者(图6c)，利用该向量集合来获得情况。

图7显示包括转录向量M1.7_SLE、M2.2_SLE、M2.4_SLE、M2.8_SLE和M3.1_SLE的基因表达情况，这些向量与临床SLE疾病活动指数(SLEDAI)相关联。曲线图代表12名健康个体和21名未治疗的儿科SLE患者中形成每种向量的个体转录物的表达水平。跨形成每种向量的转录物的平均表达值在曲线图上以黄色显示。平均向量表达值和SLEDAI之间的相关性显示在下面(Spearman相关)。

图8a和8b是显示利用形成向量M1.7_SLE、M2.2_SLE、M2.4_SLE、M2.8_SLE和M3.1_SLE以及SLEDAI(x轴)的基因平均表达值获得的多变量微阵列评分(或者“染色体组评分”-y轴)的Spearman相关性。(a)从22名未治疗的儿科SLE患者获得的评分，(b)将同样的分析应用于31名接受不同组合治疗的儿科SLE患者上的评分。

图9a和9b显示相对于时间(x轴)纵向追踪的儿科患者SLEDAI评分(蓝色，右侧y轴)和微阵列评分(红色，左侧y轴)(图9a)。取样的时间间隔以月显示。图9b显示相对于时间(x轴)纵向追踪的儿科患者SLEDAI评分(蓝色，右侧y轴)和U评分(红色，左侧y轴)。取样的时间间隔以月显示。

图10是利用来自健康供体和接受肝移植者的PBMC样品，在两个不同微阵列平台上分析的跨平台对比:Affymetrix U133A&B基因芯片和Illumina Sentrix Human Ref8 BeadChips。相同来源的总RNA被用于独立地制备生物素标记的cRNA靶点。显示两个平台上发现的转录物的结果。将每个基因的表达以跨所有样品获得的测量值的中间值进行归一化。对于Affymetrix和Illumina平台，形成每个转录模块的基因的平均表达值都有显示。

发明详述

下文详细讨论了本发明的各种实施方案的构成和使用，应当理解本发明提供了许多可应用的创造性概念，这些概念包含在多个特定的上下文中。本发明讨论的特定实施方案仅仅是用于说明制造和使用本发明的特定途径，并不限定本发明的范围。

为了促进对本发明的理解，下文定义了多个术语。本发明定义的术语具有本发明涉及的领域中普通技术人员通常所理解的含义。术语，如“a”、“an”和“the”不仅仅是指单一的实体，而是包括可以使用特定例子来说明的大类。本发明使用术语描述本发明的特定实施方案，但是术语的使用并不限制本发明，除非权利要求书中指出。除非另外定义，本发明使用的所有技术和科学术语均具有本发明所属领域中的技术人员通常理解的含义。下列参考文献向技术人员提供了本发明使用的多个术语的通常定义:Singleton等，Dictionary Of Microbiology And Molecular Biology(2d ed.1994)；The Cambridge Dictionary Of Science And Technology(Walker ed.，1988)；The Glossary Of Genetics，5th Ed.，R.Rieger等(eds.)，Springer Verlag(1991)；以及Hale & Marham，The Harper Collins Dictionary Of Biology(1991)。

各种生物化学和分子生物学方法是本领域熟知的。例如，分离和纯化核酸的方法在下列文献中有详细描述:WO97/10365，WO97/27317，Chapter3 of Laboratory Techniques in Biochemistry and Molecular Biology:Hybridization With Nucleic Acid Probes，Part I.Theory and Nucleic AcidPreparation)，(P.Tijssen ed.)Elsevier，N.Y.(1993)；Chapter 3 of LaboratoryTechniques in Biochemistry and Molecular Biology:Hybridization WithNucleic Acid Probes，Part I.Theory and Nucleic Acid Preparation)，(P.Tijssened.)Elsevier，N.Y.(1993)；以及Sambrook等，Molecular Cloning:ALaboratory Manual，Cold Spring Harbor Press，N.Y.，(1989)；以及CurrentProtocols in Molecular Biology，(Ausubel，F.M.eds.)John Wiley & Sons，Inc.，New York(1987-1999)，包括增刊如增刊46(April1999)。

生物信息学定义

本发明使用的“对象”是指任何目标项目或信息(通常是文本形式的，包括名词、动词、形容词、副词、短语、句子、符号、数字字符等)。因此，对象是指能够形成可以从来源获取、识别和/或搜索的关系和任何事物的任何事物。“对象”包括但不限于，目标实体如基因、蛋白质、疾病、表型、机制、药物等。在某些方面，对象可以是数据，正如下文进一步描述的。

本发明使用的“关系”是指对象在相同单元中同时出现(例如，短语、句子、两行或更多行文本、段落、一部分网页、页面、杂志、书籍等)。它可以是文本、符号、数字以及其组合。

本发明使用的“元数据内容”是指有关数据源中文本组织的信息。元数据可以包括标准元数据，如都柏林元数据，或者可以是集合特异性的。元数据格式的例子包括但不限于用于图书馆目录的机读目录(MARC)档案，资源描述格式(RDF)和可扩展的标志语言(XML)。元对象可以手动或通过自动化信息提取算法生成。

本发明使用的“引擎”是指执行其它程序核心或基本功能的程序。例如，引擎可以是操作系统的中心程序或者调整其它程序整体运行的应用程序。术语“引擎”也可以是指包含可以变化的算法的程序。例如，可以设计知识发现引擎以使其识别关系的方法能够变化，从而反映识别关系并对关系分级的新规则。

本发明使用的术语“统计分析”是指以计算每个术语(词、词根、词干、n元语法、短语等)出现数量为基础的技术。在主题不受限制的集合中，不同上下文中使用的相同短语可以代表不同概念。对共同出现的短语的统计分析有助于解决词义含糊的问题。通过词性分析，“句法分析”可以进一步用于降低含糊的情况。本发明使用的一种或多种这样的分析是指更常见的“词法分析”。“人工智能(AI)”是指通过非人装置，如计算机，执行人类视为值得注意的或“智能的”任务的方法。例子包括识别图像、理解口语词汇或书面文本，以及解决问题。

本发明使用的术语“数据库”是指原始数据或编辑数据的储存库，即使在数据字段中可以发现不同的信息面(informational facet)。通常对数据库进行组织，使其内容能够被访问、管理和更新(例如，数据是动态的)。术语“数据库”和“源”在本发明中也可以互换使用，因为数据和信息的基本来源是数据库。然而，“源数据库”和“源数据”通常是指数据，例如非结构化文本和/或结构化数据，它们被输入识别对象和确定关系的系统中。源数据库可以是或不是关系数据库。然而，系统数据库通常包括关系数据库或者储存涉及对象间关系的数值的一些等同类型数据库。

本发明使用的“系统数据库”和“关系数据库”可以互换使用，是指一种或多种被组织成表格集合的数据集合，这些表格包含适合于预定义分类的数据。例如，数据库表格可以包括一种或多种由列定义的分类(例如属性)，而数据库的行可以包含对应于由列定义的分类的唯一对象。这样，如基因的同一性的对象可能具有对应于基因的存在、缺失和/或表达水平的列。关系数据库的行也可以被称之为“集合”，并通常由其所在列的数值定义。关系数据库上下文中的“域(domain)”是字段(field)，如列可以包括的有效值的范围。

本发明使用的“知识域”是指研究系统运转的领域，例如所有的生物医学数据。应指出的是将几个域的数据，例如生物医学和工程数据组合起来是有利的，因为这样不同的数据有时能够将仅熟悉一个领域或研究/学习(一个域)的普通人不能整合的事物联系起来。“分布数据库”是指可以在网络的不同点中分散或复制的数据库。

术语“数据”和“信息”经常互换使用，与“信息”和“知识”一样。本发明使用的“数据”是作为经验测量值和测量值集合的最基本单元。数据经编译用于信息，但是数据在根本上独立于信息。相反地，信息来源于目标，例如可以根据种族、性别、身高、体重和饮食收集数据(单元)，目的在于发现与心血管疾病风险相关联的变量。然而，可以使用同样的数据开发公式或创造“信息”，它们是关于选择饮食的，即超市中的特定商品具有较高的销售率的可能性。

本发明使用的“信息”是指可以包括数字、字母、数字集合、字母集合或者由数据集合获得或衍生的结论。那么“数据”是信息的测量值或统计量以及信息的基本单元。“信息”也可以包括其它类型的数据，如词，符号，文本，如未结构化的自由文本，代码等。“知识”被宽松地定义为对模拟原因和效果的系统给予充分解释的信息集合。为了扩展例子，关于人口统计学、性别和优先购买(prior purchases)的信息被用于开发食品销售的区域性市场策略，而关于民族的信息可以被买方用作进口商品的指导。重要并值得注意的是数据、信息和知识之间没有严格的界限；这三个术语有时被认为是等价的。通常，数据来源于检查，信息来源于关联，知识来源于模拟。

本发明使用的“程序”或“计算机程序”通常是指符合特定编程语言规则的语法单位，其由声明和语句或者指令组成，可以分成解决或执行某功能、任务或问题所需的“代码段”。编程语言通常是用于表示程序的人工语言。

本发明使用的“系统”或“计算机系统”通常是指一个或多个进行数据处理的计算机，外部设备以及软件。“用户”或“系统操作者”通常包括通过“用户装置”(例如，计算机、无线装置等)接入并使用计算机网络的人，其目的在于数据处理和信息交换。“计算机”通常是能够进行实质性计算(substantial computation)，包括大量的没有人为干预的算术运算和逻辑运算的功能单元。

本发明所使用的“应用软件”或“应用程序”通常是指特意解决应用问题的软件或程序。“应用问题”通常是由终端用户提交的问题，并且需要为解决该问题进行信息处理。

本发明使用的“自然语言”是指其规则是基于当前的用法，没有被特意规定的语言，例如，英语、西班牙语或汉语。本发明使用的“人工语言”是指在其使用之前，明确的建立了规则的语言，例如，计算机编程语言，如C、C++、Java、BASIC、FORTRAN或COBOL。

本发明使用的“统计学相关性”是指使用一种或多种分级方案(O/E比、强度等)，其中如果关系的发生频率显著高于随意的偶然性可预期的发生频率，那么该关系就被确定为统计学上相关的。

本发明使用的术语“协同调节的基因”或“转录模块”可以互换使用，是指经分组的特定基因的基因表达情况(例如，与特定基因序列有关的信号值)。每个转录模块使两种关键数据段相关联，即文献检索部分和由基因微阵列获得的实际基因表达经验值数据。根据对基因表达数据的分析(上述模块提取算法)将基因集合选入转录模块中。Chaussabel，D.& Sher，A.Mining microarray expression data by literature profiling.Genome Biol 3，RESEARCH0055(2002)教导了其它步骤(http://genomebiology.eom/2002/3/10/research/0055)，相关部分引入本发明作为参考，并且由目标疾病或病征，例如系统性红斑狼疮、关节炎、淋巴瘤、癌、黑色素瘤、急性感染、自身免疫障碍、自身炎症障碍等获得表达数据。

下表列出了用于开发文献检索部分或对转录模块有贡献的关键词的例子。技术人员将认识到可以容易地选择用于其它病征，例如特定的癌症、特定的感染性疾病、移植等的其它术语。例如，下文中的模块标识“M2.8”描述了与T细胞活化相关的基因和那些基因的信号，其中某些关键词(例如，淋巴瘤、T细胞、CD4、CD8、TCR、胸腺、淋巴的、IL2)被用于识别与基因相关的关键T细胞，例如T细胞表面标记(CD5、CD6、CD7、CD26、CD28、CD96)；由淋巴系细胞表达的分子(淋巴毒素β、IL2可诱导的T细胞激酶、TCF7；以及T细胞分化蛋白mal、GATA3、STAT5B)。接着，通过将患者群中这些基因的数据(无论平台、存在/缺失和/或上调或下调)相关联以形成转录模块，开发出了完整的模块。在某些情况下，基因的情况与针对这些疾病病况和数据的任何特别基因聚类不相匹配(在这次)，然而在“未确定的”的模块中发现了某些生理学途径(例如cAMP信号传导、锌指蛋白、细胞表面标记等)。实际上，在与关检词检索匹配之前，可以使用基因表达数据集合提取协同表达的基因，即在与第二数据集合交叉参考之前数据集合可以被关联起来。

表1.转录模块的例子

实施例模块标识	关键词的选择	基因情况的评估
实施例模块标识	关键词的选择	基因情况的评估	M1.1	Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu	血浆细胞。包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因。
M1.2	血小板、粘附、聚集、内皮、血管	血小板。包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)和源于血小板的免疫介质，如PPPB(前血小板碱性蛋白)和PF4(血小板因子4)的基因。	M1.1	Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu	血浆细胞。包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因。

M1.3	免疫受体、BCR、B细胞、IgG	B细胞。包括编码B细胞表面标记(CD72、CD79A/B、CD19、CD22)和其它B细胞相关的分子:早期B细胞因子(EBF)、B细胞连接蛋白(BLINK)和B淋巴酪氨酸激酶(BLK)的基因。
M1.3	免疫受体、BCR、B细胞、IgG		M1.4	复制、抑制、修复、CREB、淋巴的、TNF-α	未确定的。该集合包括cAMP信号传导途径的调节子和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)以及TNF-α介导的NF-KB活化的阻遏物(CYLD、ASK、TNFAIP3)。
M1.5	单核细胞、树突状、MHC、共刺激、TLR4、MYD88	髓系。包括髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中的一些涉及病原体识别(CD14、TLR2、MYD88)。该集合还包括TNF家族成员(TNFR2、BAFF)。	M1.4	复制、抑制、修复、CREB、淋巴的、TNF-α
M1.5	单核细胞、树突状、MHC、共刺激、TLR4、MYD88		M1.6	锌、指、P53、RAS	未确定的。该集合包括编码信号分子，例如包含活化的STAT抑制剂的锌指(PLAS1和PLAS2)，或者活化的T细胞NFATC3核因子的基因。
M1.7	核糖体、翻译的、40S、60S、HLA	MHC/核糖体蛋白。几乎专门由编码I型MHC分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因形成。	M1.6	锌、指、P53、RAS
M1.7	核糖体、翻译的、40S、60S、HLA		M1.8	代谢、生物合成、复制、解旋酶	未确定的。包括编码代谢酶(GLS、NSF1、NAT1)和涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因。
M2.1	NK、杀伤细胞、溶解细胞的、CD8、细胞介导的、T细胞、CTL、IFN-g	细胞毒性细胞。包括细胞毒性T细胞和NK细胞表面标记(CD8A、CD2、CD160、NKG7、KLRs)，溶解细胞的分子(颗粒酶、穿孔素、颗粒溶解素)，趋化因子(CCL5、XCL1)和CTL/NK细胞相关的分子(CTSW)。	M1.8	代谢、生物合成、复制、解旋酶

M2.2	粒细胞、中性粒细胞、防御、髓的、骨髓	中性粒细胞。该集合包括中性粒细胞颗粒中发现的固有分子(乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白:BPI，Cathelicidin抗菌蛋白:CAMP)。
M2.2	粒细胞、中性粒细胞、防御、髓的、骨髓		M2.3	红细胞、红、贫血、球蛋白、血红蛋白	红细胞。包括血红蛋白基因(HGBs)和其它与血红蛋白相关的基因(红细胞alkirin:ANK1，血型糖蛋白C:GYPC，羟甲基胆素合成酶:HMBS，红细胞相关因子:ERAF)。
M2.4	核糖核蛋白、60S、核仁、装配、延伸	核糖体蛋白。包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)和核仁蛋白(NPM1、NOAL2、NAP1L1)的基因。	M2.3	红细胞、红、贫血、球蛋白、血红蛋白
M2.4	核糖核蛋白、60S、核仁、装配、延伸		M2.5	腺瘤、间质性、间充质、树突状、运动	未确定的。该模块包括编码免疫相关的(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关的分子(肌球蛋白、胞质分裂的作用因子(dedicator)、粘结蛋白聚糖2、Plexin C1、Distrobrevin)的基因。
M2.6	粒细胞、单核细胞、髓的、ERK、坏死	髓系。与M1.5有关。包括在髓系细胞，如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓相关蛋白8/14甲酰肽受体1)。	M2.5	腺瘤、间质性、间充质、树突状、运动
M2.6	粒细胞、单核细胞、髓的、ERK、坏死		M2.7	未提取关键词	未确定的。该模块大部分由功能未知的转录物组成。只有20个基因与文献有关，包括趋化因子样因子超家族中的成员(CKLFSF8)。
M2.8	淋巴瘤、T细胞、CD40、CD8、TCR、胸腺、淋巴的、IL-2	T细胞。包括T细胞表面标记(CD5、CD6、CD7、CD26、CD28、CD96)和由髓系细胞表达的分子(淋巴毒素β、IL-2可诱导的T细胞激酶、TCF7、T细	M2.7	未提取关键词

		胞分化蛋白mal、GATA3、STAT5B)。
		胞分化蛋白mal、GATA3、STAT5B)。	M2.9	ERK、反式激活、细胞骨架、MAPK、JNK	未确定的。包括编码与细胞骨架相关的分子(肌动蛋白相关的蛋白2/3，MAPK1、MAP3K1、RAB5A)的基因。还代表T细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)。
M2.10	髓的、巨噬细胞、树突状、炎性、白介素	未确定的。包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)和涉及信号传导途径的分子(FYB、TICAM2-钟样受体途径)的基因。	M2.9	ERK、反式激活、细胞骨架、MAPK、JNK
M2.10	髓的、巨噬细胞、树突状、炎性、白介素		M2.11	复制、抑制、RAS、自身磷酸化、致癌的	未确定的。包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)和RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)。
M3.1	ISRE、流感、抗病毒、IFN-γ、IFN-α、干扰素	干扰素可诱导的。该集合包括干扰素可诱导的基因:抗病毒分子(OAS1/2/3L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL 10/IP-10)、信号分子(STAT1、SATt2、IRF7、ISGF3G)。	M2.11	复制、抑制、RAS、自身磷酸化、致癌的
M3.1	ISRE、流感、抗病毒、IFN-γ、IFN-α、干扰素		M3.2	TGF-β、TNF、炎性、凋亡、脂多糖	炎症I。包括编码涉及炎症过程的分子(例如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)和凋亡调节子(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因。
M3.3	粒细胞、炎性、防御、氧化、溶酶体	炎症II。包括编码诱导粒细胞-巨噬细胞CSF或由粒细胞-巨噬细胞CSF诱导的分子(SPI1、IL18、ALOX5、ANPEP)，以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)。	M3.2	TGF-β、TNF、炎性、凋亡、脂多糖

M3.4	未提取关键词	未确定的。包括蛋白磷酸酶(PPP1R12A、PTPRC、PPP1CB、PPM1B)和磷酸肌醇3-激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)。
M3.4	未提取关键词		M3.5	未提取关键词	未确定的。仅由少量转录物组成。包括血红蛋白基因(HBA1、HBA2、HBB)
M3.6	补体、宿主、氧化、细胞骨架、T细胞	未确定的。大的集合包括T细胞表面标记(CD101、CD102、CD103)以及在血液白细胞中普遍表达的分子(CXRCR1:fraktalkine受体、CD47、P选择素配体)。	M3.5	未提取关键词	未确定的。仅由少量转录物组成。包括血红蛋白基因(HBA1、HBA2、HBB)
M3.6	补体、宿主、氧化、细胞骨架、T细胞		M3.7	剪接体、甲基化、泛素、β-连接素	未确定的。包括编码蛋白酶体亚基(PSMA2/5、PSMB5/8)；泛素蛋白连接酶HIP2、STUB1，以及泛素连接酶复合物的组分(SUGT1)的基因。
M3.8	CDC、TCR、CREB、糖酶	未确定的。包括编码几种酶:氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶......的基因	M3.7	剪接体、甲基化、泛素、β-连接素
M3.8	CDC、TCR、CREB、糖酶		M3.9	染色质、检查点、复制、反式激活	未确定的。包括编码蛋白激酶(PRKRIR、PRKDC、PRKCI)和磷酸酶(例如PTPLB、PPP1R/2CB)的基因。也包括RAS致癌基因家族成员和NK细胞受体2B4(CD244)。

生物学定义

本发明使用的术语“阵列”是指具有一种或多种连接在支持物上的肽或核酸探针的固体支持物或基底。典型的阵列具有一种或多种不同的核酸或肽探针，它们偶联在基底表面不同的已知位置上。这些阵列也被描述为“微阵列”、“基因芯片”或“DNA芯片”，它们可以具有10,000、20,000、30,000或40,000个基于已知基因组，例如人类基因组的不同的可识别基因。这些泛阵列(pan-arrays)被用于检测样品中表达的或发现的完整“转录组”或基因转录池，例如表达为RNA、mRNA等的核酸，而核酸可以经过RT和/或RT-PCR制成互补的DNA复制子集合。可以利用机械合成方法、光引导的合成方法等生产阵列，这些方法引入非平版印刷和/或光刻方法以及固相合成方法的组合。可以使用包括连接在3微米微珠上的50个单体的寡核苷酸探针的微珠阵列，例如将其放入玻璃载玻片表面上的微孔中或者作为液相悬浮阵列(例如，Luminex或Illumina)的组成部分，这种液相悬浮阵列是液相中的数字微珠阵列，并且使用了用于检测和识别的“条形码”玻璃棒。

用于合成这些核酸阵列的各种技术已有描述，例如在实质上是任何形状的表面或者甚至是多重表面上制造。阵列可以是微珠、凝胶、聚合物表面、纤维如光纤、玻璃或者任何其它适合的基底上的肽或核酸。阵列可以是以能够进行诊断或对所有包含阵列的装置进行其它操作的方式包装起来，参见例如，美国专利No.6,955,788，相关部分引入本发明作为参考。

本发明使用的术语“疾病”是指伴有细胞的任何异常生物学状态的有机体的生理状态。疾病包括但不限于细胞、组织、机体功能、系统或器官的中断、停止或障碍，这可能是先天的，遗传的，由感染引起的，由异常细胞功能、异常细胞分裂等引起的。导致“疾病状态”的疾病通常对生物系统，即疾病的宿主是有害的。就本发明而言，如感染(例如，病毒、细菌、真菌、蠕虫等)、炎症、自发炎症(autoinflammation)、自身免疫、过敏性反应、变态反应、癌前病变(premalignancy)、恶性肿瘤、外科手术、移植、生理性的等与疾病或障碍有关的任何生物学状态都被认为是疾病状态。病理状态通常是与疾病状态等同的。

疾病状态也可以被分成不同水平的疾病状态。本发明使用的疾病水平或疾病状态是反映治疗刚开始、过程中和治疗后疾病或疾病状态的发展以及生理反应的任意测量值。通常地，疾病或疾病状态会经历疾病的影响变得愈加严重的水平或阶段而发展。疾病状态的水平可能受样品中细胞的生理状态的影响。

本发明使用的术语“治疗”或“治疗方案”是指那些用来缓解或改变疾病状态，例如试图利用药理学、外科手术、饮食和/或其它技术减少或消除疾病的影响或症状的治疗过程。治疗方案可以包括开具一种或多种药物的处方或外科手术。最常见的治疗将是有益的，并缩短疾病状态，但是在许多例子中，治疗的效果会是不希望的或有副作用的。治疗的效果也会受到宿主的生理状态，例如年龄、性别、遗传、体重、其它疾病状况等的影响。

本发明使用的术语“药理学状态”或“药理学状况”是指那些将要用、正在用和/或用过一种或多种药物、手术等处理的样品，这些药物、手术等可能影响样品中一种或多种核酸的药理学状态，例如作为药理学干预的结果，被重新转录、稳定化和/或去稳定化。样品的药理学状态与药物治疗前、中和/或后的生物学状态的变化有关，可以发挥诊断或预后的功能，正如本发明所教导的。药物治疗或外科手术之后的某些变化可能与疾病状态有关和/或可能是无关的治疗副作用。药理学状态的变化可能是持续治疗、处方药物的类型和剂量、特定的治疗过程的顺应性程度和/或摄取的非处方药的结果。

本发明使用的术语“生物学状态”是指为了分析表达的变化而分离和纯化的细胞样品的转录组(即RNA转录物的完整集合)的状态。生物学状态通过测量细胞成分的丰度和/或活性，根据形态学表型(morphologicalphenotype)或用于检测转录物的方法的组合来定性，反映了样品中细胞的生理状态。

本发明使用的术语“表达情况”是指RNA、DNA的相对丰度或蛋白丰度或活性水平。表达情况可以是通过多种方法和使用多种基因芯片、基因阵列、微珠、多重PCR、定量PCR、run-on测定法、Northern印迹分析、Western印迹分析、蛋白表达、荧光活化细胞分选(FACS)、酶联免疫吸附分析(ELISA)、化学发光研究、酶学分析、增殖研究或者任何其它用于确定和/或分析基因表达的商业上易于获得的方法、装置和系统中的任何一种得到的例如转录状态或翻译状态的测量值。

本发明使用的术语样品的“转录状态”包括样品中存在的RNA种类，特别是mRNA的同一性和相对丰度。样品的完整转录状态，即同一性和RNA丰度的组合，在本发明中也被称之为转录组。通常对样品中完整RNA种类集合的所有相对成分中实质上的一小部分进行测量。

本发明使用的术语“转录向量”、“表达向量”和“基因组向量”(可互换地使用)是指反映“表达有差异的基因的比例”的转录表达数据。例如，对于每个模块，至少两组(例如，健康受试者相对患者)之间表达有差异的转录物的比例。该向量源自两组样品间的对比。最初的分析步骤用于选择每个模块中疾病特异性的转录物集合。接着就有“表达水平”。针对特定疾病的组间对比提供了每个模块中表达有差异的转录物的列表。发现不同的疾病形成不同的模块转录物的子集。根据这样的表达水平，那么就有可能计算出单个样品的每个模块的向量，这是通过对被鉴定为表达有差异的基因的疾病特异性子集的表达值取平均值实现的。该方法能够生成针对单个样品的模块表达向量图，例如本发明公开的模块图中所描述的。这些向量模块图显示了获得的每个样品的每个模块的平均表达水平(而不是表达有差异的基因的比例)。这些组合的“表达向量”是通过连续的多轮筛选形成的:1)跨研究组显著变化的模块的筛选和2)跨研究组显著变化的这些模块中基因的筛选。随后，通过对形成每个向量的转录物的子集取平均值得到表达水平。然后，通过在图上绘制得到的每个这样的向量的表达水平来表示患者的情况(例如在雷达标图上)。因此，由两轮筛选得到向量集合，第一轮是模块水平的，随后是基因水平的。向量表达值是通过结构而组合的，它们来自形成向量的转录物的平均表达值。

使用本发明不仅能够在模块水平还能够在基因水平上识别并区分疾病；即两种疾病可以具有相同的向量(相同比例表达有差异的转录物，相同“极性”)，但是表达向量的基因组成仍然是基因特异性的。这种疾病特异性的定制使得使用者能够通过提高特定标记集合的特异性来优化其性能。

使用作为基础的模块是以具有一致功能和包含最小量噪音的转录单元的表达向量为基础的。此外，本发明利用组合的转录标记。本发明使用的术语“组合的转录标记”是指相对于使用单一基因作为标记，多个基因(模块的子集)的平均表达值(这些标记的组合可以是疾病特异性的)。组合的转录标记方法是唯一的，因为使用者能够开发多变量的微阵列评分方法以评估患有例如SLE的患者的疾病严重程度，或者得出本发明揭示的向量。表达向量是组合的(即由转录物的组合形成)进一步有助于这些标记的稳定性。最重要的是，已经发现使用本发明的组合模块转录标记，在本发明中可以看到跨微阵列平台的可重现的结果，由此提供了更大的获得监管部门批准的可靠性。实际上，向量表达值被证明是非常稳定的，正如跨微阵列平台获得的优良再现性；以及单独的儿科狼疮患者集合中获取的有效结果所显示的。这些结果是重要的，因为改善微阵列数据的可靠性是推广该技术在临床实践中应用的先决条件(参见，例如FDA MAQC程序，其目的在于建立跨阵列平台的重现性)。

与本发明一同使用的基因表达监测系统可以包括具有有限和/或基本数量的基因的定制基因阵列，这些基因是特异性针对于一种或多种靶疾病的和/或根据一种或多种靶疾病来定制的。与通常的、惯用的泛基因组不同，本发明不仅提供了这些通常的泛阵列无需使用特定平台而被用于回顾性基因和基因组分析的用途，而且更重要的是，还开发了无需上千个其它无关基因就提供优选的用于分析的基因集合的定制阵列。本发明优选的阵列和模块相对于已有技术的一个明显的优势在于降低了财务成本(例如，每阵列的成本、原料、设备、时间、人员、培训等)，而且更重要的是生产泛阵列的环境成本，而泛阵列中绝大多数数据是无关的。本发明的模块首次使得设计简单的定制阵列成为可能，该阵列以最少量的探针提供了优选数据，并使信号与噪音的比例最大化。通过削减用于分析的基因的总数，例如在提供大量无关数据的泛基因芯片生产过程中，能够削减生产上千个用于光刻的昂贵铂掩模(mask)的需求。如果将本发明的有限探针集合与例如，数字光化学阵列、球珠阵列、微珠(例如Luminex)、多重PCR、run-on测定法、Northern印迹分析、或者甚至是用于蛋白质分析的，例如Western印迹分析、2-D和3-D凝胶蛋白表达、MALDI、MALDI-TOF、荧光活化细胞分选(FACS)(细胞表面或细胞间)、酶联免疫吸附分析(ELISA)、化学发光研究、酶学分析、增殖研究或者任何其它用于确定和/或分析基因表达的商业上易于获得的方法、装置和系统一起使用，那么使用本发明能够完全避免对微阵列的需求。

本发明的“分子指纹识别系统”可以被用于促进和进行不同细胞或组织，相同细胞或组织的不同亚群，相同细胞或组织的不同生理阶段，相同细胞或组织的不同发育阶段，或者相同组织的不同细胞群相对于其它疾病和/或正常细胞对照的表达的对比分析。在某些情况下，正常或野生型表达数据可以来自同时或大约同时分析的样品，或者它可以是由已有的基因阵列表达数据库，例如公共数据库，如NCBI基因表达综合数据库(NCBI GeneExpression Omnibus database)获得或采集的表达数据。

本发明使用的数据“表达有差别的”是指两种或更多种样品中，例如疾病样品和正常样品之间变化的细胞成分(例如，核酸、蛋白质、酶活性等)的测量值。细胞成分可以是开启的或关闭的(存在或缺失)，相对于基准上调的或相对于基准下调的。就基因芯片或基因阵列的使用而言，核酸，例如mRNA或其它RNA(miRNA、siRNA、hnRNA、rRNA、tRNA等)的基因表达差异可以被用于区分细胞类型或核酸。最常见地，细胞转录阶段的测量是通过定量逆转录酶(RT)和/或定量逆转录酶-聚合酶链反应(RT-PCR)，基因组表达分析，翻译后分析，基因组DNA的修饰，易位，原位杂交等来完成的。

对于某些疾病状态而言，能够识别细胞或形态学上的差别，特别是在疾病状态的初期水平上。本发明避免了识别那些特异性突变或一种或多种基因的需求，这是通过观察细胞自身的基因模块，或者更重要的是免疫效应细胞的基因的细胞RNA表达模块实现的，该免疫效应细胞在其常规的生理范围内，即在免疫活化、免疫耐受或者甚至是免疫无能(immuneanergy)过程中起作用。基因突变可以导致一组基因表达水平的急剧变化，而生物系统经常通过改变其它基因的表达来补偿变化。作为这些内部补偿效应(compensation responses)的结果，这些干扰对可观察到的系统表型可能的影响是最小的，但是对细胞成分的组成有深刻影响。同样地，基因转录物的实际拷贝可能不增加或减少，然而转录物的寿命或半衰期可能受影响，导致生成的蛋白质大量增加。本发明通过在一个实施方案中观察效应细胞(例如，白细胞、淋巴细胞和/或它们的亚群)，而不是单一的信息和/或突变削减了对检测实际信息的需求。

技术人员将容易地意识到样品可以取自多种原料，包括例如，单细胞、细胞集合、组织、细胞培养物等。在某些情况下，甚至可能从在例如尿、血液、唾液、组织或活组织检查样品等中发现的细胞中分离充足的RNA。在特定环境中，充足的细胞和/或RNA可以取自:粘膜分泌物、粪便、泪液、血浆、腹膜液、组织液(interstitial fluid)、硬膜内液、脑脊液、汗液或其它体液。核酸的来源，例如来自组织或细胞来源，可以包括组织活组织检查样品、一种或多种分选的细胞群、细胞培养物、细胞克隆、转化的细胞、活组织检查或单个细胞。组织来源可以包括例如脑、肝、心、肾、肺、脾、视网膜、骨、神经系统、淋巴结、内分泌腺、生殖器官、血液、神经、血管组织和嗅上皮。

本发明包括以下基本部分，它们可以单独使用或组合使用，即一种或多种数据挖掘算法；一种或多种模块水平的分析过程；血液白细胞转录模块的表征；用于人类疾病的分子诊断/预后的多变量分析的聚合模块数据的使用；和/或模块水平的数据和结果的可视化。使用本发明还能够开发和分析组合的转录标记，其可以进一步聚集成单一的多变量评分。

本发明人已经认识到现有的基于微阵列的研究正面临着分析众所周知的“噪音”数据的挑战，即数据难以解释并且不能很好地进行跨实验室和跨平台的对比。普遍接受的用于微阵列数据分析的方法始于识别研究组间表达有差异的基因子集。接着，使用者再利用模式发现算法(patterndiscovery algorithms)和已有的科学知识尝试从得到的基因列表中有所收获(make sense)。

本发明已经开发出侧重于在分析初期筛选生物学上相关基因的策略，而不是去应付跨平台的巨大变异性。简言之，方法包括对转录元件的识别，该转录元件的特征在于针对特定的生物系统，开发出改进的数据挖掘算法以从大量数据中分析和提取协同表达的基因或转录模块组。

本发明描述的生物标记发现策略特别适合于全面利用获得的微阵列数据。从～44,000个转录物起，28模块集合被定义为由接近5000个转录物组成。疾病特异性组合表达向量集合随后生成。向量表达值(表达向量)被证明是很稳定的，正如跨微阵列平台获得的优良再现性所显示的。这个发现值得注意，因为改善微阵列数据的可靠性是该技术在临床实践中广泛应用的先决条件。最后，表达向量能够依次被组合起来以获得唯一的多变量得分，这样就以与主流临床实践兼容的形式传送结果。有趣的是，多变量评分概括了变化的整体模式，而不是个体标记的变化。这种“整体生物标记”的发展可以被用于诊断和药物基因组学领域。

在一个例子中，对4742个探针集合重新分组的28个转录模块是从239种血液白细胞转录情况中获取的。形成这些模块的基因在功能上趋同是通过文献概述证实的。第二步包括在模块的基础上研究转录系统的干扰。为了说明这个概念，从健康志愿者和患者获取白细胞转录的情况，进行比较和分析。通过分析公开的微阵列数据集获取对该基因指纹识别策略的进一步验证。值得注意的，利用已有数据，本发明的模块转录装置、系统和方法显示出跨两种商业微阵列平台的高度再现性。

本发明包括实施被设计用于转录系统模块分析的广泛适用的、两步微阵列数据挖掘策略。这种新方法被用于表征血液白细胞的转录标识，其构成了最容易获取的临床相关信息的来源。

正如本发明所证明的，基于两种向量能够确定、区分和/或区别两种疾病，即使两种疾病的向量是相同的，例如对于SLE和FLU，M1.3＝53％以下，因为每个向量的组合仍然能够用于区分它们。例如，即使就M1.3而言，两种疾病间表达有差异的转录物的比例和极性是相同的，但基因组合仍然是疾病特异性的。基因水平和模块水平的组合显著地提高了分辨率。此外，能够使用2、3、4、5、10、15、20、25、28或更多个模块来区分疾病。

术语“基因”是指核酸(例如DNA)序列，包括生成多肽(例如)、前体或RNA(例如rnRNA)所必需的编码序列。多肽可以是由全长的编码序列或部分编码序列编码的，只要全长或片段保持所需的活性或功能特性(例如，酶活性、配体结合、信号转导、免疫原性等)。术语也包括结构基因的编码区域和位置邻近5′和3′末端的编码区域、距离每一末端为约2kb或更长的序列，这样基因对应于全长mRNA和影响基因转录性质的5′调节序列的长度。位于编码区域的5′端并在mRNA上出现的序列被称为5′未翻译序列。5′未翻译序列经常包含调节序列。位于3′端或编码区域下游并且出现在mRNA上的序列被称之为3′未翻译序列。术语“基因”包括cDNA和基因的基因组形式。基因组形式或基因的克隆包含由被称为“内含子”或“插入区”或“插入序列”的非编码序列中断的编码区域。内含子是被转录为核RNA(hnRNA)的基因片段；内含子可以包含调节元件，如增强子。内含子从核或初级转录物中被除去或“剪掉”；因此，内含子在信使RNA(mRNA)转录物中缺失。mRNA在翻译过程中的功能是限定初生的多肽的氨基酸序列或顺序。

本发明使用的术语“核酸”是指任何含有核酸的分子，包括但不限于DNA、cDNA和RNA。特别地，术语“表X中的基因”是指特定表中列出的至少一部分或全长序列，如下文所见的。基因甚至可以以基因组的形式被发现或检测到，即其包含一种或多种内含子。基因的基因组形式也可以包括位于RNA转录物中出现的位于编码序列的5′和3′末端上的序列。这些序列被称之为“侧翼”序列或区域。5′侧翼区域可以包含调节序列，如控制或影响基因转录的启动子和增强子。3′侧翼区域可以包含影响转录终止、转录后裂解、mRNA稳定性和多腺苷酸化的序列。

本发明使用的术语“野生型”是指从天然形成的来源中分离的基因或基因产物。野生型基因是种群中最频繁被观察到的基因，因此其被任意地设计成基因的“正常型”或“野生型”。相反地，术语“修饰的”或“突变株”是指当与野生型基因或基因产物相比时，序列和/或功能特性中显示出修饰(即改变的性质)的基因或基因产物。人们注意到天然形成的突变株能够被分离；这是通过当与野生型基因或基因产物相比时，它们的性质改变(包括改变的核酸序列)的事实看出来的。

本发明使用的术语“多形性”是指基因的两个或更多个等位基因的单一杂种繁殖种群有规律的且同时发生，其中较稀少的等位基因的频率更高，这可以由单独的频发突变(典型地大于1％)来解释。

本发明使用的术语“编码核酸分子”、“编码DNA序列”以及“编码DNA”是指沿着脱氧核糖核酸链的脱氧核苷酸顺序或序列。这些脱氧核苷酸的顺序决定了沿着多肽(蛋白质)链的氨基酸顺序。DNA序列由此为氨基酸序列编码。

本发明使用的术语“互补的”或“互补性”被用于说明基于碱基配对规则相关的多核苷酸(即核苷酸序列)。例如，序列“A-G-T”与序列“T-C-A”互补。互补性可以是“部分的”，其中仅有一些核酸碱基根据碱基配对规则配对。或者，核酸间可以存在“完全的”或“全部的”互补性。核酸链之间的互补程度对于核酸链之间的杂交效率和强度具有显著影响。这对于依赖于核酸间结合的扩增反应以及检测方法是特别重要的。

本发明使用的术语“杂交”用于说明互补核酸的配对。杂交和杂交强度(即核酸间的结合强度)受到如核酸间互补程度、有关条件的严格性、形成的杂种的T_m以及核酸中的G:C比例的因素的影响。在其结构中包含互补核酸配对的单一分子被称之为“自杂交的(self-hybridized)”。

本发明使用的术语“严格性”用于说明温度、离子强度和存在如有机溶剂的其它化合物的条件，在这样的条件下进行核酸杂交。在“低严格条件”下，目标核酸序列将与其精确的互补体、带有单个碱基错配的序列、紧密相关的序列(例如具有90％或更高同源性的序列)，以及仅具有部分同源性(例如具有50-90％同源性)的序列杂交。在“中等严格条件”下，目标核酸序列仅与其精确的互补体、带有单个碱基错配的序列、紧密相关的序列(例如具有90％或更高同源性)的序列杂交。在“高严格条件”下，目标核酸序列仅与其精确的互补体，以及(根据如温度的条件)带有单个碱基错配的序列杂交。换句话说，在高严格条件下，可以升高温度以便排除与带有单个碱基错配的序列杂交。

本发明使用的术语“探针”是指寡核苷酸(即核苷酸序列)，或者是天然形成的纯化的限制性酶切消化物(restriction digest)，或者是经合成，重组或PCR扩增产生的，其能够与另一目标寡核苷酸杂交。探针可以是单链的或双链的。探针可用于特定基因序列的检测、鉴定和分离。任何用于本发明的探针都可以用任何“报告(reporter)分子”标记，这样可以在任何检测系统中检测探针，检测系统包括但不限于酶(例如ELISA以及基于酶的组织化学分析)、荧光、放射性、发光系统等。这不意味本发明被限制于任何特定的检测系统或标记。

本发明使用的术语“靶点”是指引物结合的核酸区域。这样，“靶点”被设法从其它核酸序列中挑出来。“片段”被定义为靶序列中的核酸区域。

本发明使用的术语“Southern印迹”是指在琼脂或丙烯酰胺凝胶上将DNA根据大小分开，随后将DNA由凝胶转移到固体支持物上，例如硝基纤维素或尼龙膜上的DNA分析方法。然后用标记的探针探测固定化的DNA以检测与使用的探针互补的DNA种类。在电泳之前，可以用限制性酶切开DNA。电泳后，在转移到固体支持物之前或过程中，DNA可以被部分脱嘌呤(depurinated)和变性。Southern印迹是分子生物学家的标准工具(Sambrook等，Molecular Cloning:A Laboratory Manual，Cold SpringHarbor Press，NY，pp 9.31-9.58，1989)。

本发明使用的术语“Northern印迹”是指通过琼脂上的RNA电泳将RNA根据大小分开，随后将RNA由凝胶转移到固体支持物上，如硝基纤维素或尼龙膜上的RNA分析方法。然后用标记的探针探测固定化的RNA以检测与使用的探针互补的RNA种类。Northern印迹是分子生物学家的标准工具(Sambrook等，同上，pp 7.39-7.52，1989)。

本发明使用的术语“Western印迹”是指被固定到支持物，如硝基纤维素或膜上的蛋白(或多肽)的分析方法。使蛋白质在丙烯酰胺凝胶上运动以分离蛋白质，随后将蛋白质从凝胶转移至固体支持物上，如硝基纤维素或尼龙膜。然后，将固定化的蛋白质暴露在具有抗目标抗原的反应性的抗体中。可以通过不同方法，包括使用放射性标记的抗体检测抗体的结合。

本发明使用的术语“聚合酶链反应”(“PCR”)是指K.B.Mullis的方法(美国专利Nos.4,683,195、4,683,202和4,965,188，在此引入作为参考)，它们描述了无需克隆或纯化提高靶序列片段在基因组DNA混合物中的浓度的方法。这种用于扩增靶序列的过程包括向包含所需靶序列的DNA混合物中引入大量过量的两种寡核苷酸引物，随后在DNA聚合酶的存在下进行精确顺序的热循环。两种引物与它们各自的双链靶序列的链互补。为了实现扩增，将混合物变性并且随后根据靶分子中它们的互补序列将引物退火。退火之后，引物经聚合酶延伸以形成新的配对互补链。变性、引物退火和聚合酶延伸的步骤可以重复多次(即变性、退火和延伸构成一个“循环”；可以有许多个循环)以获得高浓度的所需靶序列的扩增片段。所需靶序列的扩增片段的长度是由彼此相关的引物的相对位置决定的，因此该长度是可控的参数。由于该过程的重复性，该方法被称之为“聚合酶链反应”(下文中为“PCR”)。由于所需的靶序列的扩增片段成为混合物中的主要序列(根据浓度)，它们被称为“PCR扩增”。

本发明使用的术语“PCR产物”，“PCR片段”以及“扩增产物”是指两个或更多个变性、退火和延伸的PCR步骤循环完成之后得到的化合物的混合物。这些术语包括其中已经有一个或多个靶序列的一个或多个片段扩增的情况。

本发明使用的术语“实时PCR”当其用于本发明时是指不同的PCR应用，其中与反应完成之后测定扩增相反，而是在反应完成过程中测定扩增。适用于本发明的实时PCR实施方案的试剂包括但不限于TaqMan探针、分子信标、蝎状引物(Scorpions primer)或双链DNA结合染料。

本发明使用的术语“转录上调”、“过表达”和“过表达的”是指使用DNA模板通过RNA聚合酶合成的RNA增多。例如，当术语“转录上调”用于说明本发明的方法时，是指与从不易患SLE个体得到的样品中检测的目标基因相比，对应于从易患SLE个体得到的样品中检测的目标基因的mRNA量增加约1倍、2倍、2至3倍、3至10倍以及甚至超过10倍。然而，系统和评价具有足够的特异性以致于只需要低于2倍的表达变化就可以进行检测。而且，表达的变化可以是细胞水平的(单个细胞或细胞群中的表达变化)或者甚至可以在组织水平上进行评价，该组织中表达基因的细胞数量有变化。组织分析过程中基因表达的变化可以归因于基因活性的调节或细胞组成的相对变化。特别有用的差异是统计学上显著的差异。

相反地，术语“转录下调”，“表达不足”和“表达不足的”可以互换使用，并且是指使用DNA模板通过RNA聚合酶合成的RNA减少。例如，当术语“转录下调”用于说明本发明的方法时，是指与从不易患SLE个体得到的样品中检测的目标基因，或者野生型的信息数据库和/或正常对照，例如纤维肌痛相比，对应于从易患这种病症的个体得到的样品中检测的目标基因的mRNA量增加约1倍、2倍、2至3倍、3至10倍以及甚至超过10倍。再者，系统和评价具有足够的特异性以致于只需要低于2倍的表达变化就可以进行检测。特别有用的差异是统计学上显著的差异。

转录“上调”/过表达和转录“下调”/表达不足也可以通过测量对应于目标基因的翻译产物或蛋白水平来间接监测。本发明不受限于任何已知的关于转录上调或下调的机理。

本发明使用的术语“真核细胞”是指具有膜边界、结构上离散的核以及其它完全发育的亚细胞区室的细胞或生物体。真核细胞包括所有的生物体，除了病毒、细菌和蓝绿藻。

本发明使用的术语“体外转录”是指包括含有启动子的纯化DNA模板、三磷酸核糖核酸、缓冲系统以及适宜的RNA聚合酶的在活细胞或生物体外部进行的转录反应，所述缓冲系统包括还原剂和阳离子，例如DTT以及镁离子。

本发明使用的术语“扩增试剂”是指除了引物、核酸模板以及扩增酶之外的扩增所需的那些试剂(三磷酸脱氧核糖核酸、缓冲液等)。典型地，扩增试剂和其它反应成分置于或被包含在反应容器中(试管、微孔板等)。

本发明使用的术语“诊断”是指确定疾病病例的性质。在本发明的一些实施方案中，提供了能够确定SLE的诊断方法。

本发明可以单独使用或与疾病的治疗方法组合使用以监测疾病的发展和/或患者的管理。例如，可以对患者进行一次或多次测试以确定治疗的最佳过程，确定治疗是否具有预期的医疗效果，患者是否是特定治疗方法的候选人以及它们的组合。技术人员将意识到一个或多个表达向量可以作为一种或多种疾病的指示物，它们可能受其它病征的影响，这些病征是急性或慢性的。

本发明使用的术语“药物遗传学实验”是指旨在研究与例如药物吸收和处置(药物代谢动力学)或药物作用(药效学)相关的DNA序列中个体间变化的分析方法，所述变化可以包括编码例如转运体、代谢酶、受体和其它蛋白质功能的一种或多种基因中的多态性变化。

本发明使用的术语“药物基因组学实验”是指用于研究整个基因组或候选基因的个体间变化，例如单核苷酸多态性(SNP)图或单倍型标记，以及可能与药理学功能或治疗响应相关的基因表达或失活的改变的分析方法。

本发明使用的“表达状况”是指对多种细胞成分的相对丰度的测量值。这种测量值可以包括例如RNA或蛋白质丰度或活性水平。表达状况可以是转录阶段或翻译阶段的例子的测量值。参见美国专利Nos.6,040,138、5,800,992、6,020135、6,033,860，相关部分引入本发明作为参考。基因表达监测系统包括核酸探针阵列、膜印迹(例如用于如Northern、Southern、点等杂交分析中)，或者微孔板、样品管、凝胶、微珠或纤维(或者任何包含结合的核酸的固体支持物)。参见例如美国专利Nos.5,770,722、5,874,219、5,744,305、5,677,195和5,445,934，相关部分引入本发明作为参考。基因表达监测系统也包括溶液中的核酸探针。

本发明的基因表达监测系统可以用于实施不同细胞和组织，相同细胞和组织的不同亚群，相同细胞或组织的不同生理阶段，相同细胞和组织的不同发育阶段，或者相同组织的不同细胞群的表达的比较分析。

本发明使用的术语“表达有差异的”是指两个或多个样品中变化的细胞成分的测量值。细胞成分可以在测试样品中相对于基准上调或者在测试样品中相对于一种或多种基准下调。不同的基因表达还可以被用于区分细胞类型或核酸。参见美国专利No.5,800,992，相关部分引入本发明作为参考。

治疗或治疗方案:为了缓解或改变疾病状态，经常采用治疗或治疗方案。本发明使用的治疗或治疗方案是指旨在减轻或消除疾病的影响或症状的治疗过程。典型的治疗方案将包括但不限于开具的一种或多种药物或外科手术的处方。理想的治疗将是有益的，并且减轻疾病状态，但是在许多实例中，治疗的作用并没有达到预期的效果。治疗的作用也会受到样品的生理状态的影响。

模块显示出突出的“转录行为”。普遍的假设是共表达的基因在功能上相关联。在基因遵循跨许多样品的复合表达模式的情况下，这个“牵连犯罪”的概念特别具有说服力。本发明人发现了来自一致的生物单元的转录模块，并由此预测在我们的初始数据集中所识别的共表达性质将被保存在独立的样品集合中。获取从21名健康志愿者血液中分离的PBMCs的数据。这些样品不用于上述的模块筛选过程。

高度特异性针对M1.2的关键词包括血小板、聚集或血栓形成，并且与如ITGA2B(整联素α2b、血小板糖蛋白IIb)、PF4(血小板因子4)、SELP(选择素P)和GP6(血小板糖蛋白6)的基因相关。

高度特异性针对M1.3的关键词包括B细胞、免疫球蛋白和IgG，并且与如CD19、CD22、CD72A、BLINK(B细胞连接蛋白)、BLK(B淋巴酪氨酸激酶)和PAX5(配对的box基因，B细胞系特异性激活剂)的基因相关。

高度特异性针对M1.5的关键词包括单核细胞、树突状、CD14、钟样，并且与如MYD88(髓样分化初级响应基因88)、CD86、TLR2(钟样受体2)、LILRB2(白细胞免疫球蛋白样受体B2)和CD163的基因相关。

高度特异性针对M3.1的关键词包括干扰素、IFN-α、抗病毒或ISRE，并且与如STAT1(信号转导和转录激活剂1)、CXCL10(CXC趋化因子配体10，IP-10)、OAS2(寡腺苷酸合成酶2)和MX2(粘病毒抗性2)的基因相关。

这种术语出现的对比模式显示出每个模块显著的功能上的一致性。已经鉴定了从所有有关模块的文献中提取的信息，获得了全面的转录水平上的PBMC系统的功能特征。表2提供了对28个样品PBMC转录模块中的每一种进行识别而得到的关于功能联系的说明。

表2.28个转录模块的完整功能评估

模块标识	探针集合的数量	关键词的选择	评估
模块标识	探针集合的数量	关键词的选择	评估	M1.1	69	Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu	血浆细胞。包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因。
M1.2	96	血小板、粘附、聚集、内皮、血管	血小板。包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)和源于血小板的免疫介质，如PPPB(前血小板碱性蛋白)和PF4(血小板因子4)的基因。	M1.1	69	Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu	血浆细胞。包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因。
M1.2	96	血小板、粘附、聚集、内皮、血管		M1.3	47	免疫受体、BCR、B细胞、IgG	B细胞。包括编码B细胞表面标记(CD72、CD79A/B、CD19、CD22)和其它B细胞相关的分子:早期B细胞因子(EBF)、B细胞连接蛋白(BLINK)和B淋巴酪氨酸激酶(BLK)的基因。

M1.4	87	复制、抑制、修复、CREB、淋巴的、TNF-α	未确定的。该集合包括cAMP信号传导途径的调节子和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)，以及TNF-α介导的NF-KB活化的阻遏物。
M1.4	87	复制、抑制、修复、CREB、淋巴的、TNF-α		M1.5	130	单核细胞、树突状、MHC、共刺激、TLR4、MYD88	髓系。包括髓系细胞表达的分子(CD86、CD163、FCGR2A)，其中的一些涉及病原体的识别(CD14、TLR2、MYD88)。该集合还包括TNF家族成员(TNFR2、BAFF)。
M1.6	28	锌、指、P53、RAS	未确定的。该集合包括编码信号分子，例如包含活化的STAT抑制剂的锌指(PLAS1和PLAS2)，或者活化的T细胞NFATC3核因子的基因。	M1.5	130	单核细胞、树突状、MHC、共刺激、TLR4、MYD88
M1.6	28	锌、指、P53、RAS		M1.7	127	核糖体、翻译的、40S、60S、HLA	MHC/核糖体蛋白。几乎专门由编码I型MHC分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因形成。
M1.8	86	代谢、生物合成、复制、解旋酶	未确定的。包括编码代谢酶(GLS、NSF1、NAT1)和涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因。	M1.7	127	核糖体、翻译的、40S、60S、HLA
M1.8	86	代谢、生物合成、复制、解旋酶		M2.1	72	NK、杀伤细胞、溶解细胞的、CD8、细胞介导的、T细胞、CTL、IFN-g	细胞毒性细胞。包括细胞毒性T细胞和NK细胞表面标记(CD8A、CD2、CD160、NKG7、KLRs)，溶解细胞的分子(颗粒酶、穿孔素、颗粒溶解素)，趋化因子(CCL5、XCL1)和CTL/NK细胞相关的分子(CTSW)。

M2.2	44	粒细胞、中性粒细胞、防御、髓的、骨髓	中性粒细胞。该集合包括中性粒细胞颗粒中发现的固有分子(乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白:BPI，Cathelicidin抗菌蛋白:CAMP......)。
M2.2	44	粒细胞、中性粒细胞、防御、髓的、骨髓		M2.3	94	红细胞、红、贫血、球蛋白、血红蛋白	红细胞。包括血红蛋白基因(HGBs)和其它与红细胞相关的基因(红细胞alkirin:ANK1，血型糖蛋白C:GYPC，羟甲基胆素合成酶:HMBS，红细胞相关因子:ERAF)。
M2.4	118	核糖核蛋白、60S、核仁、装配、延伸	核糖体蛋白。包括编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)和核仁蛋白(NPM1、NOAL2、NAP1L1)的基因。	M2.3	94	红细胞、红、贫血、球蛋白、血红蛋白
M2.4	118	核糖核蛋白、60S、核仁、装配、延伸		M2.5	242	腺瘤、间质性、间充质、树突状、运动	未确定的。该模块包括编码免疫相关的(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关的分子(肌球蛋白、胞质分裂的作用因子(dedicator)、粘结蛋白聚糖2、Plexin C1、Distrobrevin)的基因。
M2.6	110	粒细胞、单核细胞、髓的、ERK、坏死	髓系。与M1.5有关。包括在髓系细胞，如单核细胞和中性粒细胞中表达的基因(IGTB2/CD18、淋巴毒素β受体、髓相关蛋白8/14甲酰肽受体1)。	M2.5	242	腺瘤、间质性、间充质、树突状、运动
M2.6	110	粒细胞、单核细胞、髓的、ERK、坏死		M2.7	43	未提取关键词	未确定的。该模块大部分由功能未知的转录物组成。只有20个基因与文献有关，包括趋化因子样因子

			超家族中的成员(CKLFSF8)。
			超家族中的成员(CKLFSF8)。	M2.8	104	淋巴瘤、T细胞、CD40、CD8、TCR、胸腺、淋巴的、IL-2	T细胞。包括T细胞表面标记(CD5、CD6、CD7、CD26、CD28、CD96)和由髓系细胞表达的分子(淋巴毒素β、IL-2诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)。
M2.9	122	ERK、反式激活、细胞骨架、MAPK、JNK	未确定的。包括编码与细胞骨架相关的分子(肌动蛋白相关的蛋白2/3，MAPK1、MAP3K1、RAB5A)的基因。还代表T细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)。	M2.8	104	淋巴瘤、T细胞、CD40、CD8、TCR、胸腺、淋巴的、IL-2
M2.9	122	ERK、反式激活、细胞骨架、MAPK、JNK		M2.10	44	髓的、巨噬细胞、树突状、炎性、白介素	未确定的。包括编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)和涉及信号传导途径的分子(FYB、TICAM2-钟样(Toll-like)受体途径)的基因。
M2.11	77	复制、抑制、RAS、自身磷酸化、致癌的	未确定的。包括激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)和RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)。	M2.10	44	髓的、巨噬细胞、树突状、炎性、白介素
M2.11	77	复制、抑制、RAS、自身磷酸化、致癌的		M3.1	80	ISRE、流感、抗病毒、IFN-γ、IFN-α、干扰素	干扰素可诱导的。该集合包括干扰素可诱导的基因:抗病毒分子(OAS1/2/3L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、SATt2、IRF7、ISGF3G)。

M3.2	230	TGF-β、TNF、炎性、凋亡、脂多糖	炎症I。包括编码涉及炎症过程的分子(例如IL8、ICAM1、C5R1、CD44、PLAUR、IL1A、CXCL16)和凋亡调节剂(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因。
M3.2	230	TGF-β、TNF、炎性、凋亡、脂多糖		M3.3	230	粒细胞、炎性、防御、氧化、溶酶体	炎症II。包括诱导粒细胞-巨噬细胞CSF或由粒细胞-巨噬细胞CSF诱导的分子(SPI1、IL18、ALOX5、ANPEP)，以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)。
M3.4	323	未提取关键词	未确定的。包括磷酸蛋白(PPP1R12A、PTPRC、PPP1CB、PPM1B)和磷酸肌醇3-激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)。	M3.3	230	粒细胞、炎性、防御、氧化、溶酶体
M3.4	323	未提取关键词		M3.5	19	未提取关键词	未确定的。仅有少量转录物组成。包括血红蛋白基因(HBA1、HBA2、HBB)。
M3.6	233	补体、宿主、氧化的、细胞骨架、T细胞	未确定的。这个很大的集合包括T细胞表面标记(CD101、CD102、CD103)以及血液白细胞中普遍表达的分子(CXRCR1:fraktalkine受体，CD47，P选择素配体)。	M3.5	19	未提取关键词	未确定的。仅有少量转录物组成。包括血红蛋白基因(HBA1、HBA2、HBB)。
M3.6	233	补体、宿主、氧化的、细胞骨架、T细胞		M3.7	80	剪接体、甲基化、泛素、β-连接素	未确定的。包括编码蛋白酶体亚基(PSMA2/5、PSMB5/8)；泛素蛋白连接酶HIP2、STUB1，以及泛素连接酶复合物的组分(SUGT1)的基因。
M3.8	182	CDC、TCR、CREB、糖酶	未确定的。包括编码几种酶:氨甲基转移酶、精氨酰转移酶、天冬酰	M3.7	80	剪接体、甲基化、泛素、β-连接素

			胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶......的基因
			胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶......的基因	M3.9	261	染色质、检查点、复制、反式激活	未确定的。包括编码蛋白激酶(PRKRIR、PRKDC、PRKCI)和磷酸酶(例如，PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家组成员和NK细胞受体2B4(CD244)。

本发明包括实施模块水平的微阵列数据分析策略和表征免疫转录向量。血液白细胞转录情况的模块分解改善了对疾病发病机理的理解，实现了例如对患有转移性黑色素瘤和接受肝移植者所共有的免疫抑制标识的识别。本发明证明了免疫转录向量可以被用作诊断标记和疾病严重程度的指示物。

已有技术的微阵列数据挖掘策略。众所周知，“传统的”的微阵列分析结果噪音大，并且难以解释。常规的基因水平微阵列分析包括三个基本步骤(图1a):I.组间对比:表达有差异的基因是通过对比不同研究组来识别的。II.模式发现:根据表达有差异的基因跨多个条件下的转录情况，对其进行分组。III.功能注释/分析:利用基于本体论和/或基于文献的分析工具揭示形成转录标识的基因间的功能关系。这种基因水平的分析方法得到了通用的微阵列数据挖掘软件的支持，并且经常用在微阵列出版物中(例如(Borovecki等，2005；Calvano等，2005；Ockenhouse等，2005；Willinger等，2005))。

相反地，本发明描述的微阵列数据挖掘策略转为依赖于转录模块的最初表征，该转录模块的作用是作为后面分析阶段中进行独立统计学组间对比的基础(图1b):I.模块提取:使用常规的模块提取算法识别协同表达的基因集合(图1c详细说明，下文教授了方法)。重要地，分析并不考虑研究组间基因表达水平的差异；其转为关注源于生物学变化的复合基因表达模式(例如，患者群体中的个体间差异，或者不同治疗导致的差异)。II.功能注释/分析:用基于本体论和/或基于文献的分析工具揭示形成转录模块的基因间的功能关系。III.组间对比:通过基于模块到模块的研究组间对比，在这个阶段识别表达有差异的基因。在每个模块水平上进行统计学对比，避免了跨整个微阵列探针集合进行上千次实验时产生的噪音。IV.可视化/解释:最后，通过绘制跨所有模块发生的全部转录变化的图谱，对数据进行解释。

本发明描述的微阵列分析是基于对协同表达的转录物集合的识别，或者使用数据挖掘算法得到的转录模块；即这种“数据驱动”的筛选过程不需要任何来自研究者部分的干预，并且也不涉及任何先验的有关基因功能的知识。仅在筛选过程发生之后对转录模块进行功能分析。值得注意地，模块集合是特异性针对于生物系统的，而模块集合来源于该生物系统。结果，模块构成了用于分析在定义的生物系统中获得的数据的框架(即血液转录模块不能分析从另一组织获取的数据；必须形成不同的模块集合)。

外周血细胞中转录模块的识别:针对外周血液单核细胞(PBMC)转录数据集实施上文描述的模块挖掘策略。血液白细胞转录模块的识别是基于对广泛收集的微阵列基因表达情况的分析，该表达情况是针对大量疾病形成的:全身型幼年特发性关节炎、系统性红斑狼疮(SLE)、I型糖尿病、转移性黑色素瘤、急性感染(大肠杆菌、金黄色葡萄球菌、甲型流感)，以及接受肝移植并接受免疫抑制治疗的患者。使用Affymetrix U133 A和U133B基因芯片(>44,000个探针集)获取总计239个PBMC的转录情况。使用常规算法(详见方法部分)提取转录模块。对于该分析，筛选了分布在28个模块中的4742个转录物(附表1提供了完全的列表)。每个模块都被赋予了显示筛选轮次和顺序的独特标识符(即M3.1为第三轮筛选中鉴定的第一个模块)。

PBMC转录模块的功能表征。模块来自一致的转录单元，并且因此发现在独立的样品集合中将会保留在最初的数据集中鉴定的共表达性质。从21名受试者的血液中分离的PBMCs获得的数据集合证实了这一观察，这21名受试者未被用于上述模块筛选过程(图2c)。接着，从功能上表征每个模块(图1b:步骤II)。通过文献概述(profiling)分析与形成每个模块的基因有关的关键词在PubMed摘要中出现的情况((Chaussabel和Sher，2002)中描述。图2d中说明了四个模块中不同的关键词分布)，附表2说明了经鉴定的针对28个PBMC转录模块中每一个的功能关系。这种分析说明了来自一致功能单元的转录模块。在28个PBMC模块中的14个中，本发明被用于将某些基因与涉及免疫过程的途径和细胞类型联系起来。在剩余的14个模块中也观察到了功能上的趋同，但是实际的含义还不清楚(例如，M2.5包括编码免疫相关的—CD40、CD80、CXCL12、IFNA5、IL4R以及细胞骨架相关分子—肌球蛋白、胞质分裂的作用因子、粘结蛋白聚糖2、Plexin C1、Distrobrevin的基因；或M2.11，其包括多种激酶—UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2，以及RAS家族成员—G3BP、RAB14、RASA2、RAP2A、KRAS。

健康和疾病时PBMC转录情况的模块水平分析。基因水平分析:从16名患有转移性黑色素瘤的患者以及16名接受肝移植并且接受免疫抑制药物治疗的患者获取PBMC微阵列转录情况，并与健康对照受试者对比。图1a描述的基因水平分析鉴定了患者和各自的健康对照组间表达有差异的转录物(Mann Whitney U检验，p<0.001)。分层聚类定义了每组的两个标识，分开了过表达和表达不足的转录物(图2a)。

模块水平分析:使用事先经提取和表征的PBMC转录模块进行该分析(图1b的步骤I和II)。基于模块到模块独立地进行患者与健康组间的统计学组间对比(图1b:步骤III，Mann Whitney U检验，p<0.005)。对于每个模块而言，均以图表表示表达有差异的基因的转录情况，其中饼状图显示了表达有差异的转录物的比例(图2b，例如相对于健康对照，患有黑色素瘤的患者中形成模块M1.2的130个转录物中有61％过表达)。有趣的是，每个模块中表达有差异的基因都占优势，要么表达不足要么过表达(图2b，附表2)。由于没有根据组间表达水平的差异提取模块，基因表达变化的事实几乎一致地反映了表征每个模块转录行为的一致性。

绘制模块转录变化图谱:数据的可视化对于解释复合的数据集极为重要，并且这些数据被用于以图表的方式说明整体的模块变化(图1b:步骤IV)。模块水平的数据是由格栅中排列的点表示的，每个位置对应于不同的模块(图2c)。点的密度显示每个模块中显著变化的基因的比例。点的颜色表示变化的极性(红色:过表达的基因的比例，蓝色:表达不足的基因的比例)。这种表示方法能够对PBMC转录系统的扰动进行全面的评估。模块的坐标可以与功能性注释联系起来对数据进行解释(图2d，附表2)。

模块分析揭示了对PBMC转录情况的疾病特异性干扰:针对四组患者绘制模块图，并以由年龄和性别匹配的健康志愿者组成的他们各自的对照组进行对比(22名患有SLE的患者，16名患有急性流感感染的患者，16名患有转移性黑色素瘤的患者以及16名接受肝移植的患者与10至12名健康受试者组成的对照组进行对比)。每个模块都有四选一的可能性，这取决于其基因是过表达的(红点)、表达不足的(蓝点)、过表达的和表达不足的(紫点—这里没观察到)、未变化的(空)。M1.1和M1.2的显著结果足以单独识别所有四种疾病(M1.1/M1.2:SLE＝+/0；流感＝0/0；黑色素瘤＝-/+；移植＝-/-)。M3.2中的多个基因(“炎症”)在所有疾病中过表达(特别是在移植组中这样)，而M3.1(干扰素)中的基因在患有SLE、流感感染的患者，以及某种程度上在接受移植者中过表达。M2.1和M2.8分别包括在淋巴细胞减少的SLE患者以及用免疫抑制药物治疗的接受移植者中表达不足的细胞毒性细胞和T细胞转录物。因此，本发明用于证明疾病是由独特的模块转录变化的组合来表征的。此外，已经发现通过与进行常规的基因水平分析获得的热图相比较(图2a)，针对相同数据集合应用建议的模块水平挖掘策略形成了对微阵列结果的精细且可解释的表征(图2c)。

获取对疾病发病机理的了解:在患有转移性黑色素瘤或接受肝移植并接受免疫抑制药物治疗的患者中，转录物集合优先是过表达的:分解预先定义的转录模块集合中的微阵列数据，能够获得对疾病发病机理新的了解。已经发现在患有黑色素瘤的患者和接受肝移植者中形成M1.4的转录物的重要比例都有变化。另一方面，在患有急性流感感染和狼疮的患者中没有检测到变化(图2c)。这些发现更加深入地推动了研究。由总计35名患有转移性黑色素瘤的患者、39名接受肝移植者以及25名健康受试者获取血液微阵列数据。观察到的患有转移性黑色素瘤的患者与接受肝移植者之间相似性是特异性针对于这两组患者的，确定了该相似性的程度。在基因水平上进行患者和健康对照之间统计学上的组间对比。该分析鉴定了323个在接受肝移植者和患有转移性黑色素瘤的患者中显著过表达的转录物(Mann-Whitney U检验，p<0.01，过滤了>1.25倍的变化)。接着使用来自患有系统性红斑狼疮(SLE)、急性感染(肺炎链球菌、金黄色葡萄球菌、大肠杆菌以及甲型流感病毒)或移植物抗宿主病(GVHD)的患者的样品，分别相对于健康对照组进行这些转录物的组间对比。基于显著性模式上的相似性，通过分级聚类对该分析形成的p值进行分组(图3a；该方法在(Chaussabel等，2005)中有详细描述)。普遍过表达的基因集合形成了模型P1(附表3)；相反地，在患有黑色素瘤的患者和接受移植者中更特异性表达的转录物形成了模型P2(附表4)。

这样，已经发现形成黑色素瘤组和移植组共有的转录标识的基因可以根据两种性质被划分成截然不同的集合:(1)协同表达(转录模块:图2b)；以及(2)跨疾病的表达变化(显著性模式:图3a)。为了交叉验证这两种不同方法的结果，确定了普遍的(P1)和特异性的(P2)PBMC转录标识的模块分布。图3b显示了至今已经鉴定的跨28个PBMC转录模块的P1和P2不是随意分布的。实际上，在M3.2(以与炎症有关的转录物为特征)中优先发现P1转录物，而M1.4转录物几乎专属于P2，其中包括在患有黑色素瘤的患者和接受肝移植者中更特异性地过表达的基因。

患有黑色素瘤的患者显示出接受肝移植者共有的免疫抑制转录标识:焦点在于在黑色素瘤组和移植组(P2)中最特异性表达的基因。从69个探针集合中发现了55个独特的基因标识符。发展对以基因为索引的文献数据库的查询有助于解释微阵列基因表达数据，鉴定了与47个基因有关的6527篇出版物，其中30个基因与超过10篇出版物有关。已经发现形成该标识的基因间在功能上明显趋同(图3c)。该模块包括编码显示免疫调节活性的分子的基因:(1)NF-kB途径的抑制剂，如TNFAIP3或CIASl(Cryopyrin)，其调节NF-κB的活化以及促炎症趋化因子的生成。已经在几种炎性障碍中鉴定了该基因的突变(Agostini等，2004)。DSIPI，亮氨酸拉链蛋白，已知其通过干扰大范围的信号传导途径(NF-κB、NFAT/AP-1、MEK、ERK 1/2)，导致巨噬细胞中炎性反应被普遍抑制和T细胞IL-2受体的下调，从而介导糖皮质激素和IL-10的免疫抑制效应。值得注意地，已经发现药物治疗(地塞米松)(D′Adamio等，1997)或长期暴露于肿瘤细胞(Burkitt淋巴瘤)(Berrebi等，2003)之后免疫细胞中的DSIPI表达被放大了。(2)MAP激酶途径的抑制剂:例如，双特异性磷酸酶2、5和10(DUSP2、DUSP5和DUSP10)干扰MAP激酶ERK1/2，这是钙调神经磷酸酶抑制剂(如他克莫司/FK506)的已知靶点。(3)IL2生成抑制剂:CREM、FOXK2和TCF8直接地结合IL-2启动子，并且能够有助于抑制无变应性的T细胞中IL-2的生成(Powell等，1999)。有趣的是，发现DUSP5在T细胞的IL-2信号传导中具有负反馈的作用(Kovanen等，2003)。(4)细胞增殖的抑制剂(例如，BTG2、TOBl、AREG、SUIl和RNFl39)。其它的分子，如BHLHB2(Stral3)负向调节淋巴细胞的发育和体内功能(Seimiya等，2004)。

这样，患有转移性黑色素瘤的患者显示出的免疫抑制标识与接受肝移植者经药理学方案诱发的标识相似。

生物标记的发现I:患有系统性狼疮的患者的血液中微阵列免疫转录向量的表征。血液用作细胞的储存器，这些细胞对血流以及血流流转的组织中获得的信号有响应。因此，血液构成了可获取临床相关信息的来源。实际上，产生于血液的微阵列基因表达数据不仅提供了有价值的对疾病发病机制的了解，还构成了有前景的生物标记的来源。然而，难点在于从大量数据中提取具有潜在临床数值的指示物，这些数据是通过基因组范围的表达扫描而形成的。模块转录数据被用作生物标记发现策略的基础，并且被用于说明利用由患有系统性红斑狼疮(SLE)的儿科患者群组形成数据集来实施这种新方法。

狼疮的血液转录标识:SLE是自身免疫疾病，其特征在于先天性免疫和获得性免疫调节异常(Carroll，2004；Grammer和Lipsky，2003；Kong等，2003；Manderson等，2004；Manzi等，2004；Nambiar等，2004)。已经对从儿科和成人SLE患者获得的外周血单核细胞进行基因水平的分析(Baechler等，2003；Bennett等，2003；Crow等，2003；Kirou等，2004)。使用更早一代的Affymetrix阵列(～12,600个探针集合)，在所有的活动性儿科患者中鉴定了I型干扰素(IFN)标识(Bennett等，2003)。该数据证实了I型干扰素途径的激活是儿科SLE的普遍特征。这种分析也揭示了中性粒细胞、免疫球蛋白(Ig)和淋巴细胞标识的存在，这些标识分别与低密度粒细胞、血浆细胞前体的存在以及SLE血液中淋巴细胞数量的减少相关联(Bennett等，2003)。在现在的研究中，模块M3.1、M2.2、M1.1和M2.8(分别为干扰素可诱导的、中性粒细胞、血浆细胞和T淋巴细胞)中观察到的显著变化在模块水平上反映了这些标识。这些结果是在新的儿科狼疮患者群组中获得的，在诊断的时候和开始治疗前取样，以AffymetrixU133基因芯片分析了超过44,000个转录物。这是在7个其它模块(图2b:M1.7、M2.1、M2.3、M2.4、M2.5、M2.6和M2.7)中另外的转录变化中发现的。有趣地，M1.7和M2.4包括许多编码核糖体蛋白家族成员的转录物，其中最近在急性感染和败血症中发现表达被改变了(Calvano等，2005；Thach等，2005)—也参见图2b:急性流感感染。

转录向量的装配:开发的生物标记发现策略依赖于相对于对照受试者(例如健康志愿者)显著变化的模块的最初筛选。在该例子中，针对11个使用的模块，未治疗的儿科SLE患者中观察到变化(图4，步骤I)。随后，通过筛选相对于健康受试者、11个模块中的每一个都显著变化的基因形成“转录向量”(图4，步骤II)。随后通过对形成每个向量的转录物的子集中获得的数据取平均值，得到表达水平(图4，步骤III)。然后，通过将针对每个这些向量获取的表达水平绘制在图表上(例如雷达标图上)可以表示患者的情况。根据结构，向量集合是疾病特异性的，因为它是由两轮筛选形成的，第一轮在模块水平上(步骤I:例如SLE的28个模块中的11个)，然后在基因水平上(步骤II:疾病相对于健康对照组的p<0.05)。

狼疮血液转录向量:使用针对上述未治疗的儿科SLE患者的完整群组获取的SLE向量集合获得情况(图5a:每条线为一个患者，较粗的线是所有患者的平均值)，而图5b以相同的向量显示了健康志愿者的常规模式的特征。这样的主要标记集合可以被用作获得其它样品集合表达水平的参考。针对儿童的独立集合形成患者情况，这些儿童患有SLE并接受口服甾体(服用高剂量甾体的患者被排除)和/或细胞毒性药物和/或羟基氯喹治疗(N＝31；图5c)。有趣地，治疗的和未治疗的患者群组的平均情况几乎是重叠的(superimposable)(图5d)。这种预料不到的结果可以由患者组都表现出相似疾病活动的事实来解释，正如临床指数SLEDAI(SLE疾病活动指数—未治疗的患者的平均值为11.5±7.9；治疗的患者＝9.4±6.4，Student′s t-检验p＝0.3)所测定的。实际上，基于疾病活动对样品划分层次，而不管治疗产生的相反情况:相比治疗的或未治疗的患者群组，患有轻微疾病的患者的样品表现出更常规的情况(图5e，SLEDAI[0-6])；而疾病活动强烈的患者表现出恶化的情况(图5f，SLEDAI[14-28])。因此，这些结果证实了经鉴定的SLE患者的免疫转录向量是与疾病过程直接联系的。值得注意地，当对治疗的儿科SLE患者的模块转录变化绘图时可以观察到治疗的效果(图5g)。然而，未治疗的患者中获得的核心疾病标识仍保持。

作为诊断标记的转录向量的相关性。使用未治疗的儿科SLE向量作为参考，生成成人SLE患者的基因情况。这些受试者表现出受干扰的表达模式，其与儿科患者中观察到的一致(图6a)。这与成人纤维肌痛患者是相反的，该患者没有表现出SLE标识的特征(图6b)，并且更类似于健康成人(图6c)。该发现是值得注意的，因为患有纤维肌痛的患者表现出与系统性狼疮一致的症状，某些情况下导致诊断困难(Blumenthal，2002)。这些结果说明了患者血液微阵列分析获得的免疫转录向量的潜在诊断价值。

生物标记的发现II:用于评估患有系统性狼疮患者的疾病严重程度的多变量微阵列评分。SLE是以高发病率红疹为特征的疾病。至少有6种对SLE整体疾病活动的组合测量是可用的(Bae等，2001；Bencivelli等，1992；Bombardier等，1992；Hay等，1993；Liang等，1989；Petri等，1999)。这些工具提供了对文献的评价(metrics)并对疾病活动定量，已经被用于临床试验。然而，某些被包括的测量并不容易获得。相反地，已知临床疾病的异质性特征，并非所有的SLE表现都可以在这些工具中进行计算，使得全面评估患者的病征很困难。一个目的是基于血液白细胞微阵列转录数据建立客观的疾病活动指数。

多变量微阵列转录评分的定义:上述进行的对儿科SLE患者情况的分析(图5)明确地与转录向量和临床疾病的表现相关联。而且，针对每个向量获得相关的组合表达值，并且针对每个未治疗群组中的患者计算临床活动指数(SLEDAI)。发现两个转录向量与疾病活动正相关(图7:分别为M2.2和M3.1，“中性粒细胞”和“干扰素可诱导的”模块)，而三种其它的向量负向相关(图7:M1.7、M2.4和M2.8，包括与“核糖体蛋白”和“T细胞”相关的转录物)。分解截然不同的向量中的微阵列转录数据，这样使得我们能够将这样的5个参数组合成单一的多变量指示物。用于分析多变量有序数据的新的非参数方法被用于对患者评分((Wittkowski等，2004)中详细描述)。于是将针对未治疗群组中的所有病人获得的微阵列“U得分”与SLEDAI相关联起来(图8a:Spearman，R＝0.82，p<0.0001)。该组包括一个异常值(SLE98)，其具有高SLEDAI和相对低的微阵列U得分。有趣地，该患者是唯一的进行了两种免疫诊断的人，即SLE和甲状腺机能减退。此外，这名患者被诊断为患有SLE IV级肾炎，但是最终对常规的IV环磷酰胺治疗没有响应。使用5种相同的向量，对经治疗的儿科SLE患者群组(n＝31)评分。“转录U得分”和疾病活动指数之间的相关性再次是非常显著的(图8b；Spearman相关R＝0.66，p<0.0001)(图4b)。

疾病严重程度的纵向追踪:与高发病率的瞬时发作有关的狼疮疾病红疹也能够导致患者状况不可逆地加重。为了纵向监测狼疮患者的疾病活动，检测了上述微阵列多变量评分的相关性。随时间跟踪了20名儿科SLE患者群组的疾病活动。在多个时间点(2到4个时间点，每个时间点之间的间隔从1个月到18个月变化)从每名这样的患者中获取微阵列数据的转录组。计算上述这些患者的微阵列U得分。一半的患者在参加这项纵向研究之前已经被包括在横断面研究中了。在追踪的周期内，10名患者的SLEDAI波动(图9a)，而另外10名患者则保持不变(图9b)。在多数患者中观察到了转录U得分和SLEDAI纵向测定之间的平行趋势。此外，根据他们各自的数值范围，全面的SLEDAI指数和U得分反映了相似的活动，除了6名微阵列U得分相对于SLEDAI得分高得不成比例的患者(SLE31、SLE78、SLE125、SLE130、SLE135和SLE99)。在追踪周期内，差距最大的患者之一(SLE78)被诊断患有危及生命的并发症(肺动脉高压)，不计算在SLEDAI中。因此，U得分较好地反映了该患者全面的疾病活动。此外，经过对SLEDAI和微阵列得分的纵向追踪，在1名患者(SLE31)中检测到疾病红疹及其随后的复原。然而，有趣的是就微阵列U得分而言，观察到的变化幅度不仅是相当大的(SLEDAI为0至40比6至10)，而且在第2个时间点，即通过SLEDAI可以检测到该患者的临床病征加重之前的两个月就已经能够检测到增高。因此，这些数据说明了微阵列疾病活动评分对于纵向追踪个体SLE患者的疾病活动的潜在价值。

跨微阵列平台的模块转录数据是可重现的。为了成为实际上可用的诊断指示物，免疫转录向量必须被证明是可靠的。在早期，不同实验室和跨平台获得的微阵列结果的重现性差引起了对于这些结果有效性的怀疑，并且保持极大的关注，特别是在临床环境下(Bammler等，2005；Ioannidis，2005；Irizarry等，2005；Larkin等，2005；Michiels等，2005)。获得模块转录情况，并且使用两种商用微阵列平台Affymetrix和Illumina进行对比。从4名健康志愿者和10名接受肝移植者分离PBMCs。从相同的总RNA来源开始，独立地形成靶点并使用Affymetrix U 133基因芯片(Baylor免疫研究院)和Illumina Human Ref8 BeadChips(Illumina Inc.)进行分析。两种微阵列技术之间存在根本的差别(详见方法)。由每个生产商提供的探针标识被转换为用于对比基因转录情况的通用标识。当直接对比时，由Affymetrix和Illumina平台生成的基因表达水平相关性差(由Affymetrix和Illumina平台测定的不同样品的基因表达水平间的Pearson相关系数:形成M1.2的基因的R2中值(范围)＝0.13(0.02-0.5)；形成M3.1的基因的R2中值(范围)＝0.36(0.17-0.55)；形成M3.2的基因的R2中值(范围)＝0.19(0.06-0.4))。这些结果与公开的微阵列跨平台对比研究的发现相一致(Bammler等，2005；Irizarry等，2005；Jarvinen等，2004；Larkin等，2005；Tan等，2003)。

图10显示了由模块M1.2(“血小板”)、M3.1(“干扰素”)和M3.2(“炎症”)共有的基因集合获得的转录情况。有趣地，对于每个模块而言，通过Ilhimina系统测定的跨样品的基因表达变化表现出紧密的协调性。这个发现是特别有意义的，因为共表达的基因集合(转录模块)最初筛选的唯一依据是使用Affymetrix基因芯片获得的表达数据。接着，得到在模块水平上概括转录变化的唯一表达值(参见图4，步骤III)。由Affymetrix和Illumina平台产生的模块表达水平具有高度可比性(图10；移植组的Pearson相关系数为R²＝0.83、0.98和0.93，对应分别M1.2、M3.1和M3.2，p<0.0001)。总之，这些结果证明跨微阵列平台的模块转录数据是可以重现的。

微阵列数据易于产生噪音，结果微阵列数据难以被利用(Michiels等，2005；Tuma，2005)。实际上，进行成千个转录物的组间对比将形成包含很大比例的噪音(假阳性结果)的数据集，可能导致虚假的发现(Ioannidis、2005；Tuma，2005)。为了应对这种原则性的问题，最初使用的步骤包括从大量疾病过程中产生的广泛微阵列数据集合中提取协同表达的转录物集合(即转录模块)。根据跨上百个样品的相同的复合表达模式，由转录物组形成模块，并且这些模块因此可能是在生物学上相关的。通过分析有关形成每个模块的基因的文献证实了优点(图2c)。总之，微阵列转录数据的模块分解使得分析的焦点放在界限清晰的协同表达的基因分组上，这些组包含的噪音量降低并且具有可识别的生物学意义。这种数据挖掘策略适用于更大范围，例如在其它的生物系统中(其它组织、肿瘤细胞以及原代细胞或细胞系)以及用于其它类型的数据(例如蛋白质组学)。

用于开发以整体水平获得的数据的新方法是需要的，这是为了将“组学革命(omics revolution)”的技术优势转化到主流的卫生保健中(Bilello，2005；Weston和Hood，2004)。免疫转录向量的发展可能是实现这个目标的重要步骤。本发明说明了由该方法实现的在两个领域中潜在临床应用:(1)鉴定发病机理，以及(2)发现疾病标记。

基因表达情况能够提供有关作为疾病过程基础的分子机理的有价值的了解(Bennett等，2003；Pascual等，2005)，但是噪音的存在和微阵列数据集的数值范围阻碍了生物学上的解释(Ioannidis，2005)。分解经充分表征的模块集合中的转录情况得到了阐明这些数据的概念框架。在“模块图”(图2b)上表示转录变化特别有助于进行跨疾病的对比分析，特别是在常见组织，如血液的研究中。观察到属于模块M1.4的转录物在患有黑色素瘤和接受肝移植者中优先过表达，随后使用备选的方法(显著性模式分析)证实了该发现。这些转录物包括白介素-2转录的抑制剂，NF-κB和MAPK途径的抑制剂以及能够阻断细胞增殖的分子。这些发现指向在患有晚期黑色素瘤和经药理学治疗的接受移植者中运行的免疫抑制机制在功能上趋同。在免疫抑制的患者中特异性诱导的转录物也包括糖皮质激素可诱导的基因(例如，DSIPI、CXCR4、JUN)以及激素核受体，它们被认为在T淋巴细胞(NR4A2和RORA)的发育和效应器功能中起着关键作用(Winoto和Littman，2002)，这一事实表明甾体激素在黑色素瘤介导的免疫抑制中可能的作用。

免疫转录向量代表一类新的疾病标记。本发明描述的模块数据挖掘策略的直接延伸是转录向量在捕捉模块和基因水平上观察到的整体变化中的用途。发现疾病可以由模块变化的唯一组合来表征。除了在模块水平上(第一轮筛选)观察到的变化，向量也反映了可以在基因水平上(第二轮筛选)观察到的差别。结果，转录向量集合是高度疾病特异性的。值得注意地，对于每名患者而言，根据在整体数值范围上获得的相同数据，可以大概地获得多种疾病的“向量情况”集合。由每个向量得到的平均转录值被证明是非常稳定的，正如跨平台和实验室获得的优良重现性所显示的。这个发现特别有意义，因为鉴定可靠的转录标记构成了发展微阵列技术在临床情况下的主流应用的重要步骤。

血液样品的处理:在酸式柠檬酸葡萄糖(acid citrate dextrose)或EDTA试管(BD Vacutainer)中收集血液样品，室温下立即运送到位于德克萨斯州达拉斯的Baylor免疫研究院进行处理。经Ficoll梯度离心分离外周血单核细胞(PBMCs)，并立即在含有β-巯基乙醇(BME)的RLT试剂(Qiagen、Valencia，CA)中溶解，在提取RNA步骤之前-80℃储存。

微阵列分析:根据生产商的说明使用Rneasy试剂盒(Qiagen)分离总RNA，使用Agilent 2100 Bioanalyzer(Agilent，Palo Alto，CA)评估RNA的完整性。

Affymetrix基因芯片:这些微阵列包括在石英晶片上原位合成的短寡核苷酸探针的集合。根据生产商的标准方法进行靶点标记(Affymetrix Inc.，Santa Clara，CA)。生物素化的cRNA靶点经纯化，随后与AffymetrixHG-U133 A and U133B基因芯片(>44,000个探针集合)杂交。使用Affymetrix共焦激光扫描仪(confocal laser scanner)扫描阵列。MicroarraySuite，5.0版(MAS 5.0；Affymetrix)软件被用于评估荧光杂交信号，使信号归一化并评价信号检测的调用(calls)。使用MAS 5.0整体调节方法，对每个芯片的信号值实现归一化，使得每基因芯片的靶点密度值为500。基因表达分析软件程序GeneSpring，Version 7.1(Agilent)被用于进行统计分析和聚类。

Illumina微珠芯片:这些微阵列包括连接在3μm微珠上的50个单体的寡核苷酸探针，并被置于玻璃载玻片表面上的微孔中。处理样品并且从Illumina Inc.(San Diego，CA)获得数据。使用Illumina RNA扩增试剂盒(Ambion，Austin，TX)制备靶点。将cRNA靶点杂交到Sentrix HumanRef8微珠芯片上(>25,000探针)，经Illumina BeadStation 500扫描。使用Illumina′s BeadStation软件评估荧光杂交信号。

模块提取算法:利用常规挖掘算法从白细胞微阵列数据集提取协同调节的基因集合或转录模块(图1b:步骤I和图1c)。针对8组患者(患有全身型幼年特发性关节炎、系统性红斑狼疮、I型糖尿病、转移性黑色素瘤、急性感染—大肠杆菌、金黄色葡萄球菌和甲型流感，以及接受肝移植者)，获取利用Affymetrix U133A和U133B基因芯片(>44,000探针集合)形成的总计239个PBMC样品的基因表达情况。针对每一组，在所有病症的至少50％中都存在的转录物被分成30个类(k均值聚类:类C1至C30)。每个基因的类分配都记录在表格中，对比所有基因的分布模式。使用反复的过程筛选模块，由属于所有研究组中的相同类的最大基因集合(8个实验组中的8个相同类中发现的基因)开始。然后，将筛选从这种核心参考模式扩展到包括7/8、6/8和5/8匹配的基因。得到的基因集合形成了转录模块，并被从筛选池中除去。从第二大的基因组开始重复该过程，逐渐降低严格程度。

U评分:最近，有关该方法的详细说明已经被出版(Wittkowski等，2004)，在http://Mustat.Rockefeller.edu可获得所需的工具。简言之，在经鉴定的SLE PBMCs中表达有差异的模块中，通过计算所有转录物表达水平的归一化平均值获取得分。

文献概述:该研究中使用的文献概述算法以前已经被详细描述(Chaussabel和Sher，2002)。该方法将共享相似的关键词的基因联系起来。其使用分级聚类法来分析术语在文献摘要中出现的模式。

标记发现在新诊断和治疗的发展中发挥了关键作用(Ratner，2005)，而微阵列数据构成了候选标记的非常有吸引力的来源，但几乎没有取得任何面向发展临床应用的进展。实际上，微阵列分析获得的标记难以确认并且被证明是不稳定的(Frantz，2005；Michiels等，2005)。已发现模块数据挖掘策略和组合表达向量的使用与模块和基因水平上观察到的整体变化是一致的。利用作为基础的模块，把表达向量作为包含最小量噪音的一致功能和转录单元的基础。组合的向量(即由转录物组合形成的)进一步有助于这些标记的稳定性。实际上，向量表达值被证明是相当稳定的，正如跨微阵列平台获得的高重现性(图10)以及独立的儿科狼疮患者集合中获得的有效结果(图5d)所显示的。更重要地，这些数据和研究证明组合的表达向量可以与临床疾病活动(例如在患有狼疮的患者中；图7至10)直接相关。这些改善了微阵列数据的可靠性，该可靠性该技术在临床实践中广泛应用的先决条件(Shi，2006)。

我们开发的生物标记发现策略是特别地、完全适合于对以整体数值范围获取的数据进行研究。从～44,000个转录物开始，我们定义了由将近5000个转录物组成的28个模块。然后通过在模块和基因水平上进行两轮筛选，形成了组合的向量集合。这种精确的设计能够通过提高其特异性优化特定的标记集合的性能。最终，向量被依次地组合以获得唯一的多变量计分，由此以与主流临床实践兼容的形式传输结果。有趣地，多变量计分概述了整体的变化模式，而不是个体标记的变化模式。这种“整体生物标记”的发展构建了诊断和药物基因组学有希望的前景。

总之，表达向量属于一类新的生物标记，其能够影响以整体的数值范围获取的数据。本发明证实了这种方法在诊断和评估患有系统性狼疮的患者的疾病发展中的临床相关性。正如我们的结果所说明的，组合的表达向量也可以是用于评价新型药物的效力、安全性和作用机制的有效指示物。其它潜在的应用包括疾病预后和健康监测。

应理解本发明描述的特定实施方案是以举例说明的方式体现出来的并不作为对本发明的限制。本发明的基本技术特征可以被用于不同的实施方案，但不偏离本发明的范围。本领域技术人员将认识到或能够确定仅使用常规实验，本发明描述的特定步骤有多种等效的方式。这些等效方式被认为是在本发明的范围内，并被权利要求书覆盖。

说明书提及的所有出版物和专利申请都体现了本发明涉及的技术领域中的技术人员的技术水平。所有出版物和专利申请都包括在本发明中作为参考，参考的程度相当于特意地和单独地指出每一篇出版物和专利申请都被引入作为参考。

根据本发明公开的内容，在没有不适当的实验情况下，本发明公开和要求的所有组合物和/或方法都可以被制备和实施。本发明的组合物和方法已经通过优选的实施方案进行描述，对本领域技术人员将是明显的，可以对本发明描述的组合物/或方法以及方法的步骤或步骤的顺序进行变化，而不偏离本发明的概念、精神和范围。更特别地，很明显某些化学上或生理上相关的试剂可以替代本发明描述的试剂，而实现相同或相似的结果。所有这些对本领域技术人员显而易见的相似替换或修改被视为处在由所附的权利要求书定义的本发明的精神、范围和概念之中。

参考文献

1.Carroll，M.C.2004.A protective role for innate immunity in systemiclupus erythematosus.Nat Rev Immunol 4:825-831.

2.Manderson，A.P.，Botto，M.，和Walport，MJ.2004.The role ofcomplement in the development of systemic lupus erythematosus.Annu RevImmunol 22:431-456.

3.Manzi，S.，Ahearn，J.M.，和Salmon，J.2004.New insights intocomplement:a mediator of injury and marker of disease activity in systemiclupus erythematosus.Lupus 13:298-303.

4.Nambiar，M.P.，Juang，Y.T.，Krishnan，S.，和Tsokos，G.C.2004.Dissecting the molecular mechanisms of TCR zeta chain downregulation and Tcell signaling abnormalities in human systemic lupus erythematosus.Int RevImmunol 23:245-263.

5.Kong，P.L.，Odegard，J.M.，Bouzahzah，F.，Choi，J.Y.，Eardley，L.D.，Zielinski，C.E.，和Craft，J.E.2003.Intrinsic T cell defects in systemicautoimmunity.Ann N Y Acad Sci 987:60-67.

6.Grammer，A.C.，和Lipsky，P.E.2003.B cell abnormalities in systemiclupus erythematosus.Arthritis Res Ther 5 Suppl 4:S22-27.

7.Jorgensen，T.N.，Gubbels，M.R.，和Kotzin，B.L.2003.Links betweentype I interferons and the genetic basis of disease in mouse lupus.Autoimmunity 36:491-502.

8.Blanco，P.，Palucka，A.K.，Gill，M.，Pascual，V.，和Banchereau，J.2001.Induction of dendritic cell differentiation by IFN-alpha in systemic lupuserythematosus.Science 294:1540-1543.

9.Santiago-Raber，M.L.，Baccala，R.，Haraldsson，K.M.，Choubey，D.，Stewart，T.A.，Kono，D.H.，和Theofilopoulos，A.N.2003.Type-I interferonreceptor deficiency reduces lupus-like disease in NZB mice.J Exp Med197:777-788.

10.Bencivelli，W.，Vitali，C，Isenberg，D.A.，Smolen，J.S.，Snaith，M.L.，Sciuto，M.，和Bombardieri，S.1992.Disease activity in systemic lupuserythematosus:report of the Consensus Study Group of the EuropeanWorkshop for Rheumatology Research.III.Development of a computerisedclinical chart and its application to the comparison of different indices ofdisease activity.The European Consensus Study Group for Disease Activity inSLE.Clin Exp Rheumatol 10:549-554.

11.Hay，E.M.，Bacon，P.A.，Gordon，C，Isenberg，D.A.，Maddison，P.，Snaith，M.L.，Symmons，D.P.，Viner，N.，和Zoma，A.1993.The BILAG index:a reliable and valid instrument for measuring clinical disease activity insystemic lupus erythematosus.Q JMed 86:447-458.

12.Bombardier，C.，Gladman，D.D.，Urowitz，M.B.，Caron，D.，和Chang，C.H.1992.Derivation of the SLEDAI.A disease activity index for lupuspatients.The Committee on Prognosis Studies in SLE.Arthritis Rheum35:630-640.

13.Liang，M.H.，Socher，S.A.，Larson，M.G.，和Schur，P.H.1989.Reliability and validity of six systems for the clinical assessment of diseaseactivity in systemic lupus erythematosus.Arthritis Rheum 32:1107-1118.

14.Bae，S.C.，Koh，H.K.，Chang，D.K.，Kim，M.H.，Park，J.K.，和Kim，S.Y.2001.Reliability and validity of systemic lupus activity measure-revised(SLAM-R)for measuring clinical disease activity in systemic lupuserythematosus.Lupus 10:405-409.

15.Petri，M.，Buyon，J.，和Kim，M.1999.Classification and definition ofmajor flares in SLE clinical trials.Lupus 8:685-691.

16.Jimenez，S.，Cervera，R.，Font，J.，和Ingelmo，M.2003.Theepidemiology of systemic lupus erythematosus.Clin Rev Allergy Immunol25:3-12.

17.Rood，M.J.，ten Cate，R.，van Suijlekom-Smit，L.W.，den Ouden，E.J.，Ouwerkerk，F.E.，Breedveld，F.C.，和Huizinga，T.W.1999.Childhood-onsetSystemic Lupus Erythematosus:clinical presentation and prognosis in 31patients.Scand J Rheumatol 28:222-226.

18.Brunner，H.I.，Silverman，E.D.，To，T.，Bombardier，C，和Feldman，B.M.2002.Risk factors for damage in childhood-onset systemic lupuserythematosus:cumulative disease activity and medication use predict diseasedamage.Arthritis Rheum 46:436-444.

19.Tan，E.M.，Cohen，A.S.，Fries，J.F.，Masi，A.T.，McShane，D.J.，Rothfield，N.F.，Schaller，J.G.，Talal，N.，和Winchester，R.J.1982.The 1982revised criteria for the classification of systemic lupus erythematosus.ArthritisRheum 25:1271-1277.

20.Hochberg，M.C.1997.Updating the American College ofRheumatology revised criteria for the classification of systemic lupuserythematosus.Arthritis Rheum 40:1725.

21.Tan，E.M.，Feltkamp，T.E.，Smolen，J.S.，Butcher，B.，Dawkins，R.，Fritzler，M.J.，Gordon，T.，Hardin，J.A.，Kalden，J.R.，Lahita，R.G.，等.1997.Range of antinuclear antibodies in＂healthy＂individuals.Arthritis Rheum40:1601-1611.

22.Al-Allaf，A.W.，Ottewell，L.，和Pullar，T.2002.The prevalence andsignificance of positive antinuclear antibodies in patients with fibromyalgiasyndrome:2-4years′follow-up.Clin Rheumatol 21:472-477.

23.Staud，R.2004.Fibromyalgia pain:do we know the source？Curr OpinRheumatol 16:157-163.

24.Bennett，L.，Palucka，A.K.，Arce，E.，Cantrell，V.，Borvak，J.，Banchereau，J.，和Pascual，V.2003.Interferon and granulopoiesis signatures insystemic lupus erythematosus blood.J Exp Med 197:711-723.

25.Baechler，E.C.，Batliwalla，F.M.，Karypis，G.，Gaffhey，P.M.，Ortmann，W.A.，Espe，K.J.，Shark，K.B.，Grande，W.J.，Hughes，K.M.，Kapur，V.，等.2003.Interferon-inducible gene expression signature in peripheral blood cells ofpatients with severe lupus.Proc Natl Acad Sci U S A 100:2610-2615.

26.Crow，M.K.，Kirou，K.A.，和Wohlgemuth，J.2003.Microarrayanalysis of interferon-regulated genes in SLE.Autoimmunity 36:481-490.

27.Kirou，K.A.，Lee，C，George，S.，Louca，K.，Papagiannis，I.G.，Peterson，M.G.，Ly，N.，Woodward，R.N.，Fry，K.E.，Lau，A.Y.，等.2004.Coordinate overexpression of interferon-alpha-induced genes in systemic lupuserythematosus.Arthritis Rheum 50:3958-3967.

28.Ito，T.，Amakawa，R.，Inaba，M.，Ikehara，S.，Inaba，K.，和Fukuhara，S.2001.Differential regulation of human blood dendritic cell subsets by IFNs.JImmunol 166:2961-2969.

29.Santini，S.M.，Lapenta，C，Logozzi，M.，Parlato，S.，Spada，M.，DiPucchio，T.，和Belardelli，F.2000.Type I interferon as a powerful adjuvant formonocyte-derived dendritic cell development and activity in vitroand inHu-PBL-SCID mice.J Exp Med 191:1777-1788.

30.Arce，E.，Jackson，D.G.，Gill，M.A.，Bennett，L.B.，Banchereau，J.，和Pascual，V.2001.Increased frequency of pre-germinal center B cells andplasma cell precursors in the blood of children with systemic lupuserythematosus.J Immunol 167:2361-2369.

31.Jego，G.，Bataille，R.，和Pellat-Deceunynck，C.2001.Interleukin-6 is agrowth factor for nonmalignant human plasmablasts.Blood 97:1817-1822.

32.Odendahl，M.，Jacobi，A.，Hansen，A.，Feist，E.，Hiepe，F.，Burmester，G.R.，Lipsky，P.E.，Radbruch，A.，和Dorner，T.2000.Disturbed peripheral Blymphocyte homeostasis in systemic lupus erythematosus[In Process Citation].J Immunol 165:5970-5979.

33.Shodell，M.，Shah，K.，和SiegaL F.P.2003.Circulating humanplasmacytoid dendritic cells are highly sensitive to corticosteroidadministration.Lupus 12:222-230.

34.Gladman，D.D.，Ibanez，D.，和Urowitz，M.B.2002.Systemic lupuserythematosus disease activity index 2000.J Rheumatol 29:288-291.

35.Tibshirani，R.，Hastie，T.，Narasimhan，B.，和Chu，G.2002.Diagnosisof multiple cancer types by shrunken centroids of gene expression.Proc NatlAcad Sci U S A 99:6567-6572.

36.Wittkowski，K.M.，Lee，E.，Nussbaum，R.，Chamian，F.N.，和Krueger，J.G.2004.Combining several ordinal measures in clinical studies.Stat Med23:1579-1592.

37.Segal，E.，Friedman，N.，Kaminski，N.，Regev，A.，和Koller，D.2005.From signatures to models:understanding cancer using microarrays.Nat Genet37Suppl:S38-45.

38.Choi，P.，和Chen，C.2005.Genetic expression profiles and biologicpathway alterations in head and neck squamous cellcarcinoma.Cancer.

39.Thach，D.C.，Agan，B.K.，Olsen，C，Diao，J.，Lin，B.，Gomez，J.，Jesse，M.，Jenkins，M.，Rowley，R.，Hanson，E.，等.2005.Surveillance oftranscriptomes in basic military trainees with normal，febrile respiratory illness，and convalescent phenotypes.Genes Immun.

40.Kirou，K.A.，Lee，C，George，S.，Louca，K.，Peterson，M.G.，和Crow，M.K.2005.Activation of the interferon-alpha pathway identifies a subgroup ofsystemic lupus erythematosus patients with distinct serologic features andactive disease.Arthritis Rheum 52:1491-1503.

41.Wittkowski，K.，Lee，E.，Nussbaum，R.，Chamian，F.，和Krueger，J.G.2004.Combining several ordinal measures in clinical studies.Statist Med 23.

Claims

1.用于确定个体是否患有系统性红斑狼疮(SLE)的方法，其中包括:

获得患者的转录组；

根据一种或多种转录模块对转录组评分；以及

根据基因的存在、缺失或表达水平来确定患者的疾病或病征，所述基因位于作为SLE的指示物的一种或多种转录模块中的转录组中。

2.权利要求1所述的方法，其中所述转录模块是通过反复筛选一种或多种转录模块的基因表达值来获得的，该筛选是通过:

从在每种疾病或病征中匹配的每个类中筛选用于模块的基因；

除去分析中被选中的基因；并且

针对在疾病或病征的子分类中聚类的基因，重复基因表达值的筛选过程；并且

反复地重复针对每个类的模块的产生过程，直至所有基因的类用尽。

3.权利要求2所述的方法，其中所述类选自基因表达值类、关键词类、代谢类、疾病类、感染类、移植类、信号类、转录类、复制类、细胞周期类、siRNA类、miRNA类、线粒体类、T细胞类、B细胞类、细胞因子类、淋巴因子类、热休克类以及它们的组合。

4.权利要求1所述的方法，其中所述患者为人类SLE患者。

5.权利要求1所述的方法，其中所述患者接受了治疗有效量的药物，所述药物选自:糖皮质激素、非甾体抗炎药和免疫抑制剂。

6.诊断或监测患者的自身免疫或慢性炎性疾病的方法，其中包括检测一种或多种基因模块的表达水平，所述模块包括编码选自:免疫球蛋白、中性粒细胞、干扰素、T细胞和核糖体蛋白的基因。

7.权利要求6所述的方法，其中所述一种或多种基因选自:

转录模块

M1.7一种或多种包括I型MHC分子:HLA-A、B、C、G、E)+β2-微球蛋白(B2M)，核糖体蛋白:RPLs、RPSs的MHC/核糖体基因；

M3.1一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MXl、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的干扰素可诱导的基因。

8.权利要求6所述的方法，其中所述疾病包括系统性红斑狼疮(SLE)。

9.权利要求6所述的方法，其中所述表达水平是通过测定基因表达的RNA水平来检测的。

10.权利要求6所述的方法，其中进一步包括在检测基因表达的RNA水平之前从患者分离RNA。

11.权利要求6所述的方法，其中所述RNA水平是通过PCR、杂交或与寡核苷酸杂交来检测的。

12.权利要求6所述的方法，其中所述被分析的模块进一步包括以M1.1、M1.7、M2.1、M2.2、M2.3、M2.4、M2.5、M2.6、M2.7、M2.8和/或M3.1列出的模块中列出的基因。

13.权利要求6所述的方法，其中所述被分析的模块还包括一种或多种来自每一种下列模块的基因:

第一模块包括一种或多种下列基因或基因片段:Hs.406683；Hs.514581；Hs.546356；Hs.374553；Hs.448226；Hs.381172；Hs.534255；Hs.406620；Hs.534255；Hs.410817；Hs.136905；Hs.546394；Hs.419463；Hs.5308；Hs.514581；Hs.387804；Hs.546286；Hs.300141；Hs.356366；Hs.433427；Hs.533624；Hs.546356；Hs.370504；Hs.433701；Hs.153177；Hs.150580；Hs.514581；Hs.356794；Hs.419463；Hs.433427；Hs.469473；Hs.380953；Hs.410817；Hs.421257；Hs.408054；Hs.433529；Hs.458476；Hs.439552；Hs.156367；Hs.546291；Hs.546290；Hs.514581；Hs.144835；Hs.439552；Hs.356502；Hs.397609；Hs.446628；Hs.546356；Hs.265174；Hs.425125；Hs.374596；Hs.381126；Hs.381061；Hs.406620；Hs.533977；Hs.447600；Hs.148340；Hs.421907；Hs.448226；Hs.410817；Hs.119598；Hs.433427；Hs.410817；Hs.8102；Hs.446628；Hs.356572；Hs.381123；Hs.515329；Hs.408054；Hs.483877；Hs.386384；Hs.337766；Hs.408073；Hs.546289；Hs.374596；Hs.512199；Hs.119598；Hs.499839；Hs.446588；Hs.356572；Hs.397609；Hs.356572；Hs.144835；Hs.515329；Hs.534833；Hs.374588；Hs.144835；Hs.80545；Hs.546356；Hs.400295；Hs.119598；Hs.408073；Hs.412370；Hs.401929；Hs.425125；Hs.374588；Hs.374588；Hs.356366；Hs.186350；和Hs.186350；以及

第二模块包括一种或多种下列基因或基因片段:Hs.513711；Hs.375108；Hs.176626；Hs.2962；Hs.41；Hs.99863；Hs.530049；Hs.51120；Hs.480042；Hs.36977；Hs.294176；Hs.529019；Hs.2582；Hs.550853；Hs.529517；Hs.204238；以及

第三模块包括一种或多种下列基因或基因片段:Hs.518827；Hs.8102；Hs.190968；Hs.508266；Hs.523913；Hs.437594；Hs.515598；Hs.54780；Hs.534384；Hs.527105；Hs.522885；Hs.462341；Hs.127610；Hs.408018；Hs.381219；Hs.6917；Hs.109798；Hs.497581；Hs.369728；Hs.432485；Hs.314359；Hs.409140；Hs.529798；Hs.477028；Hs.107003；Hs.528668；Hs.314359；Hs.6917；Hs.333120；Hs.500822；Hs.131255；Hs.469925；Hs.410817；Hs.277517；Hs.529631；Hs.367900；Hs.408054；Hs.467284；Hs.111099；Hs.378103；Hs.108332；Hs.397609；Hs.80545；Hs.529631；Hs.472558；Hs.519452；Hs.516023；Hs.438429；Hs.515472；Hs.512675；Hs.438429；Hs.314359；Hs.75056；Hs.482526；Hs.333388；Hs.483305；Hs.515329；Hs.288856；Hs.546288；Hs.483305；Hs.534346；Hs.528435；Hs.381219；Hs.469925；Hs.172791；Hs.190968；Hs.182825；Hs.492599；Hs.406620；Hs.549130；Hs.532359；Hs.534346；Hs.421257；Hs.511831；Hs.380920；Hs.311640；Hs.546356；Hs.119598；Hs.405590；Hs.178551；Hs.499839；Hs.148340；Hs.483305；Hs.505735；Hs.381219；Hs.299002；Hs.532359；Hs.5662；Hs.515329；Hs.408073；Hs.515070；Hs.448226；Hs.515329；Hs.511582；Hs.421608；Hs.186350；Hs.529798；和Hs.294094；以及

第四模块包括一种或多种下列基因或基因片段:Hs.397891；Hs.438801；Hs.125036；Hs.210891；Hs.220629；Hs.376208；Hs.316931；Hs.196981；Hs.271272；Hs.397891；Hs.7946；Hs.505326；Hs.369581；Hs.58685；Hs.7236；Hs.17109；Hs.49143；Hs.505806；Hs.60339；Hs.13262；Hs.22380；Hs.233044；Hs.133397；Hs.445489；Hs.60339；Hs.428214；Hs.431498；Hs.533994；Hs.533994；Hs.498317；Hs.533994；Hs.517717；Hs.173135；Hs.522679；Hs.446149；Hs.525700；Hs.519580；Hs.481704；Hs.379414；Hs.125036；Hs.440776；Hs.475602；Hs.173135；Hs.481704；Hs.167087；Hs.142023；Hs.524134；Hs.98309；Hs.433700；Hs.480837；Hs.5019；Hs.525700；Hs.94229；Hs.446149；Hs.502710；以及

第五模块包括一种或多种下列基因或基因片段；Hs.276925；Hs.98259；Hs.478275；Hs.273330；Hs.175120；Hs.190622；Hs.175120；Hs.415534；Hs.62661；Hs.344812；Hs.145150；Hs.5148；Hs.302123；Hs.65641；Hs.62661；Hs.86724；Hs.120323；Hs.370515；Hs.291000；Hs.62661；Hs.118110；Hs.131431；Hs.464419；Hs.65641；Hs.145150；Hs.415534；Hs.54483；Hs.520102；Hs.414579；Hs.190622；Hs.374950；Hs.478275；Hs.369039；Hs.229988；Hs.458414；Hs.425777；Hs.531314；Hs.352018；Hs.526464；Hs.470943；Hs.514535；Hs.487933；Hs.481143；Hs.217484；Hs.524117；Hs.137007；Hs.458414；Hs.374650；Hs.470943；Hs.50842；Hs.118633；Hs.130759；Hs.384598；Hs.524760；Hs.441975；Hs.530595；Hs.546467；Hs.529317；Hs.175687；Hs.112420；Hs.1706；Hs.523847；Hs.388733；Hs.163173；Hs.470943；Hs.481141；Hs.171426；Hs.174195；Hs.518201；Hs.118633；Hs.489118；Hs.489118；Hs.193842；Hs.551516；Hs.518203；Hs.371794；Hs.529317；Hs.195642；Hs.12341；Hs.414332；Hs.524760；Hs.479264；Hs.501778；Hs.414332；Hs.12646；Hs.518200；Hs.441975；Hs.441975；Hs.437609；Hs.130759；Hs.82316；Hs.518200；Hs.458485；Hs.31869；Hs.166120；Hs.549041；Hs.17518；Hs.546467；Hs.517307；Hs.549041；Hs.528634；Hs.389724；Hs.546523；Hs.82316；Hs.7155；Hs.521903；Hs.26663；Hs.120323；和Hs.926。

14.权利要求6所述的方法，其中所述核苷酸序列包括DNA、RNA、cDNA、PNA、基因组DNA或合成的寡核苷酸。

15.权利要求6所述的方法，其中所述表达是通过测定基因的蛋白水平来检测的。

16.疾病分析工具，其中包括:

一种或多种基因探针，它们选自:

一种或多种包括I型MHC分子:HLA-A、B、C、G、E)+β 2-微球蛋白(B2M)，核糖体蛋白:RPLs、RPSs的MHC/核糖体基因；

一种或多种包括乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白(BPI)，Cathelicidin抗菌蛋白(CAMP)的中性粒细胞基因；

一种或多种包括RPLs，RPSs，真核翻译延伸因子家族成员(EEFs)，核仁蛋白:NPM1、NOAL2、NAP1L1的核糖体蛋白基因；

一种或多种包括CD5、CD6、CD7、CD26、CD28、CD96、淋巴毒素β、IL2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3以及STAT5B的T细胞表面标记基因；以及

一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的干扰素可诱导的基因。

17.预后基因阵列，其中包括:包括代表一种或多种转录模块的基因组合的定制基因阵列，其中与定制基因阵列接触的患者的转录组是SLE的预后。

18.权利要求17所述的阵列，其中所述患者对SLE治疗的响应被监测。

19.权利要求17所述的阵列，其中所述阵列能够区分自身免疫疾病、病毒感染、细菌感染、癌症和移植排斥。

20.权利要求17所述的阵列，其中所述阵列被组织成两个或多个转录模块。

21.权利要求17所述的阵列，其中所述阵列被组织成三个或多个转录模块，这些模块包括一个或多个选自下列的子模块:

子模块探针集合的数量关键词的选择评估 M1.1 69 Ig、免疫球蛋白、骨、骨髓、PreB、IgM、Mu 血浆细胞，包括编码免疫球蛋白链(例如，IGHM、IGJ、IGLL1、IGKC、IGHD)和血浆细胞标记CD38的基因； M1.2 96 血小板、粘附、聚集、内皮、血管血小板，包括编码血小板糖蛋白(ITGA2B、ITGB3、GP6、GP1A/B)和源于血小板的免疫介质，如PPPB(前血小板碱性蛋白)和PF4(血小板因子4)的基因； M1.3 47 免疫受体、 B细胞，包括编码B细胞表面标

BCR、B细胞、IgG 记(CD72、CD79A/B、CD19、CD22)和其它B细胞相关的分子:早期B细胞因子(EBF)、B细胞连接蛋白(BLINK)和B淋巴酪氨酸激酶(BLK)的基因； M1.4 87 复制、抑制、修复、CREB、淋巴的、TNF-α 编码cAMP信号传导途径的调节子和靶点(JUND、ATF4、CREM、PDE4、NR4A2、VIL2)，以及TNF-α介导的NF-KB活化的阻遏物的基因； M1.5 130 单核细胞、树突状、MHC、共刺激、TLR4、MYD88 髓系，编码髓系细胞表达的分子(CD86、CD163、FCGR2A)，病原体识别(CD14、TLR2、MYD88)以及TNF家族成员(TNFR2、BAFF)的基因； M1.6 28 锌、指、P53、RAS 编码信号分子，包含活化的STAT抑制剂的锌指(PLAS1和PLAS2)，活化的T细胞NFATC3的核因子的基因； M1.7 127 核糖体、翻译的、40S、60S、HLA MHC/核糖体蛋白，编码I型MHC分子(HLA-A、B、C、G、E)+β2-微球蛋白(B2M)或核糖体蛋白(RPLs、RPSs)的基因； M1.8 86 代谢、生物合成、复制、解旋酶编码代谢酶(GLS、NSF1、NAT1)和涉及DNA复制的因子(PURA、TERF2、EIF2S1)的基因； M2.1 72 NK、杀伤细胞、溶解细胞的、CD8、细胞介导的、T细胞、CTL、IFN-g 细胞毒性细胞，编码细胞毒性T细胞分子和NK细胞表面标记(CD8A、CD2、CD160、NKG7、KLRs)，溶解细胞的分子(颗粒酶、穿孔素、颗粒溶解素)，趋化因子(CCL5、XCL1)和CTL/NK

细胞相关的分子(CTSW)的基因； M2.2 44 粒细胞、中性粒细胞、防御、髓的、骨髓中性粒细胞，编码中性粒细胞颗粒中发现的固有分子(乳运铁蛋白:LTF，防御素:DEAF1，细菌通透性增高蛋白:BPI，Cathelicidin抗菌蛋白:CAMP......)的基因； M2.3 94 红细胞、红、贫血、球蛋白、血红蛋白红细胞，编码基因，血红蛋白基因(HGBs)、与红细胞相关的基因(红细胞alkirin:ANK1，血型糖蛋白C:GYPC、羟甲基胆素合成酶:HMBS、红细胞相关因子:ERAF)； M2.4 118 核糖核蛋白、60S、核仁、装配、延伸核糖体蛋白，编码核糖体蛋白(RPLs、RPSs)、真核翻译延长因子家族成员(EEFs)和核仁蛋白(NPM1、NOAL2、NAP1L1)的基因； M2.5 242 腺瘤、间质性、间充质、树突状、运动编码免疫相关的(CD40、CD80、CXCL12、IFNA5、IL4R)以及细胞骨架相关的分子(肌球蛋白、胞质分裂的作用因子、粘结蛋白聚糖2、Plexin Cl、Distrobrevin)的基因； M2.6 110 粒细胞、单核细胞、髓的、ERK、坏死髓系，编码髓系细胞，如单核细胞和中性粒细胞中的分子(IGTB2/CD18、淋巴毒素β受体、髓相关蛋白8/14甲酰肽受体1)的基因； M2.7 43 未提取关键词编码一种或多种趋化因子样因子超家族中的成员(CKLFSF8)的基因；

M2.8 104 淋巴瘤、T细胞、CD40、CD8、TCR、胸腺、淋巴的、IL-2 T细胞，编码T细胞表面标记(CD5、CD6、CD7、CD26、CD28、CD96)和由髓系细胞表达的分子(淋巴毒素β、IL-2可诱导的T细胞激酶、TCF7、T细胞分化蛋白mal、GATA3、STAT5B)的基因； M2.9 122 ERK、反式激活、细胞骨架、MAPK、JNK 编码与细胞骨架相关的分子(肌动蛋白相关的蛋白2/3，MAPK1、MAP3K1、RAB5A)的基因，T细胞表达的基因(FAS、ITGA4/CD49D、ZNF1A1)； M2.10 44 髓的、巨噬细胞、树突状、炎性、白介素编码免疫相关的细胞表面分子(CD36、CD86、LILRB)、细胞因子(IL15)和信号分子(FYB、TICAM2-钟样受体途径)的基因； M2.11 77 复制、抑制、RAS、自身磷酸化、致癌的编码激酶(UHMK1、CSNK1G1、CDK6、WNK1、TAOK1、CALM2、PRKCI、ITPKB、SRPK2、STK17B、DYRK2、PIK3R1、STK4、CLK4、PKN2)和RAS家族成员(G3BP、RAB14、RASA2、RAP2A、KRAS)的基因； M3.1 80 ISRE、流感、抗病毒、IFN-γ、IFN-α、干扰素干扰素可诱导的，编码基因，干扰素可诱导的基因:抗病毒分子(OAS1/2/3L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、SATt2、IRF7、ISGF3G)； M3.2 230 TGF-β、TNF、炎性、凋亡、脂炎症I，编码涉及炎症过程的分子(例如IL8、ICAM1、C5R1、

多糖 CD44、PLAUR、IL1A、CXCL16)和凋亡调节子(MCL1、FOXO3A、RARA、BCL3/6/2A1、GADD45B)的基因； M3.3 230 粒细胞、炎性、防御、氧化、溶酶体炎症II，编码诱导粒细胞-巨噬细胞CSF或由粒细胞-巨噬细胞CSF诱导的分子(SPI1、IL18、ALOX5、ANPEP)、以及溶酶体酶(PPT1、CTSB/S、CES1、NEU1、ASAH1、LAMP2、CAST)的基因； M3.4 323 未提取关键词编码磷酸蛋白(PPP1R12A、PTPRC、PPP1CB、PPM1B)和磷酸肌醇3-激酶(PI3K)家族成员(PIK3CA、PIK32A、PIP5K3)的基因； M3.5 19 未提取关键词编码基因，血红蛋白基因(HBA1、HBA2、HBB)； M3.6 233 补体、宿主、氧化的、细胞骨架、T细胞编码T细胞表面标记(CD101、CD102、CD103)以及血液白细胞中普遍表达的分子(CXRCR1:fraktalkine受体，CD47，P选择素配体)的基因； M3.7 80 剪接体、甲基化、泛素、β-连接素包括编码蛋白酶体亚基(PSMA2/5、PSMB5/8)；泛素蛋白连接酶HIP2、STUB1，以及泛素连接酶复合物的组分(SUGT1)的基因； M3.8 182 CDC、TCR、CREB、糖酶编码几种酶:氨甲基转移酶、精氨酰转移酶、天冬酰胺合成酶、甘油二酯激酶、肌醇磷酸酶、甲基转移酶、解旋酶的基因；以及

M3.9 261 染色质、检查点、复制、反式激活编码蛋白激酶(PRKRIR、PRKDC、PRKCI)和磷酸酶(PTPLB、PPP1R8/2CB)的基因。还包括RAS致癌基因家组成员和NK细胞受体2B4(CD244)；

其中与一种或多种基因特异性结合的探针选自三种或多种模块之中，并且是系统性红斑狼疮的指示物。

22.筛选用于临床试验的患者的方法，其中包括以下步骤:

获取疑似患者的转录组；

将转录组与一种或多种转录模块进行对比，所述模块是将在临床试验中治疗的疾病或病症的指示物；以及

根据一种或多种基因的存在、缺失或水平确定患者成为适合用于临床试验的候选人的可能性，所述基因在一种或多种转录模块中的患者的转录组中表达，而所述模块与临床试验的成功相关联。

23.权利要求22所述的方法，其中所述每个模块都包括与样品中转录物的比例总和相关联的向量。

24.权利要求22所述的方法，其中所述每个模块都包括向量，并且其中一种或多种疾病或病征与一种或多种向量有关。

25.权利要求22所述的方法，其中所述每个模块都包括与每个模块中的一种或多种基因的表达水平相关联的向量。

26.权利要求22所述的方法，其中所述每个模块包括向量，并且其中的模块选自:

转录模块

一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)，趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的干扰素可诱导的基因；

以及它们的组合，其中所述转录模块被用于将患有SLE的患者和其它患者区分开来。

27.固定在固体支持物上的核酸探针阵列，其中包括充足的来自一种或多种模块的探针，以提供充足比例的表达有差异的基因来区分一种或多种疾病，所述探针选自表4。

28.预后基因阵列，其中包括:

包含作为SLE预后的探针组合的定制基因阵列，并且所述探针选自:

转录模块

一种或多种包括抗病毒分子(OAS1/2/3/L、GBP1、G1P2、EIF2AK2/PKR、MX1、PML)、趋化因子(CXCL10/IP-10)、信号分子(STAT1、STAt2、IRF7、ISGF3G)的干扰素可诱导的基因。