CN105555948A

CN105555948A - 靶向整合

Info

Publication number: CN105555948A
Application number: CN201480046042.7A
Authority: CN
Inventors: S.巴尔; T.博尔格舒尔特; 凯文·凯泽
Original assignee: Sigma Aldrich Co LLC
Current assignee: Sigma Aldrich Co LLC
Priority date: 2013-06-19
Filing date: 2014-06-19
Publication date: 2016-05-04
Also published as: RU2016101246A3; WO2014205192A3; EP3011011A2; US20160145645A1; SG11201510297QA; CA2915467A1; RU2016101246A; MX2015017110A; KR20160021812A; JP2016523084A; WO2014205192A2; EP3011011A4; AU2014281472A1; BR112015031639A2

Abstract

本公开包括分离的细胞，所述分离的细胞包含位于预定的基因组位置之内或邻近预定的基因组位置的外源核酸序列，其中所述外源核酸序列包含至少一种识别序列，所述识别序列可被一种或更多种多核苷酸修饰酶利用，用于重组蛋白的靶向整合。本公开还提供了用于制备此类细胞的方法，和用于再靶向此类细胞用于生产重组蛋白的方法，及用于相同目的的试剂盒。

Description

靶向整合

领域

本公开涉及编码重组蛋白的序列至感兴趣的细胞中的靶向整合。具体而言，感兴趣的细胞包含位于预定的基因组位置之内或邻近预定的基因组位置的外源核酸序列，其中所述外源核酸序列包含至少一个识别序列，所述识别序列可被一种或更多种多核苷酸修饰酶利用，用于编码重组蛋白的序列的靶向整合。

背景

近年来，在哺乳动物细胞的基因组之内的限定位置的重组蛋白表达构建物的靶向整合(TI)已在生物制药行业中激发了很多兴趣。TI技术允许细胞系开发科学家将感兴趣的转基因整合到预先限定的、表征良好的基因组位置中，由此使得重组蛋白表达特征的预测成为可能，其可引起增加的细胞系稳定性、降低的克隆至克隆和分子至分子异质性，并大体降低的细胞系开发时间轴。中国仓鼠卵巢(CHO)细胞是用于生物治疗蛋白生产的最常用的细胞系。但是，尽管它们在治疗性蛋白生产中的公认的有用性，但是迄今为止，CHO细胞中的TI获得有限的成功。因此，需要在CHO和其它细胞中实施TI的改善的方法，所述方法将有益于生物生产行业。

概述

在本公开的各种方面中，提供了分离的细胞，其包含位于基因组DNA中的至少一个外源核酸序列，所述基因组DNA在表2中列举的至少一个基因组位置之内或邻近表2中列举的至少一个基因组位置，其中各外源核酸序列包含用于多核苷酸修饰酶的至少一个识别序列。在一个实施方式中，所述细胞是CHO细胞。在另一实施方式中，所述至少一个识别序列包含不内源存在于所述细胞(或CHO细胞)的基因组中的核酸序列。在又一实施方式中，所述多核苷酸修饰酶是靶向核酸内切酶(如锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物，或人工靶向DNA双链断裂诱导剂)、位点特异性重组酶(如λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶或R4整合酶)，或它们的组合。在又一实施方式中，第一识别序列由第一ZFN对识别。在还一实施方式中，第一识别序列由第一ZFN对识别，且第二识别序列由不同于第一ZFN对的第二ZFN对识别。在一次重复中，第一和第二ZFN对选自hSIRT、hRSK4和hAAVS1。在还一实施方式中，外源核酸序列还包含至少一个选择性标记序列、至少一个报道序列、至少一个调节控制序列元件或它们的组合。

本公开的另一方面包括用于制备包含至少一个外源核酸序列的细胞的方法，所述外源核酸序列包含至少一个用于多核苷酸修饰酶的识别序列。所述方法包括(a)将至少一种靶向核酸内切酶引入细胞中，所述靶向核酸内切酶被靶向至在表2中列举的基因组位置之内或邻近在表2中列举的基因组位置的序列；(b)将至少一种包含所述外源核酸的供体多核苷酸引入细胞中，所述外源核酸侧接(i)与靶向基因组位置具有实质的序列同一性的序列或(ii)靶向核酸内切酶的识别序列；和(c)在使得外源核酸被整合到细胞的基因组中的条件下维持所述细胞。在一个实施方式中，所述细胞是CHO细胞。在另一实施方式中，通过同源介导法将外源核酸整合到基因组中。在又一实施方式中，通过直接连接法将外源核酸整合到基因组中。在还一实施方式中，靶向核酸内切酶选自锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物，和人工靶向DNA双链断裂诱导剂。

本公开的又一方面提供了用于再靶向细胞供至少一种重组蛋白生产用的方法。所述方法包括(a)提供包含至少一个用于多核苷酸修饰酶的外源识别序列的细胞，所述外源识别序列位于至少一个在表2中列举的基因组位置之内或邻近至少一个在表2中列举的基因组位置；(b)将(i)包含侧接第一和第二序列的编码重组蛋白的序列的至少一个表达构建物，和(ii)识别细胞中的所述至少一个外源识别序列的至少一种多核苷酸修饰酶引入细胞中；和(c)在使得编码重组蛋白的序列被整合到细胞的基因组中的条件下维持所述细胞。在一个实施方式中，所述细胞是CHO细胞。在另一实施方式中，所述细胞的至少一个外源识别序列是靶向核酸内切酶识别位点；表达构建物的第一和第二序列是与靠近细胞中的外源识别序列的染色体序列具有实质的序列同一性的序列；及所述至少一种多核苷酸修饰酶是靶向核酸内切酶。在还一实施方式中，所述细胞的至少一个外源识别序列是靶向核酸内切酶识别位点；表达构建物的第一和第二序列各自是靶向核酸内切酶的识别序列；及所述至少一种多核苷酸修饰酶是靶向核酸内切酶。在一些实施方式中，靶向核酸内切酶是锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物、或人工靶向DNA双链断裂诱导剂。在又一实施方式中，所述细胞的至少一个外源识别序列是位点特异性重组酶识别位点；表达构建物的第一和第二序列各自是位点特异性重组酶识别序列；及所述至少一种多核苷酸修饰酶是位点特异性重组酶，其中所述位点特异性重组酶选自λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。在另外的实施方式中，将编码重组蛋白的序列与至少一个表达控制序列可操作地连接。在替代的实施方式中，表达构建物还包含至少一个选择性标记序列、至少一个报道序列、至少一个调节控制序列元件或它们的组合。在另一实施例中，在用于至少一种重组蛋白的表达的条件下维持所述细胞。

本公开的还一个方面包括用于再靶向细胞供重组蛋白生产用的试剂盒。所述试剂盒包含细胞，所述细胞包含位于基因组DNA中的至少一个外源核酸序列，所述基因组DNA在表2中列举的至少一个基因组位置之内或邻近在表2中列举的至少一个基因组位置，其中各外源核酸序列包含至少一个用于多核苷酸修饰酶的识别序列，以及对应于识别序列的多核苷酸修饰酶和用于编码感兴趣的重组蛋白的序列插入的构建物，其中所述构建物还包含一对侧翼序列，所述侧翼序列对应于识别序列和/或侧接识别序列的基因组DNA。在一个实施方式中，所述细胞是CHO细胞。在另一实施方式中，所述试剂盒还包含用于完成编码重组蛋白的序列的靶向整合的说明书。在一些实施方式中，多核苷酸修饰酶是靶向核酸内切酶，其选自锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物，和人工靶向DNA双链断裂诱导剂。在其它的实施方式中，多核苷酸修饰酶是位点特异性重组酶，其选自λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。

本公开其它的方面和重复如下详述。

附图简述

图1是用于将人AAVS1ZFN识别序列整合到CHO基因组位置参考序列IDNW_003618207.1，碱基对5366-20679中的供体质粒的示意图。

图2是含有整合的AAVS着陆区(landingpad)的参考序列IDNW_003618207.1，碱基对5366-20679示意图。表明了用于接头PCR的引物结合位点。

图3是两种不同的一般供体设计的示意图，可通过ZFN介导的靶向整合使用所述设计将重组蛋白表达构建物引入基因组中。(A)欲整合的所需序列，包含，例如，重组蛋白表达构建物(一种或更多种)，(本文称作“有效负载”序列)，所述欲整合的所需序列侧接与围绕ZFN识别序列的基因组DNA序列同源的序列。该设计将允许经由经典的同源重组的靶向整合。(B)所述有效负载侧接与在宿主细胞基因组中被靶向的那种相同的ZFN识别序列。因此，一旦使用ZFN对进行转染，ZFN将切割内源基因组DNA以及供体DNA二者，留下黏性末端(stickycohesiveends)，所述黏性末端将允许有效负载经由DNA修复机制的靶向整合。在两种设计中，有效负载可包括用于感兴趣的重组蛋白的表达盒以及用于选择性标记的表达盒。有效负载中的其它元件可包括报道分子、启动子或任何其它的外源序列。

详述

编码重组蛋白，特别是生物治疗蛋白产物的序列的靶向整合对于所需基因材料的掺入效率，以及对于整合之后的蛋白表达的改善的稳定性、均一性和水平而言，均强烈地优于随机整合。核酸内切酶技术，例如锌指核酸酶(ZFN)技术以及本文讨论的其它技术，目前允许内源基因组序列的位点特异性的修饰的引入，这比使用靶向整合的某些现有方法具有对于定制的更高的效率和更大的机会。本公开提供了用于编码重组蛋白的序列的靶向整合的细胞，其中由于“着陆区”位点在它们的基因组中的掺入，细胞是特别合适的。可如本文所述对中国仓鼠卵巢(CHO)细胞或其它哺乳动物细胞进行修饰，以接受此类着陆区，即修饰以包括合成核苷酸序列，所述合成核苷酸序列包含一个或更多个用于多核苷酸修饰酶，例如位点特异性重组酶和/或靶向核酸内切酶的识别序列。可在用于重组蛋白(一种或更多种)的表达的合适的位置插入所述着陆区。着陆区(包含一个或更多个用于多核苷酸修饰酶的识别序列的序列)在基因组内的特定位置整合之后，可使用对应的重组酶和/或靶向核酸内切酶在含有一个或更多个识别序列的位置插入编码一种或更多种蛋白的序列，且此类插入以高于随机整合或其它前述方法的效率水平发生。将理解多重着陆区可位于基因组中的不同位置，这允许重组蛋白表达构建物或盒以及多个独特蛋白表达盒的多拷贝整合。

I.包含至少一个识别序列的外源序列

一方面，本公开包括外源核酸序列(即着陆区)，其包含用于至少一种多核苷酸修饰酶的至少一个识别序列，所述多核苷酸修饰酶例如位点特异性重组酶和/或靶向核酸内切酶。位点特异性重组酶在本领域中是众所周知的，且一般可将其称作转化酶、解离酶或整合酶。位点特异性重组酶的非限制性实例可包括λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。位点特异性重组酶识别特异性识别序列(或识别位点)或其变体，上述所有在本领域中都是众所周知的。例如，Cre重组酶识别LoxP位点，及FLP重组酶识别FRT位点。

考虑的靶向核酸内切酶包括锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR/Cas样核酸内切酶、I-TevI核酸酶或相关的单体杂合物，或人工靶向DNA双链断裂诱导剂。下文进一步描述这些靶向核酸内切酶的每一个。例如，典型地，锌指核酸酶包含DNA结合结构域(即锌指)和剪切结构域(即核酸酶)，上述二者在下文进行描述。多核苷酸修饰酶的定义中还包括本领域技术人员已知的任何其它有用的融合蛋白，例如可包含DNA结合结构域和核酸酶。

着陆区序列是包含至少一个识别序列的核苷酸序列，所述识别序列由特异性多核苷酸修饰酶，例如位点特异性重组酶和/或靶向核酸内切酶选择性结合并修饰。一般而言，着陆区序列中的识别序列(一个或更多个)不内源存在于欲修饰的细胞的基因组中。例如，在欲修饰的细胞是CHO细胞的情况下，着陆区序列中的识别序列不存在于内源CHO基因组中。可通过选择不内源存在于靶向细胞的基因组内的用于高效率核苷酸修饰酶的识别序列来改善靶向整合的速率。不内源存在的识别序列的选择还减少了可能的脱靶(off-target)整合。在其它方面，天然存在于欲修饰的细胞中的识别序列的使用可能是合意的。例如，在着陆区序列中采用多个识别序列的情况下，一个或更多个可为外源的，而一个或更多个可为天然的。

本领域普通技术人员可容易地确定由位点特异性重组酶和/或靶向核酸内切酶结合并切割的序列。在下表1中提供3种示例性ZFN识别序列。

表1.ZFN识别序列

多个识别序列可存在于单一着陆区中，允许通过两种或更多种多核苷酸修饰酶相继地靶向着陆区，以使得可插入两个或更多个独特有效负载序列(除其它以外，包含蛋白表达盒)。或者，多个识别序列在着陆区中的存在允许相同的有效负载序列的多拷贝被插入到着陆区中。当两个有效负载序列被靶向到单一着陆区时，着陆区包括用于第一多核苷酸修饰酶的第一识别序列(例如第一ZFN对)，和用于第二多核苷酸酶的第二识别序列(例如第二ZFN对)。或者，或另外，可在细胞的基因组之内的多个位置整合包含一个或更多个识别序列的单个着陆区，以允许包含重组蛋白表达构建物的有效负载序列的多拷贝整合。可在使用包含表达构建物的有效负载序列的多拷贝进行转化的细胞中观察增加的蛋白表达。或者，当插入包含不同的表达盒的多个独特有效负载序列时，无论是在相同还是不同的着陆区中，均可同时表达多种蛋白产物。不管有效负载序列的数量和类型，当靶向核酸内切酶是ZFN时，示例性ZFN对包括hSIRT、hRSK4和hAAVS1，补充的识别序列如上表1中鉴定。

一般而言，用作着陆区的外源核酸可包含至少一个识别序列。例如，外源核酸可包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个或至少十个或更多个识别序列。在包含多于一个识别序列的实施方式中，识别序列可彼此之间独特(即由不同的多核苷酸修饰酶识别)，可为相同的重复序列，或可为重复序列和独特序列的组合。

本领域普通技术人员将容易地理解，除了识别序列(一个或更多个)之外，用作着陆区的外源核酸也可包括其它序列。例如，包括一个或更多个编码选择性标记的序列可能是有利的，所述选择性标记例如抗生素抗性基因、代谢选择标记或荧光蛋白。也可存在其它补充序列，例如转录调节和控制元件(即启动子、部分启动子、启动子包载、起始密码子、增强子、内含子、绝缘子和其它表达元件)的使用。

除了适当的识别序列(一个或更多个)的选择之外，具有高切割效率的靶向核酸内切酶的选择也改善着陆区(一个或更多个)的靶向整合的速率。可使用本领域众所周知的方法测定靶向核酸内切酶的切割效率，包括，例如，使用例如CEL-1测定或在PCR扩增子中的插入/缺失(插入/缺失(Indel))的直接测序的测定。

可改变并将改变用在本文所公开的方法和细胞中的靶向核酸内切酶的类型。靶向核酸内切酶可为天然存在的蛋白或人工改造的蛋白。靶向核酸内切酶的一个实例是锌指核酸酶，其在下文被进一步详细讨论。

可使用的靶向核酸内切酶的另一实例是包含至少一种核定位信号的RNA指导的核酸内切酶，其允许核酸内切酶进入真核细胞的核中。RNA指导的核酸内切酶还包含至少一个核酸酶结构域和至少一个与指导RNA相互作用的结构域。通过指导RNA将RNA指导的核酸内切酶导向至特异性染色体序列，以使得RNA指导的核酸内切酶剪切该特异性染色体序列。因为指导RNA为靶向剪切提供特异性，所以RNA指导的核酸内切酶的核酸内切酶是通用的，并可与不同的指导RNA一起使用，以剪切不同的靶染色体序列。下文进一步详细讨论的是示例性RNA指导的核酸内切酶蛋白。例如，RNA指导的核酸内切酶可为CRISPR/Cas蛋白或CRISPR/Cas样融合蛋白、源自成簇的规律间隔的短回文重复序列(CRISPR)/CRISPR相关(Cas)系统的RNA指导的核酸内切酶。

靶向核酸内切酶也可为大范围核酸酶。大范围核酸酶是由大识别位点，即一般在约12对碱基对至约40对碱基对范围内的识别位点表征的限制性核酸内切酶。由于该要求，该识别位点在任何给定的基因组中一般仅出现一次。在大范围核酸酶中，名为LAGLIDADG的归巢核酸内切酶家族已成为用于基因组和基因组工程的研究的有价值的工具。可通过使用本领域技术人员众所周知的技术来修饰它们的识别序列而使大范围核酸酶靶向特异性染色体序列。参见，例如，Epinat等人,2003,Nuc.AcidRes.,31(11):2952-62和Stoddard,2005,QuarterlyReviewofBiophysics,第1-47页。

可使用的靶向核酸内切酶的另一实例是类转录激活因子效应物(TALE)核酸酶。TALE是来自植物病原体黄单胞菌属(Xanthomonas)的转录因子，可容易地将其进行人工改造以结合新的DNA靶。可将TALE或其截短形式连接至核酸内切酶(例如FokI)的催化结构域，以产生称作TALE核酸酶或TALEN的靶向核酸内切酶。参见，如，Sanjana等人,2012,NatureProtocols7(1):171-192；BogdanoveAJ,VoytasDF.,2011,Science,333(6051):1843-6；BradleyP,BogdanoveAJ,StoddardBL.,2013,CurrOpinStructBiol.,23(1):93-9。

另一示例性靶向核酸内切酶是位点特异性核酸酶。特别地，位点特异性核酸酶可为“稀有切割”核酸内切酶，其识别序列极少在基因组中出现。优选地，该位点特异性核酸酶的识别序列在基因组中仅出现一次。或者，靶向核酸酶可为人工靶向DNA双链断裂诱导剂。

锌指核酸酶

非限制的示例性靶向核酸内切酶是锌指核酸酶(ZFN)。典型地，锌指核酸酶包含DNA结合结构域(即锌指)和剪切结构域(即核酸酶)，上述二者在下文进行描述。

(i)锌指结合结构域

可将锌指结合结构域进行人工改造以识别并结合任何精选的核酸序列。参见，例如，Beerli等人(2002)Nat.Biotechnol.20:135-141；Pabo等人(2001)Ann.Rev.Biochem.70:313-340；Isalan等人(2001)Nat.Biotechnol.19:656-660；Segal等人(2001)Curr.Opin.Biotechnol.12:632-637；Choo等人(2000)Curr.Opin.Struct.Biol.10:411-416；Zhang等人(2000)J.Biol.Chem.275(43):33850-33860；Doyon等人(2008)Nat.Biotechnol.26:702-708和Santiago等人(2008)Proc.Natl.Acad.Sci.USA105:5809-5814。与天然存在的锌指蛋白相比，人工改造的锌指结合结构域可具有新颖的结合特异性。人工改造方法包括，但不限于，合理的设计和各种类型的选择。合理的设计包括，例如，使用包含双联体、三联体和/或四联体核苷酸序列和单个锌指氨基酸序列的数据库，其中各双联体、三联体或四联体核苷酸序列与一个或更多个锌指氨基酸序列相关，所述锌指氨基酸序列结合特定的三联体或四联体序列。参见，例如美国专利号6,453,242和6,534,261，其公开内容通过引用以其全部并入本文。作为实例，可使用美国专利6,453,242中描述的算法来设计锌指结合结构域以靶向预先选择的序列。还可使用替代的方法，例如使用非简并识别密码表(nondegeneraterecognitioncodetable)的合理的设计来设计锌指结合结构域以靶向特异性序列(Sera等人(2002)Biochemistry41:7074-7081)。分别在www.zincfingertools.org和zifit.partners.org/ZiFiT/上找到用于鉴定DNA序列中的可能的靶位点和设计锌指结合结构域的公众可获得的基于网络的工具(Mandell等人(2006)Nuc.AcidRes.34:W516-W523；Sander等人(2007)Nuc.AcidRes.35:W599-W605)。

可设计锌指结合结构域以识别并结合约3个核苷酸至约21个核苷酸长度范围内，例如约9至约18个核苷酸长度范围内的DNA序列。各锌指识别区域(即锌指)识别并结合三个核苷酸。一般而言，本文公开的锌指核酸酶的锌指结合结构域包含至少三个锌指识别区域(即锌指)。锌指结合结构域可例如包含四个锌指识别区域。或者，锌指结合结构域可包含五或六个锌指识别区域。可设计锌指结合结构域以结合任何合适的靶DNA序列。参见，例如，美国专利号6,607,882、6,534,261和6,453,242，其公开内容通过引用以其全部并入本文。

选择锌指识别区域的示例性方法包括噬菌体展示和双杂交系统，并在美国专利号5,789,538、5,925,523、6,007,988、6,013,453、6,410,248、6,140,466、6,200,759和6,242,568；以及WO98/37186、WO98/53057、WO00/27878、WO01/88197和GB2,338,237中公开，其各自通过引用以其全部并入本文。另外，例如，在WO02/077227中已描述了锌指结合结构域的结合特异性的增强，其公开内容通过引用并入本文。

锌指结合结构域和用于融合蛋白(和编码所述融合蛋白的多核苷酸)的设计和构建的方法是本领域技术人员已知的，并在美国专利申请公开号20050064474和20060188987中详细描述，上述专利申请各自通过引用以其全部并入本文。可使用合适的连接序列将锌指识别区域和/或多指锌指蛋白连接在一起，所述连接序列包括，例如，五个或更多个氨基酸长度的接头。用于六个或更多个氨基酸长度的连接序列的非限制性实例，参见美国专利号6,479,626、6,903,185和7,153,949，其公开内容通过引用以其全部并入本文。本文描述的锌指结合结构域可包括蛋白的单个锌指(和另外的结构域)之间的合适的接头的组合。

(ii)剪切结构域

锌指核酸酶还包括剪切结构域。可从任何核酸内切酶或核酸外切酶中获得锌指核酸酶的剪切结构域部分。可获得剪切结构域的核酸内切酶的非限制性实例包括，但不限于，限制性核酸内切酶和归巢核酸内切酶。参见，例如，新英格兰生物实验室目录(NewEnglandBiolabscatalog)(www.neb.com)和Belfort等人(1997)NucleicAcidsRes.25:3379-3388。已知剪切DNA的另外的酶(如S1核酸酶、绿豆核酸酶、胰DNA酶I、微球菌核酸酶、酵母HO核酸内切酶)。还参见Linn等人(编)Nucleases，ColdSpringHarborLaboratoryPress,1993。这些酶(或其功能性片段)中的一种或更多种酶可用作剪切结构域的来源。

剪切结构域也可获自如上所述需要二聚化来产生剪切活性的酶或其部分。可需要两种锌指核酸酶用于剪切，因为各核酸酶包含活性酶二聚体的一种单体。或者，单一锌指核酸酶可包含两种单体，以产生活性酶二聚体。如本文所使用的，“活性酶二聚体”是能够剪切核酸分子的酶二聚体。两种剪切单体可获自相同的核酸内切酶(或其功能性片段)，或各单体可获自不同的核酸内切酶(或其功能性片段)。

当使用两种剪切单体来形成活性酶二聚体时，优选处理两种锌指核酸酶的识别位点以使得两种锌指核酸酶与它们各自的识别位点的结合将剪切单体相对于彼此的空间定向放置，所述空间定向允许剪切单体例如通过二聚化来形成活性酶二聚体。因此，所述识别位点的近边可被约5至约18个核苷酸分隔。例如，近边可被约5、6、7、8、9、10、11、12、13、14、15、16、17或18个核苷酸分隔。但是将理解，任何整数的核苷酸或核苷酸对可间插在两个识别位点之间(如约2至约50个核苷酸对或更多)。锌指核酸酶的识别位点的近边，诸如，例如本文详细描述的那些，可被6个核苷酸分隔。一般而言，剪切位点位于识别位点之间。

限制性核酸内切酶(限制酶)存在于很多种类中，并能够(在识别位点)与DNA进行序列-特异性结合，并在结合位点或接近结合位点剪切DNA。某些限制酶(如IIS型)在从识别位点移除的位点剪切DNA，并具有可分离的结合结构域和剪切结构域。例如，IIS型酶FokI催化DNA的双链剪切，在一条链上，在距其识别位点9个核苷酸处进行，在另一条链上，在距其识别位点13个核苷酸处进行。参见，例如，美国专利号5,356,802、5,436,150和5,487,994；以及Li等人(1992)Proc.Natl.Acad.Sci.USA89:4275-4279；Li等人(1993)Proc.Natl.Acad.Sci.USA90:2764-2768；Kim等人(1994a)Proc.Natl.Acad.Sci.USA91:883-887；Kim等人(1994b)J.Biol.Chem.269:31,978-31,982。因此，锌指核酸酶可包含来自至少一种IIS型限制酶的剪切结构域和一个或更多个锌指结合结构域，所述锌指核酸酶可能是人工改造的，或可能不是人工改造的。示例性IIS型限制酶在例如国际公开WO07/014,275中描述，其公开内容通过引用以其全部并入本文。另外的限制酶还含有可分开的结合结构域和剪切结构域，且本公开也考虑了这些。参见，例如，Roberts等人(2003)NucleicAcidsRes.31:418-420。

剪切结构域可与结合结构域分开的示例性IIS型限制酶是FokI。这种特别的酶像二聚体一样具有活性(Bitinaite等人(1998)Proc.Natl.Acad.Sci.USA95:10,570-10,575)。因此，用于本公开的目的，将用在锌指核酸酶中的FokI酶的部分认为是剪切单体。因此，对于使用FokI剪切结构域的靶向双链剪切，可使用各自包含FokI剪切单体的两个锌指核酸酶来重建活性酶二聚体。或者，还可使用含有锌指结合结构域和两个FokI剪切单体的单一多肽分子。

剪切结构域可包含一个或更多个人工改造的剪切单体，所述剪切单体使同型二聚化最小化或防止同型二聚化，例如在美国专利公开号20050064474、20060188987和20080131962中所述，其各自通过引用以其全部并入本文。通过非限制性举例方式，在FokI的446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538位置上的氨基酸残基都是用于影响FokI剪切半结构域的二聚化的靶。形成专性异二聚体(obligateheterodimers)的FokI的示例性人工改造的剪切单体包括以下一对：第一剪切单体，其包括在FokI的氨基酸残基位置490和538上的突变，和第二剪切单体，其包括在氨基酸残基位置486和499上的突变(Mille等人,2007,Nat.Biotechnol,25:778-785；Szczpek等人,2007,Nat.Biotechnol,25:786-793)。例如，在一个结构域中可将在位置490上的Glu(E)变为Lys(K)，并可将在位置538上的Ile(I)变为K(E490K,I538K)，且在另一剪切结构域中可将在位置486上的Gln(Q)变为E，并可将在位置499上的I变为Leu(L)(Q486E,I499L)。在其它方面，修饰的FokI剪切结构域可包括三个氨基酸改变(Doyon等人2011,Nat.Methods,8:74-81)。例如，一个修饰的FokI结构域(其被称为ELD)可包含Q486E、I499L、N496D突变，及另一个修饰的FokI结构域(其被称为KKR)可包含E490K、I538K、H537R突变。

(iii)另外的结构域

在一些方面，锌指核酸酶还包含至少一种核定位信号或序列(NLS)。NLS是氨基酸序列，其促进锌指核酸酶蛋白靶向进入核以在染色体中的靶序列引入双链断裂。核定位信号在本领域中是已知的。参见，例如Makkerh等人(1996)CurrentBiology6:1025-1027。NLS可位于锌指核酸酶的N-末端、C-末端或内部位置。

在其它方面，锌指核酸酶还可包含至少一个细胞穿透结构域。细胞穿透结构域可为获自HIV-1TAT蛋白的细胞穿透肽序列、获自人乙型肝炎病毒的细胞穿透肽序列、来自单纯疱疹病毒的细胞穿透肽、MPG肽、Pep-1肽或聚精氨酸肽序列。细胞穿透结构域可位于锌指核酸酶的N-末端、C-末端或内部位置。

RNA指导的核酸内切酶

RNA指导的核酸内切酶可获自成簇的规律间隔的短回文重复序列(CRISPR)/CRISPR相关(Cas)系统。CRISPR/Cas系统可为I型、II型或III型系统。在一些方面，RNA指导的核酸内切酶可获自II型CRISPR/Cas系统。II型系统可为Csn1亚族或Csx12亚族。在示例性的方面，该核酸内切酶可获自II型系统的Cas9蛋白。在各种方面，该核酸内切酶可获自Cas9蛋白(或Cas9同系物)，所述Cas9蛋白(或Cas9同系物)来自化脓性链球菌(Streptococcuspyogenes)、嗜热链球菌(Streptococcusthermophilus)、链球菌属(Streptococcussp.)、达松维尔拟诺卡氏菌(Nocardiopsisdassonvillei)、始旋链霉菌(Streptomycespristinaespiralis)、绿产色链霉素(Streptomycesviridochromogenes)、绿产色链霉素、玫瑰链孢囊菌(Streptosporangiumroseum)、玫瑰链孢囊菌、酸热脂环酸芽孢杆菌(Alicyclobacillusacidocaldarius)、假真菌样芽孢杆菌(Bacilluspseudomycoides)、Bacillusselenitireducens、Exiguobacteriumsibiricum、德氏乳杆菌(Lactobacillusdelbrueckii)、唾液乳杆菌(Lactobacillussalivarius)、海洋微颤蓝细菌(Microscillamarina)、Burkholderialesbacterium、Polaromonasnaphthalenivorans、极胞菌属(Polaromonassp.)、Crocosphaerawatsonii、蓝杆藻属(Cyanothecesp.)、铜绿微囊蓝细菌(Microcystisaeruginosa)、聚球菌(Synechococcussp.)、阿拉伯醋盐杆菌(Acetohalobiumarabaticum)、丹氏制氨菌(Ammonifexdegensii)、Caldicelulosiruptorbecscii、CandidatusDesulforudis、肉毒杆菌(Clostridiumbotulinum)、艰难梭菌(Clostridiumdifficile)、大芬戈尔德菌(Finegoldiamagna)、嗜热盐碱厌氧菌(Natranaerobiusthermophilus)、丙酸互营细菌(Pelotomaculumthermopropionicum)、Acidithiobacilluscaldus、嗜酸氧化亚铁硫杆菌(Acidithiobacillusferrooxidans)、紫色硫细菌(Allochromatiumvinosum)、海杆菌(Marinobactersp.)、嗜盐硝化球菌(Nitrosococcushalophilus)、Nitrosococcuswatsoni、游海假交替单胞菌(Pseudoalteromonashaloplanktis)、Ktedonobacterracemifer、Methanohalobiumevestigatum、多鱼腥蓝细菌(Anabaenavariabilis)、产泡沫节球蓝细菌(Nodulariaspumigena)、Nostocsp.、最大节螺蓝细菌(Arthrospiramaxima)、Arthrospiraplatensis、节螺蓝细菌属(Arthrospirasp.)、鞘丝蓝细菌属(Lyngbyasp.)、原型体微鞘蓝细菌(Microcoleuschthonoplastes)、颤蓝细菌属(Oscillatoriasp.)、Petrotogamobilis、非洲栖热腔菌(Thermosiphoafricanus)或Acaryochlorismarina等等。在示例性的方面，该核酸内切酶获自来源于链球菌种类的Cas9蛋白。

RNA指导的核酸内切酶可获自野生型Cas9蛋白或其片段。在其它方面，RNA指导的核酸内切酶可获自修饰的Cas9蛋白。例如，可修饰Cas9蛋白的氨基酸序列，以使蛋白的一种或更多种性质(如核酸酶活性、亲和性、稳定性等)得到改善。或者，可将不参与RNA指导的剪切的Cas9蛋白的结构域从蛋白中消除，以使修饰的Cas9蛋白小于野生型Cas9蛋白。在还一方面，RNA指导的核酸内切酶可为包含野生型Cas9蛋白、修饰的Cas9蛋白和/或其它蛋白的结构域的融合蛋白。例如，RNA指导的核酸内切酶可包含标记，例如GFP或另一荧光蛋白。

一般而言，Cas9蛋白包含RuvC样核酸酶结构域和HNH样核酸酶结构域。在一些方面，获自Cas9的核酸内切酶可包含两个功能性核酸酶结构域，如RuvC样核酸酶结构域和HNH样核酸酶结构域。在此类方面，核酸内切酶可剪切双链核酸。在其它方面，获自Cas9的核酸内切酶可仅包含一个功能性核酸酶结构域(RuvC样或HNH样核酸酶结构域)。在这些方面，核酸内切酶可剪切单链核酸或将切口引入双链核酸中。RNA指导的核酸内切酶的核酸酶结构域可获自相同的Cas9蛋白，或它们可获自不同的Cas9蛋白。

本文公开的获自Cas9的核酸内切酶包含至少一种核定位信号(NLS)，用于向真核细胞的核中转运。一般而言，NLS包含碱性氨基酸的一段序列。核定位信号在本领域中是已知的(参见，如Lange等人,J.Biol.Chem.,2007,282:5101-5105)。例如，在一个实施方式中，NLS可为单组分序列(monopartitesequence)，例如PKKKRKV(SEQIDNO:4)或PKKKRRV(SEQIDNO:5)。在另一实施方式中，NLS可为双组分序列(bipartitesequence)。在还一实施方式中，NLS可为KRPAATKKAGQAKKKK(SEQIDNO:6)。NLS可位于核酸内切酶的N-末端、C-末端或在内部位置中。在非限制性实例中，NLS位于核酸内切酶的C-末端。

一般而言，RNA指导的核酸内切酶是DNA核酸内切酶。在一些方面，RNA指导的核酸内切酶可剪切双链DNA中的一条链。在示例性的方面，RNA指导的核酸内切酶可剪切双链DNA的两条链。DNA，例如，可为线性或环状的。在示例性的重复中，DNA是染色体的(即与组蛋白和其它染色体蛋白缔合)。

CRISPR/Cas样融合蛋白

本公开的一个方面提供了融合蛋白，其包含CRISPR/Cas样蛋白或其片段和效应物结构域。这些融合蛋白可用在关于RNA指导的核酸内切酶的上述方面的任何方面中。CRISPR/Cas样蛋白获自成簇的规律间隔的短回文重复序列(CRISPR)/CRISPR相关(Cas)系统蛋白。该效应物结构域可为剪切结构域、转录激活结构域、转录阻抑物结构域或外遗传修饰结构域。

(i)CRISPR/Cas样蛋白结构域

融合蛋白包含CRISPR/Cas样蛋白或其片段。CRISPR/Cas样蛋白可获自I型、II型或III型CRISPR/Cas系统。合适的CRISPR/Cas蛋白的非限制性实例包括Cas3、Cas4、Cas5、Cas5e(或CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9、Cas10、Cas10d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(或CasA)、Cse2(或CasB)、Cse3(或CasE)、Cse4(或CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csz1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966。

在一个实施方式中，该融合蛋白的CRISPR/Cas样蛋白获自II型CRISPR/Cas系统。在示例性的方面，该融合蛋白的CRISPR/Cas样蛋白获自Cas9蛋白。Cas9蛋白可来自任何合适的种类，例如以上鉴定的那些。

一般而言，CRISPR/Cas样蛋白包含至少一个RNA识别结构域和/或RNA结合结构域。RNA识别结构域和/或RNA结合结构域与指导RNA相互作用。CRISPR/Cas蛋白还可包含核酸酶结构域(即DNA酶结构域或RNA酶结构域)、DNA结合结构域、解螺旋酶结构域、RNA酶结构域、蛋白-蛋白相互作用结构域、二聚化结构域以及其它结构域。

融合蛋白的CRISPR/Cas样蛋白可为野生型CRISPR/Cas蛋白、修饰的CRISPR/Cas蛋白，或野生型或修饰的CRISPR/Cas蛋白的片段。可修饰CRISPR/Cas蛋白以增加核酸结合亲和性和/或特异性、变更酶活性和/或改变蛋白的另一性质。例如，可修饰CRISPR/Cas蛋白的核酸酶(即DNA酶、RNA酶)结构域，或使CRISPR/Cas蛋白的核酸酶(即DNA酶、RNA酶)结构域失活。或者，可截短CRISPR/Cas蛋白以移除对于该融合蛋白的功能不必要的结构域。或者，可截短或修饰CRISPR/Cas蛋白以使融合蛋白的效应物结构域的活性最优化。

在一些方面，该融合蛋白的CRISPR/Cas样蛋白可获自野生型Cas9蛋白或其片段。在其它方面，该融合蛋白的CRISPR/Cas样蛋白可获自修饰的Cas9蛋白。例如，可修饰Cas9蛋白的氨基酸序列以改变该蛋白的一种或更多种性质(如核酸酶活性、亲和性、稳定性等)。或者，可将不参与RNA指导的剪切的Cas9蛋白的结构域从该蛋白中去除，以使修饰的Cas9蛋白小于野生型Cas9蛋白。

一般而言，Cas9蛋白包含至少两种核酸酶(即DNA酶)结构域。例如，Cas9蛋白可包含RuvC样核酸酶结构域和HNH样核酸酶结构域。在一些方面，可修饰获自Cas9的蛋白以使其仅含有一个功能性核酸酶结构域(RuvC样或HNH样核酸酶结构域)。在这些方面，获自Cas9的蛋白能够将切口引入双链核酸中。例如，在RuvC样结构域中的天冬氨酸至丙氨酸(D10A)转化将获自Cas9的蛋白转化成切口酶。在其它方面，可修饰或去除RuvC样核酸酶结构域和HNH样核酸酶结构域二者，以使得获自Cas9的蛋白不能剪切双链核酸。在还一方面，可修饰或去除所有的获自Cas9的蛋白的核酸酶结构域，以使得获自Cas9的蛋白缺乏所有的核酸酶活性。可通过缺失突变、插入突变和/或置换突变使核酸酶结构域失活。在非限制性实例中，融合蛋白的CRISPR/Cas样蛋白获自其中所有的核酸酶结构域已失活或缺失的Cas9蛋白。

该融合蛋白还可包含效应物结构域。该效应物结构域可为剪切结构域或如通过本领域普通技术人员所确定的另一合适的结构域。在本公开优选的方面，该效应物结构域是剪切结构域。该效应物结构域可位于融合蛋白的羧基或氨基末端。

(ii)效应物结构域

在一些方面，效应物结构域是剪切结构域。如本文所使用的，“剪切结构域”指剪切DNA的结构域。剪切结构域可由任何核酸内切酶或核酸外切酶获得。可获得剪切结构域的核酸内切酶的非限制性实例包括，但不限于限制性核酸内切酶和归巢核酸内切酶。参见，例如，新英格兰生物实验室目录或Belfort等人(1997)NucleicAcidsRes.25:3379-3388。已知剪切DNA的另外的酶(如S1核酸酶、绿豆核酸酶、胰DNA酶I、微球菌核酸酶、酵母HO核酸内切酶)。还参见Linn等人(编)Nucleases,ColdSpringHarborLaboratoryPress,1993。这些酶(或其功能性片段)中的一种或更多种可用作剪切结构域的来源。

在一些方面，剪切结构域可获自II-S型核酸内切酶。II-S型核酸内切酶在典型地距识别位点数对碱基对的位点剪切DNA，并因而具有可分离的识别结构域和剪切结构域。这些酶一般是瞬时缔合形成二聚体以在交错的位置剪切DNA的各条链的单体。合适的II-S型核酸内切酶的非限制性实例包括BfiI、BpmI、BsaI、BsgI、BsmBI、BsmI、BspMI、FokI、MboII和SapI。在示例性的方面，融合蛋白的剪切结构域是FokI剪切结构域或其衍生物。

在某些方面，可修饰II-S型剪切以促进两个不同的剪切结构域(其各自与CRISPR/Cas样蛋白或其片段连接)的二聚化。例如，可通过使某些氨基酸残基突变来修饰FokI的剪切结构域。通过非限制性举例方式，在FokI剪切结构域的446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538位置上的氨基酸残基是修饰靶。例如，形成专性异二聚体的FokI的修饰的剪切结构域包括以下一对：第一修饰的剪切结构域，其包括在氨基酸位置490和538上的突变，和第二修饰的剪切结构域，其包括在氨基酸位置486和499上的突变(Miller等人,2007,Nat.Biotechnol,25:778-785；Szczpek等人,2007,Nat.Biotechnol,25:786-793)。例如，在一个结构域中可将在位置490上的Glu(E)变为Lys(K)，并可将在位置538上的Ile(I)变为K(E490K,I538K)，且在另一剪切结构域中可将在位置486上的Gln(Q)变为E，并可将在位置499上的I变为Leu(L)(Q486E,I499L)。在其它方面，修饰的FokI剪切结构域可包括三个氨基酸改变(Doyon等人2011,Nat.Methods,8:74-81)。例如，一个修饰的FokI结构域(其被称为ELD)可包含Q486E、I499L、N496D突变，及另一个修饰的FokI结构域(其被称为KKR)可包含E490K、I538K、H537R突变。

在示例性的方面，融合蛋白的效应物结构域是FokI剪切结构域或修饰的FokI剪切结构域。

(iii)另外任选的结构域

在一些方面，融合蛋白还包含至少一个另外的结构域。合适的另外的结构域的非限制性实例包括核定位信号(NLS)、细胞穿透结构域或易位结构域，和标记结构域。

在某些方面，融合蛋白可包含至少一种核定位信号。一般而言，NLS包含碱性氨基酸的一段序列。核定位信号在本领域中是已知的(参见，如Lange等人,J.Biol.Chem.,2007,282:5101-5105)。例如，在一个实施方式中，NLS可为单分裂序列，例如PKKKRKV(SEQIDNO:4)或PKKKRRV(SEQIDNO:5)。在另一实施方式中，NLS可为双分裂序列。在还一实施方式中，NLS可为KRPAATKKAGQAKKKK(SEQIDNO:6)。NLS可位于融合蛋白的N-末端、C-末端或在内部位置中。

在一些方面，融合蛋白可包含至少一个细胞穿透结构域。在一个实施方式中，所述细胞穿透结构域可为获自HIV-1TAT蛋白的细胞穿透肽序列。作为实例，TAT细胞穿透序列可为GRKKRRQRRRPPQPKKKRKV(SEQIDNO:7)。在另一实施方式中，所述细胞穿透结构域可为TLM(PLSSIFSRIGDPPKKKRKV；SEQIDNO:8)、获自人乙型肝炎病毒的细胞穿透肽序列。在还一实施方式中，所述细胞穿透结构域可为MPG(GALFLGWLGAAGSTMGAPKKKRKV；SEQIDNO:9或GALFLGFLGAAGSTMGAWSQPKKKRKV；SEQIDNO:10)。在另外的方面，所述细胞穿透结构域可为Pep-1(KETWWETWWTEWSQPKKKRKV；SEQIDNO:11)、VP22、来自单纯疱疹病毒的细胞穿透肽或聚精氨酸肽序列。细胞穿透结构域可位于融合蛋白的N-末端、C-末端或在内部位置中。

在其它方面，融合蛋白可包含至少一个标记结构域。标记结构域的非限制性实例包括荧光蛋白、纯化标签和表位标签。在一些方面，所述标记结构域可为荧光蛋白。合适的荧光蛋白的非限制性实例包括绿色荧光蛋白(如GFP、GFP-2、tagGFP、turboGFP、EGFP、Emerald、AzamiGreen、MonomericAzamiGreen、CopGFP、AceGFP、ZsGreen1)、黄色荧光蛋白(如YFP、EYFP、Citrine、Venus、YPet、PhiYFP、ZsYellow1)、蓝色荧光蛋白(如EBFP、EBFP2、Azurite、mKalama1、GFPuv、Sapphire、T-sapphire)、蓝绿色荧光蛋白(如ECFP、Cerulean、CyPet、AmCyan1、Midoriishi-Cyan)、红色荧光蛋白(mKate、mKate2、mPlum、DsRed单体、mCherry、mRFP1、DsRed-Express、DsRed2、DsRed-单体、HcRed-Tandem、HcRed1、AsRed2、eqFP611、mRasberry、mStrawberry、Jred)和橙色荧光蛋白(mOrange、mKO、Kusabira-Orange、MonomericKusabira-Orange、mTangerine、tdTomato)或任何其它合适的荧光蛋白。在其它方面，所述标记结构域可为纯化标签和/或表位标签。示例性的标签包括，但不限于谷胱甘肽-S-转移酶(GST)、甲壳素结合蛋白(CBP)、麦芽糖结合蛋白、硫氧还蛋白(TRX)、聚(NANP)、串联亲和纯化(TAP)标签、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、HA、nus、Softag1、Softag3、Strep、SBP、Glu-Glu、HSV、KT3、S、S1、T7、V5、VSV-G、6xHis、生物素羧基载体蛋白(BCCP)和钙调蛋白。

(iv)融合蛋白二聚体

本公开还预期了包含至少一种如上所述的融合蛋白的二聚体的用途。该二聚体可为同源二聚体或异源二聚体。在一些方面，所述异源二聚体包含两个不同的融合蛋白。在其它方面，所述异源二聚体包含一个融合蛋白和另外的蛋白。

在一些方面，该二聚体是以下同源二聚体：其中两个融合蛋白单体关于一级氨基酸序列是相同的。例如，各融合蛋白单体包含相同的Cas9样蛋白和相同的FokI剪切结构域。

在其它方面，该二聚体是两个不同的融合蛋白的异源二聚体。例如，各融合蛋白的CRISPR/Cas样蛋白可获自不同的CRISPR/Cas蛋白或获自来源于不同的细菌种类的直系同源CRISPR/Cas蛋白。例如，各融合蛋白可包含Cas9样蛋白，所述Cas9样蛋白获自不同的细菌种类。在这些方面，各融合蛋白将识别不同的靶位点(即通过原型间隔序列(protospacer)和/或PAM序列限定)。或者，两个融合蛋白可具有不同的效应物结构域。在其中效应物结构域是剪切结构域的方面，各融合蛋白可含有如上所述的不同的修饰的FokI剪切结构域。如本领域技术人员将意识到的，形成异源二聚体的两个融合蛋白可在CRISPR/Cas样蛋白结构域和效应物结构域两方面都不同。

或者，该异源二聚体可包含一种融合蛋白和另外的蛋白。例如，另外的蛋白可为锌指核酸酶。锌指核酸酶包含锌指DNA结合结构域和剪切结构域。锌指识别并结合三个(3)核苷酸。锌指DNA结合结构域可包含约3个锌指至约7个锌指。该锌指DNA结合结构域可获自天然存在的蛋白或其可为人工改造的。参见，例如，Beerli等人(2002)Nat.Biotechnol.20:135-141；Pabo等人(2001)Ann.Rev.Biochem.70:313-340；Isalan等人(2001)Nat.Biotechnol.19:656-660；Segal等人(2001)Curr.Opin.Biotechnol.12:632-637；Choo等人(2000)Curr.Opin.Struct.Biol.10:411-416；Zhang等人(2000)J.Biol.Chem.275(43):33850-33860；Doyon等人(2008)Nat.Biotechnol.26:702-708和Santiago等人(2008)Proc.Natl.Acad.Sci.USA105:5809-5814。锌指核酸酶的剪切结构域可为在以上部分(I)(c)(ii)中详细描述的任何剪切结构域。在示例性的方面，该锌指核酸酶的剪切结构域是FokI剪切结构域或修饰的FokI剪切结构域。此类锌指核酸酶将与包含FokI剪切结构域或修饰的FokI剪切结构域的融合蛋白二聚。该锌指核酸酶可包含至少一个另外的结构域，其选自核定位信号(NLS)、细胞穿透结构域或易位结构域。合适的另外的结构域的实例在上文详细描述。

II.细胞

本公开的另一方面提供包含至少一个外源序列的细胞，所述外源序列位于特定的基因组位置之内或邻近特定的基因组位置的基因组DNA中。所述外源序列在以上部分(I)中描述并包含用于至少一种多核苷酸修饰酶的识别序列(一个或更多个)。一般而言，所述外源核酸序列被稳定地整合到基因组中，即，以使得细胞后代也包括所述外源核酸序列的染色体拷贝。意欲产生稳定的整合的转染和培养方案在本领域中是众所周知的，且本领域普通技术人员可容易地评估稳定的整合是否已经发生。

包含用于至少一种多核苷酸修饰酶的识别序列(一个或更多个)的外源核酸序列可位于基因组位置之内或邻近基因组位置，所述基因组位置例如在表2中列举的非限制性实例，或在表2中列举的基因组位置的同系物、直系同源物或旁系同源物。在一些实施方式中，基因组位置与高水平的基因表达相关。可通过如本文所描述的任何合适的靶向核酸内切酶将本公开的外源核酸序列整合到任何可获得的基因组位置中或邻近任何可获得的基因组位置。在某些实施方式中，所选的基因组位置是用于重组基因表达的已知或未知的“热”点或“安全港”地点。此类位点被识别为基因组中的区域，已知所述区域是转录活性的，并且对基因沉默机制有抗性，以允许稳定的基因表达。在一些实施方式中，可将本公开的外源核酸序列整合到表2中鉴定的基因组位置中。在其它的实施方式中，可将本公开的外源核酸序列整合至邻近表2中鉴定的基因组位置。

另外，若插入多个着陆区，其各自可位于或接近表2中列举的基因组位置。例如，可将含有用于至少一种多核苷酸修饰酶的识别序列(一个或更多个)的外源核酸序列整合到两个、三个、四个、五个、六个、七个、八个、九个或十个或更多个基因组位置中。如本文所指出的，可插入相同的外源核酸序列的多拷贝，或可插入各种各样的不同的外源核酸序列。

表2.CHO细胞中的基因组位置

细胞可为任何合适的真核细胞。在示例性的实施方式中，所述细胞为中国仓鼠卵巢(CHO)细胞，例如来自CHO-K1系或任何其它合适的细胞系的细胞。尽管CHO细胞可为精选的细胞，但是也可采用各种各样的其它细胞。一般而言，所述细胞将为真核细胞或单细胞真核生物。

当使用哺乳动物细胞系时，所述细胞系可为任何确立的细胞系或还未被描述的原代细胞系。所述细胞系可为黏着性或非黏着性的，或可使用本领域技术人员已知的标准技术在鼓励黏着性、非黏着性或器官型生长的条件下使所述细胞系生长。除了CHO细胞之外，合适的哺乳动物细胞系的非限制性实例包括由SV40转化的猴肾CVI系(COS7)、人胚肾系293、乳仓鼠肾细胞(BHK)、小鼠支持细胞(TM4)、猴肾细胞(CVI-76)、非洲绿猴肾细胞(VERO)、人宫颈癌细胞(HeLa)、犬肾细胞(MDCK)、牛鼠(buffalorat)肝细胞(BRL3A)、人肺细胞(W138)、人肝细胞(HepG2)、小鼠乳腺肿瘤细胞(MMT)、大鼠肝癌细胞(HTC)、HIH/3T3细胞、人U2-OS骨肉瘤细胞、人A549细胞、人K562细胞、人HEK293细胞、人HEK293T细胞、人HCT116细胞、人MCF-7细胞和TRI细胞。对于哺乳动物细胞系的详尽的列表，本领域普通技术人员可参考美国模式培养物保藏所目录(Manassas,VA)。特别地，可使用用于重组蛋白生产和生物制药生产的细胞系，例如CHO细胞、小鼠骨髓瘤细胞(NS0)、HEK293和HEK293T。

在其它的实施方式中，所述细胞可为培养细胞、原代细胞或永生细胞。合适的细胞包括真菌或酵母，例如毕赤酵母属(Pichia)、酵母菌属(Saccharomyces)或裂殖酵母属(Schizosaccharomyces)；昆虫细胞，例如来自草地夜蛾(Spodopterafrugiperda)的SF9细胞或来自黑腹果蝇(Drosophilamelanogaster)的S2细胞；和动物细胞，例如小鼠细胞、大鼠细胞、仓鼠细胞、非人灵长类动物细胞或人细胞。示例性的细胞是哺乳动物(细胞)。该哺乳动物细胞可为原代细胞。一般而言，可使用对于双链断裂敏感的任何原代细胞。所述细胞可为各种各样的细胞类型，如成纤维细胞、成肌细胞、T或B细胞、巨噬细胞、上皮细胞等等。

在其它实施方式中，所述细胞可为干细胞。合适的干细胞不限制地包括胚胎干细胞、ES样干细胞、胎儿干细胞、成人干细胞、多潜能干细胞(pluripotentstemcells)、诱导多能性干细胞、多能干细胞(multipotentstemcells)、寡能干细胞和单能干细胞。

在某些其它的实施方式中，所述细胞可为胚胎。在一些实施方式中，所述胚胎可为单细胞胚胎。所述胚胎可为脊椎动物或无脊椎动物。合适的脊椎动物包括哺乳类、鸟类、爬行类、两栖类和鱼类。合适的哺乳类的实例不限制地包括啮齿类、伴侣动物(companionanimals)、家畜和非灵长类。啮齿类的非限制性实例包括小鼠、大鼠、仓鼠、沙鼠和豚鼠。合适的伴侣动物包括但不限于猫、狗、兔、刺猬和雪貂。家畜的非限制性实例包括马、山羊、绵羊、猪、牛、美洲驼和羊驼。合适的非灵长类包括但不限于卷尾猴、黑猩猩、狐猴、猕猴、绒猴、绢毛猴、蜘蛛猴、松鼠猴和黑长尾猴。鸟类的非限制性实例包括鸡、火鸡、鸭和鹅。或者，所述动物可为无脊椎动物，例如昆虫、线虫等等。昆虫的非限制性实例包括果蝇、蚊子和蚕。

III.制备包含外源序列的细胞的方法

可使用本领域普通技术人员已知的任何合适的方法来制备上述细胞。但是，在一些方面，制备如本文所公开的包含包括用于多核苷酸修饰酶的至少一个识别序列的着陆区的细胞的方法包括以下步骤：(a)将至少一种靶向核酸内切酶(或编码所述靶向核酸内切酶的核酸)引入细胞中，所述靶向核酸内切酶(或编码靶向核酸内切酶的核酸)被靶向至在表2中列举的基因组位置之内或邻近表2中列举的基因组位置的序列；(b)将至少一种包含外源核酸的供体多核苷酸引入细胞中，所述外源核酸包含至少一个用于多核苷酸修饰酶的识别序列、第一上游侧翼序列和第一下游侧翼序列，其中所述上游侧翼序列和下游侧翼序列与步骤(a)的靶向基因组位置的任一侧具有实质的序列同一性；和(c)将所述细胞维持在以下条件下：所述条件使得靶向核酸内切酶在靶向基因组位置引入双链断裂，且所述双链断裂通过同源介导法修复，以使得所述外源核酸在基因组位置之内或邻近基因组位置被整合到靶位点中。可同时或相继实施步骤(a)和(b)；即可在同一时间向细胞施用或采取分开的步骤施用靶向核酸内切酶和包含含有用于多核苷酸修饰酶的至少一个识别序列的外源核酸的供体多核苷酸。

在另一方面，可通过以下步骤来制备上述细胞：(a)将至少一种靶向核酸内切酶(或编码靶向核酸内切酶的核酸)引入细胞中，所述靶向核酸内切酶(或编码靶向核酸内切酶的核酸)被靶向至在表2中列举的基因组位置之内或邻近表2中列举的基因组位置的序列；(b)将至少一种包含外源核酸序列的供体多核苷酸引入细胞，所述外源核酸序列包含至少一个用于多核苷酸修饰酶的识别序列、第一上游侧翼序列和第一下游侧翼序列，其中所述上游侧翼序列和下游侧翼序列包含步骤(a)的靶向核酸内切酶的识别序列；和(c)将细胞维持在以下条件下：所述条件使得靶向核酸内切酶在靶向染色体序列中引入双链断裂，并在供体多核苷酸中引入双链断裂，以使得所述供体多核苷酸被线性化，其中将包含外源序列的线性化供体多核苷酸与剪切的染色体序列直接连接，以使得所述外源序列被整合到细胞的基因组中。可同时或相继实施步骤(a)和(b)。

因此，本公开提供了用于制备包含至少一个外源核酸序列的细胞的方法，所述外源核酸序列包含至少一个用于多核苷酸修饰酶的识别序列，所述方法包括：(a)将至少一种靶向核酸内切酶(或编码靶向核酸内切酶的核酸)引入细胞，所述靶向核酸内切酶(或编码靶向核酸内切酶的核酸)被靶向至在表2中列举的基因组位置之内或邻近表2中列举的基因组位置的序列；(b)将至少一种包含外源核酸的供体多核苷酸引入细胞中，所述外源核酸侧接(i)与靶向基因组位置具有实质的序列同一性的序列或(ii)靶向核酸内切酶的识别序列；和(c)在使得所述外源核酸被整合到所述细胞的基因组中的条件下维持所述细胞。可同时或相继实施步骤(a)和(b)。

含有包含用于多核苷酸修饰酶的识别序列的外源序列的供体多核苷酸可为单链或双链的、线性或环状的。一般而言，供体多核苷酸是DNA。供体多核苷酸可为载体。合适的载体包括质粒载体、噬粒、黏粒、人工染色体/微型染色体、转座子和病毒载体。供体多核苷酸可包含另外的转录控制序列元件、选择性标记序列和/或报道序列。

如本文所讨论的，在外源核酸中提供的至少一个用于多核苷酸修饰酶的识别序列可优选包含不内源存在于细胞的基因组中的核酸序列。以上部分I中还提供了外源核酸序列的其它附加物和变体。例如，所述外源核酸序列可任选地包含至少一个选择性标记、至少一个用于报道基因的序列和/或至少一个调节控制元件序列。另外，所述外源核酸序列可包含用于多核苷酸修饰酶的识别序列的多拷贝，所述识别序列可相同或不同。

也可使用本文描述的用于制备本公开的细胞的方法来制备同时含有多个识别位点的细胞。一方面，被引入细胞中的外源核酸还包含用于第二多核苷酸修饰酶的第二识别序列，其中第一识别序列和第二识别序列各自被不同的多核苷酸修饰酶识别。或者，或另外，可使用第二外源核酸来重复上述方法的步骤(a)至(c)，所述第二外源核酸包含第二识别序列、第二上游侧翼序列和第二下游侧翼序列，和第二靶向核酸内切酶，所述第二靶向核酸内切酶被靶向至与第一靶向核酸内切酶靶向的基因组位置不同的基因组位置。可使用另外的外源核酸序列重复该过程。该外源核酸可以另外的质粒或另一合适的形式存在。靶向位置可为以上表2中展现的位置，或可为本领域普通技术人员已知的另一合适的位置。关于步骤(a)-(c)，可如本领域普通技术人员认为最适宜的一样相继或同时实施此类步骤。在任何情况下，另外的识别序列可为如本文所公开的任何识别序列。

图1提供了包含外源核酸的示例性质粒的示意图，所述外源核酸含有至少一个用于本公开的多核苷酸修饰酶的识别序列。

一方面，所述方法包括将包含至少一种外源核酸的质粒引入细胞中。该外源核酸包含用于如本文所提供的多核苷酸修饰酶的识别位点。质粒中的外源序列以上游序列和下游序列为侧翼，其中所述上游序列和下游序列或者与靶向位置的任一侧具有实质的序列同一性，或者包含所使用的靶向核酸内切酶的识别位点。

如所讨论的，在一个实施方式中，外源核酸中的用于多核苷酸修饰酶的识别位点侧接上游序列和下游序列，所述上游序列和下游序列与染色体序列中的靶向剪切位点的任一侧共享有实质的序列同一性。在另一实施方式中，外源核酸中的用于多核苷酸修饰酶的识别位点侧接上游序列和下游序列，所述上游序列和下游序列各自包含欲用于将外源核酸整合到基因组中的靶向核酸内切酶的识别序列。对于任何在表2中鉴定的位置，本领域普通技术人员可基于它们公众可获得的序列容易地制备合适的侧翼序列。类似地，本领域普通技术人员可基于在所述方法中使用的靶向核酸内切酶的已知识别序列容易地制备合适的侧翼序列。

选择包含外源序列的供体多核苷酸中的上游序列和下游序列以促进靶向染色体序列和供体多核苷酸(包含所述外源序列)之间的重组。如本文所使用的上游序列是指下述核酸序列：其与紧邻靶向剪切位点上游的染色体序列共享有实质的序列同一性，或包含靶向核酸内切酶的识别序列。类似地，在该实施方式中的下游序列是指下述核酸序列：其与紧邻靶向剪切位点下游的染色体序列享有实质的序列同一性，或包含靶向核酸内切酶的识别序列。

如本文所使用的短语“实质的序列同一性”是指具有至少约75％序列同一性的序列。因此，包含外源序列的供体多核苷酸中的上游序列和下游序列可与和靶向剪切位点相邻(即上游或下游)的染色体序列或靶向核酸内切酶的识别序列具有约75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性。在示例性的实施方式中，包含外源序列的供体多核苷酸中的上游序列和下游序列可与和靶向剪切位点相邻的染色体序列或靶向核酸内切酶的识别序列具有约95％或100％序列同一性。

上游侧翼序列或下游侧翼序列可包含约10个核苷酸至约2500个核苷酸。在一个实施方式中，上游序列或下游序列可包含约20、30、40、50、60、70、80、90、100、125、150、175、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900或2000个核苷酸。示例性的上游侧翼序列或下游侧翼序列可包含约20至约200个核苷酸、25至约100个核苷酸、或约40个核苷酸至约60个核苷酸。在某些实施方式中，上游侧翼序列或下游侧翼序列可包含约200至约500个核苷酸。

包含以上游序列和下游序列为侧翼的识别位点的外源核酸的总长可以并将改变。外源核酸可为在约25个核苷酸至约5,500个核苷酸范围内的长度。在各种实施方式中，供体多核苷酸可为约50、100、200、300、400、500、600、800、1000、1500、2000、2500、3000、3500、4000或5000个核苷酸长度。

在一些实施方式中，可将用在本文方法中的包含用于多核苷酸修饰酶的识别位点的外源核酸以双链、单链、线性或环状序列提供。例如，外源核酸可为质粒、细菌人工染色体(BAC)、酵母人工染色体(YAC)、病毒载体、寡核苷酸、合成多核苷酸、通过消化线性化的多核苷酸、PCR片段、裸核酸或与递送载体(例如脂质体或泊洛沙姆)复合的核酸。典型地，包含用于多核苷酸修饰酶的识别位点的外源核酸将为DNA。在一些实施方式中，外源核酸可还包含核糖核苷酸、核苷酸类似物或它们的组合。核苷酸类似物是指具有修饰的嘌呤碱基或嘧啶碱基的核苷酸，或指包含修饰的核糖部分的核苷酸。核苷酸类似物还包括双脱氧核苷酸、2’-O-甲基核苷酸、锁核酸(LNA)、肽核酸(PNA)和吗啉基寡核苷酸(morpholinos)。可通过磷酸二酯键、硫代磷酸酯键(phosphothioate)、亚磷酰胺键、磷二酰胺键或它们的组合连接核苷酸。

可通过各种各样的方式将靶向核酸内切酶(或编码核酸)和本文描述的包含用于多核苷酸修饰酶的识别位点的外源核酸引入细胞中。合适的递送方式包括微注射、电穿孔、声穿孔、生物射弹、磷酸钙介导的转染、阳离子转染、脂质体转染、树状聚体转染、热激转染、核转染的转染(nucleofectiontransfection)、磁转染、脂转染、刺穿转染(impalefection)、光学转染、核酸的专有制剂(proprietaryagent)增强的吸收和经由脂质体、免疫脂质体、病毒体或人工病毒粒体的递送。在一个实施方式中，可通过核转染将靶向核酸内切酶序列和外源核酸引入细胞中。在另一实施方式中，可通过微注射将靶向核酸内切酶序列和外源核酸引入细胞中。例如，可将靶向核酸内切酶序列和外源核酸微注射进入细胞的核或细胞质中。或者，可将靶向核酸内切酶序列和外源核酸微注射进入单细胞胚胎的前核中。

在将包含用于多核苷酸修饰酶的识别位点的多于一种外源核酸引入细胞中的实施方式中，可同时或相继引入所述分子。例如，可在同一时间引入包含识别位点的外源核酸，各识别位点对于特定的多核苷酸修饰酶具有特异性。或者，可相继引入包含识别位点的各外源核酸。

所述方法还包括将细胞维持在合适的条件下，以使由靶向核酸内切酶引入的双链断裂通过同源重组或直接连接修复，以使包含至少一个识别序列的外源核酸被整合到靶向基因组位置中。

一般而言，将细胞维持在适合于特定细胞的条件下。合适的细胞培养条件在本领域中是众所周知的，并在，例如，Santiago等人(2008)PNAS105:5809-5814；Moehle等人(2007)PNAS104:3055-3060；Urnov等人(2005)Nature435:646-651和Lombardo等人(2007)Nat.Biotechnology25:1298-1306中描述。本领域技术人员意识到用于培养细胞的方法在本领域中是已知的，并可以且将根据细胞类型而改变。在所有情况下，可使用常规的优化法来确定用于特定的细胞类型的最佳技术。

在细胞是单细胞胚胎的实施方式中，可体外(如在细胞培养中)培养所述胚胎。典型地，在适当的温度下及在适当的培养基中培养所述胚胎，所述培养基具有必需的O₂/CO₂比率以允许双链断裂的修复并允许胚胎的发育。培养基的合适的非限制性实例包括M2、M16、KSOM、BMOC和HTF培养基。技术人员将意识到培养条件可以并将取决于胚胎的种类而改变。在所有情况下，可使用常规的优化法来确定用于特定的胚胎种类的最佳培养条件。

在某些情况下，也可通过将胚胎转移到雌性宿主的子宫中在体内培养该胚胎。一般而言，所述雌性宿主来自与胚胎相同或相似的种类。优选地，所述雌性宿主是假孕的。制备假孕雌性宿主的方法在本领域中是已知的。另外，将胚胎转移到雌性宿主中的方法是已知的。体内培养胚胎允许胚胎发育并可引起得自胚胎的动物的活产。

可繁殖包含修饰的染色体序列的动物以产生修饰的染色体序列的纯合型后代。类似地，可使杂合和/或纯合动物与具有感兴趣的其它基因型的动物杂交。

IV.使用包含外源序列的细胞的方法

本文描述的含有一个或更多个着陆区序列，即包含用于多核苷酸修饰酶的至少一个识别序列的一个或更多个外源序列的细胞可用于重组蛋白，例如生物制药蛋白的生产。具体地，可通过多核苷酸修饰酶(一种或更多种)(即靶向核酸内切酶和/或重组酶)靶向着陆区中的识别序列(一个或更多个)，用于编码感兴趣的蛋白的序列的整合。使用所述方法和本文描述的含有可被再靶向用于重组蛋白生产的一个或更多个着陆区的细胞存在数个优势。首先，通过选择一个或更多个稳定的基因组位置以插入着陆区序列(一个或更多个)(用于随后的再靶向)来增加靶向整合(所需基因材料的合并)的效率，重组蛋白的生产可增加。使用高效的靶向核酸内切酶或重组酶以将感兴趣的基因序列(即重组蛋白序列)整合到已知的、稳定的基因组中的位置不仅获得重组蛋白序列的有效整合(可选择一个或更多个基因组位置以增加靶向核酸内切酶或重组酶的整合效率)，而且获得整合之后的蛋白序列持续的、稳定的表达。因此，这导致增加的细胞系稳定性和降低的克隆至克隆和分子至分子(重组蛋白)异质性，引起总体减少的细胞系发育时间和增加的蛋白生产。此外，使用本文描述的方法，可能生成包含用于相同的重组蛋白的多拷贝的靶向整合或多于一种不同的重组蛋白的整合的多个着陆区位点的细胞，由此提供关于可实现的蛋白生产的最大的灵活性。另外，任选的序列，例如选择性标记、报道序列和/或调节控制元件序列的包括允许进一步定制生物生产能力。

因此，在又一方面，可再靶向本文描述的含有一个或更多个着陆区或外源序列(一个或更多个)的细胞，用于重组蛋白或感兴趣的蛋白的生产，所述一个或更多个着陆区或外源序列(一个或更多个)包含至少一个用于多核苷酸修饰酶的识别序列，所述方法包括(a)将包含侧接上游侧翼序列和下游侧翼序列的编码重组蛋白的序列的至少一个表达构建物引入本公开的细胞(包含含有至少一个用于多核苷酸修饰酶的识别序列的整合的外源序列(一个或更多个)的细胞)中，其中所述上游侧翼序列和下游侧翼序列与在步骤(b)的侧接靶向核酸内切酶的识别序列的染色体序列基本上相同；(b)将至少一种靶向核酸内切酶引入细胞中，所述靶向核酸内切酶被靶向存在于在细胞的染色体序列中整合的外源序列(一个或更多个)中的特异性识别序列，其中所述靶向核酸内切酶在识别序列上引入双链断裂；和(c)将细胞维持在以下条件下：所述条件使得双链断裂通过同源介导法来修复，以使编码重组蛋白的序列被整合到染色体中。可使用标准的蛋白表达步骤和方案由再靶向细胞表达重组蛋白(一种或更多种)。可同时或相继实施步骤(a)和(b)；即，即可在同一时间向细胞施用或可采取分开的步骤施用包含含有编码重组蛋白的序列的至少一种表达构建物的供体多核苷酸和靶向核酸内切酶。

在还一方面，可通过如下步骤再靶向本文描述的含有一个或更多个着陆区序列的细胞，用于重组蛋白的生产：(a)将至少一种靶向核酸内切酶引入包含整合的外源序列的细胞中，所述整合的外源序列包含至少一个用于多核苷酸修饰酶的识别序列，所述靶向核酸内切酶被靶向存在于在细胞的染色体序列中整合的外源序列中的特异性识别序列；(b)将包含编码重组蛋白的序列的至少一个表达构建物引入细胞中，所述编码重组蛋白的序列侧接靶向核酸内切酶的识别序列；和(c)将细胞维持在以下条件下：所述条件使得靶向核酸内切酶在着陆区中的靶向识别序列中引入双链断裂，并在表达构建物中引入双链断裂，以使得表达构建物线性化，其中所述线性化表达构建物与剪切的识别序列直接连接，以使编码重组蛋白的序列被整合到染色体中。可使用标准的蛋白表达步骤和方案由再靶向细胞表达重组蛋白(一种或更多种)。可同时或相继实施步骤(a)和(b)。

在另一方面，可通过如下步骤再靶向本文描述的包含一个或更多个着陆区的细胞，用于重组蛋白的生产：(a)提供包含至少一个整合的外源重组酶识别序列的细胞；(b)将至少一种重组酶引入细胞中，所述重组酶识别在细胞的染色体序列中整合的重组酶识别序列；(c)将至少一种表达构建物引入细胞中，所述表达构建物包含编码重组蛋白的序列，所述序列侧接重组酶的识别位点；(d)将细胞维持在以下条件下：所述条件使得重组酶交换表达构建物和染色体序列之间的序列，以使编码重组蛋白的序列被整合到染色体中。可使用标准的蛋白表达步骤和方案由再靶向细胞表达重组蛋白(一种或更多种)。可同时或相继实施步骤(a)和(b)。

在本方法中，表达构建物可在如本文描述的本领域普通技术人员的知识和能力的范围内变化。例如，表达构建物可包含单一重组蛋白的多拷贝。表达构建物可替代地或另外包含编码至少两种不同的重组蛋白的序列。表达构建物可包含至少一个选择性标记(如下讨论)、至少一个报道基因序列和/或至少一个调节序列元件。例如，可以将编码重组蛋白的序列与合适的启动子控制序列可操作地连接，用于在真核细胞中表达。启动子控制序列可为组成型或调节型(即诱导型或组织特异型)的。合适的组成型启动子控制序列包括，但不限于巨细胞病毒立即早期启动子(CMV)、猿猴病毒(SV40)启动子、腺病毒主要晚期启动子、劳氏肉瘤病毒(RSV)启动子、小鼠乳腺瘤病毒(MMTV)启动子、磷酸甘油酸激酶(PGK)启动子、延伸因子(ED1)-α启动子、泛素启动子、肌动蛋白启动子、微管蛋白启动子、免疫球蛋白启动子、它们的片段或前述任何的组合。合适的诱导型启动子控制序列的非限制性实例包括由抗生素调节的那些(如四环素诱导型启动子)、和由金属离子调节的那些(如金属硫蛋白-1启动子)、类固醇激素、小分子(如醇调节的启动子)、热激等等。组织特异型启动子的非限制性实例包括B29启动子、CD14启动子、CD43启动子、CD45启动子、CD68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮糖蛋白启动子、纤连蛋白启动子、Flt-1启动子、GFAP启动子、GPIIb启动子、ICAM-2启动子、INF-β启动子、Mb启动子、NphsI启动子、OG-2启动子、SP-B启动子、SYN1启动子和WASP启动子。所述启动子序列可为野生型，或可对其进行修饰，以用于效率更高或更有效的表达。可存在的其它控制元件包括另外的转录调节和控制元件(即部分启动子、启动子包载、起始密码子、增强子、内含子、绝缘子、polyA信号、终止信号序列和其它表达元件)，上述也可存在。

重组蛋白可为任何重组蛋白，包括在生物治疗和/或诊断应用中有用的那些，以及任何在工业应用中有用的任何重组蛋白。例如，重组蛋白可没有限制地为抗体、抗体的片段、单克隆抗体、人源化抗体、人源化单克隆抗体、嵌合抗体、IgG分子、IgG重链、IgG轻链、Fc区、IgA分子、IgD分子、IgE分子、IgM分子、Fc融合蛋白、疫苗、生长因子、细胞因子、干扰素、白细胞介素、激素、凝血(或凝固)因子、血液组分、酶、保健品蛋白(nutraceuticalprotein)、糖蛋白、任何前述物质的功能性片段或功能性变体、或包含任何前述蛋白和/或其功能性片段或变体的融合蛋白。在示例性的实施方式中，重组蛋白是人或人源化蛋白。

在一些实施方式中，可将编码重组蛋白的核酸序列与编码可扩增的选择性标记的核酸序列连接，所述可扩增的选择性标记例如次黄嘌呤-鸟嘌呤磷酸核糖转移酶(HPRT)、二氢叶酸还原酶(DHFR)和/或谷氨酰胺合酶(GS)。

在其它的实施方式中，可将编码重组蛋白的核酸序列与编码报道蛋白的核酸序列连接，所述报道蛋白例如荧光蛋白(合适的荧光蛋白在上述部分I中列举)、谷胱甘肽-S-转移酶(GST)、甲壳素结合蛋白(CBP)、麦芽糖结合蛋白、β-半乳糖苷酶、硫氧还蛋白(TRX)、生物素羧基载体蛋白(BCCP)或钙调蛋白。

V.试剂盒

本公开的又一方面包括用于感兴趣的重组蛋白表达的试剂盒。所述试剂盒包括细胞系，所述细胞系包含含有用于如上所述的多核苷酸修饰酶的识别位点的至少一个外源序列、对应于识别位点的适当的多核苷酸修饰酶，和用于插入编码感兴趣的重组蛋白的序列的构建物，其中所述构建物还包含一对侧翼序列，所述侧翼序列对应于识别位点序列或侧接识别位点序列的基因组DNA。所述试剂盒还包括用于完成编码感兴趣的重组蛋白的序列的靶向整合的说明书。在一个实施方式中，用于插入编码感兴趣的重组蛋白的序列的构建物还包含用于选择性标记的序列、报道基因序列和/或调节控制元件序列。因此，所述试剂盒提供了用于再靶向细胞以供如上所讨论的重组蛋白的表达和生产的材料和试剂。

在一些方面，所述试剂盒包括细胞系，所述细胞系包含包含如本文所述的识别位点的多于一个外源序列(即获得多于一个识别位点，所述位点可相同或不同)，和对应于识别位点(一个或更多个)的适当的多核苷酸修饰酶(一种或更多种)。

在一些方面，所述试剂盒包括用于插入编码感兴趣的重组蛋白的序列的多于一个构建物，其中所述构建物还包含一对侧翼序列，所述侧翼序列对应于识别位点序列和/或侧接识别位点序列的基因组DNA。

所述细胞系可为在包括预定体积的活细胞的样品中提供的CHO细胞系细胞。在一些方面，所述细胞可为冷冻细胞。

所述试剂盒可还包含一种或更多种另外的试剂，用于实践使用靶向整合的蛋白的重组表达的公开方法。试剂盒一般包括具有一个或更多个容器的包装，所述容器容纳作为一种或更多种单独的组合物或任选地，作为混合物(在试剂的相容性将允许的情况下)的试剂。所述试剂盒还包括其它材料(一种或更多种)，所述材料从使用者的角度可能是合意的，例如缓冲剂(一种或更多种)、稀释剂(一种或更多种)、一种/更多种培养介质、标准物(standard)(一种或更多种)和/或用于处理或实施以上详述的方法的任何步骤的任何其它材料。

本文提供的试剂盒优选包括用于表达如以上部分(I)中详述的重组蛋白的说明书。可将包括在试剂盒中的说明书贴在包装材料上，或可将其作为包装插页包括。尽管说明书典型地是书面材料或打印材料，但是它们不限于此类。本公开预期能够存储此类说明书并将它们传达至最终使用者的任何媒介。此类媒介包括，但不限于电子存储媒介(如磁盘、磁带、盒式存储器、芯片)、光学媒介(如CDROM)等等。如本文所使用的，术语“说明书”可包括提供说明书的互联网网站的地址。

定义

除非另外定义，本文所使用的所有技术和科学术语具有本发明所属领域的技术人员通常理解的意义。下列参考为技术人员提供了本发明中使用的很多术语的一般定义：Singleton等人，微生物学和分子生物学词典(DictionaryofMicrobiologyandMolecularBiology)(第2版，1994)；剑桥科学和技术词典(TheCambridgeDictionaryofScienceandTechnology)(Walker编，1988)；遗传学词汇(TheGlossaryofGenetics)，第5版，R.Rieger等人(编)，SpringerVerlag(1991)和Hale&Marham，哈珀柯林斯生物学词典(TheHarperCollinsDictionaryofBiology)(1991)。如本文所使用的，除非另外规定，下列术语具有归于它们的意义。

当引入本公开的元素或其优选的实施方式(一个或更多个)时，冠词“一”、“该”和“所述”意欲表示存在一种或更多种元素。术语“包含”、“包括”和“具有”意欲是包括性的，并表示可存在除了所列举的元素之外的另外的元素。

如本文所使用的术语“基因”是指编码基因产物的DNA区域(包括外显子和内含子)，以及调节基因产物生产的所有DNA区域，不管此类调节序列是否靠近编码和/或转录序列。因此，基因包括，但不必须限于，启动子序列、终止子、翻译调节序列例如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区。

术语“核酸”和“多核苷酸”是指处于线性或环状构型的脱氧核糖核苷酸或核糖核苷酸聚合物。出于本公开的目的，不将这些术语解释为关于聚合物长度的限制。所述术语可包括已知的天然核苷酸的类似物，以及在碱基、糖和/或磷酸酯部分(如硫代磷酸酯骨架)中进行修饰的核苷酸。一般而言，特定核苷酸的类似物具有相同的碱基配对特异性；即A的类似物将与T进行碱基配对。

如本文所使用的术语“多核苷酸修饰酶”是指靶向核酸内切酶或位点特异性重组酶。靶向核酸内切酶可包括锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR/Cas样核酸内切酶、I-TevI核酸酶或相关的单体杂合物，和人工靶向DNA双链断裂诱导剂。位点特异性重组酶可包括λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。

互换地使用术语“多肽”和“蛋白”来指氨基酸残基的聚合物。

如本文所使用的术语“邻近”意为靠近基因组位置的位置。邻近位置可指在预定数量的核苷酸，即约10个、约20个、约50个、约100个、约200个核苷酸，或更远的距离包括5kb、50kb或500kb和居中值范围内的位置。或者，插入可邻近特定的基因组位置，若其距离一个鉴定位置比距离另一鉴定位置相对更近，即基因间序列。

如本文所使用的术语“识别位点”是指被多核苷酸修饰酶识别并结合的核酸序列，条件是存在充分的结合条件。多核苷酸修饰酶可为结合并剪切识别位点的靶向核酸内切酶。或者，多核苷酸修饰酶可为介导含有识别位点的序列之间的交换的重组酶。

术语“上游”和“下游”是指在核酸序列中相对于固定位置的位置。上游是指相对于位置为5'的区域(即靠近链的5'端)，且下游是指相对于位置为3'的区域(即靠近链的3'端)。

用于测定核酸和氨基酸序列同一性的技术在本领域中是已知的。典型地，此类技术包括测定基因的mRNA的核苷酸序列和/或测定由其编码的氨基酸序列，并将这些序列与第二核苷酸或氨基酸序列相比较。也可采用该方式测定并对比基因组序列。一般而言，同一性是指两个多核苷酸或多肽序列分别确切的核苷酸对核苷酸或氨基酸对氨基酸对应性。可通过测定它们的百分比同一性来对比两个或更多个序列(多核苷酸或氨基酸)。无论核酸或氨基酸序列，两个序列的百分比同一性是两个比对序列之间的确切配对数除以较短序列的长度并乘以100。Smith和Waterman,AdvancesinAppliedMathematics2:482-489(1981)的局部同源性算法提供了核酸序列的近似比对。可通过使用计分矩阵(scoringmatrix)将该算法应用至氨基酸序列，所述计分矩阵由Dayhoff,AtlasofProteinSequencesandStructure,M.O.Dayhoff编，5增刊，3:353-358，国家生物医药研究基金，华盛顿哥伦比亚特区，美利坚合众国(NationalBiomedicalResearchFoundation,Washington,D.C.,USA)开发并由Gribskov,Nucl.AcidsRes.14(6):6745-6763(1986)标准化。用于测定序列的百分比同一性的该算法的示例性实施由GeneticsComputerGroup(Madison,Wis.)在"BestFit"实用应用程序中提供。用于计算序列之间的百分比同一性或相似性的其它合适的程序在本领域中一般是已知的，例如，另一比对程序是使用默认参数的BLAST。例如，可使用下列默认参数来使用BLASTN和BLASTP：遗传密码＝标准；过滤器＝无；链＝两个；截断值＝60；预期值＝10；矩阵＝BLOSUM62；描述＝50个序列；分类根据＝HIGHSCORE；数据库＝非冗余，GenBank+EMBL+DDBJ+PDB+GenBankCDS翻译+Swiss蛋白+Spupdate+PIR。在GenBank网站上可以找到这些程序的详述。关于本文描述的序列，所需的序列同一性程度的范围为大约80％至100％和介于其间的任何整数值。典型地，序列之间的百分比同一性为至少70-75％，优选80-82％，更优选85-90％，甚至更优选92％，再更优选95％，并最优选98％的序列同一性。

在详细描述本发明之后，将显而易见的是修改和变化是可能的，而没有偏离在附录的权利要求书中定义的本发明的范围。此外，可采用任何组合来组合任何以上所列举的实施方式或重复。

实施例

实施例1：ZFN识别着陆区的插入

设计ZFN对以在碱基对12931-12970、Rosa26和Neu3靶向参考序列IDNW_003618207.1。将ZFN靶向参考序列IDNW_003618207.1碱基对12931-12970、Rosa26或Neu3单独转染到悬浮适应的CHOK1细胞系中。转染后三天，通过CEL-ISurveyorMutationDetectionAssay或通过插入/缺失的直接测序(插入/缺失)来评价在转染池中的NW_003618207.1、Rosa26和Neu3位点的ZFN切割效率。当通过插入/缺失的直接测序来计算ZFN活性时，在分析中使用来自各单独位点的至少40个PCR扩增子。估算在内源CHO位点NW_003618207.1、Rosa26和Neu3位点的ZFN活性分别为大约16％、31％和41％。

在验证ZFN之后，在CHO基因组中的这三个不同的位点引入包含用于hAAVS1ZFN对的识别序列的着陆区：参考序列IDNW_003618207.1、Rosa26和Neu3。将供体质粒构建为含有AAVS1ZFN识别序列，所述序列侧接对于参考序列IDNW_003618207.1、Rosa26和Neu3序列的5’和3’同源臂，如图1所示。

将如图1中所描绘的质粒供体与靶向参考序列IDNW_003618207.1碱基对12931-12970、Rosa26或Neu3的ZFN共转染到悬浮适应的CHOK1细胞系中。转染后三天，通过CEL-ISurveyorMutationDetectionAssay来确认在转染池中的各NW_003618207.1、Rosa26和Neu3位点上的ZFN切割效率。

得到阳性CEL-I结果之后，实施接头PCR以确定在转染池中是否已发生AAVS1着陆区进入三个特定位置的靶向整合。使用与恰好在左(5′)同源臂(“LHA”)或右(3′)同源臂(“RHA”)外部的CHO基因组DNA同源的引物和与AAVS1着陆区同源的互补引物来实施接头PCR，如图2中所示。阳性PCR产物表明对于各位置而言，ZFN介导的靶向整合(TI)事件存在于转染池中。

实施例2：ZFN识别着陆区的活性

在实施例1中制备的接头PCR阳性转染池是通过有限稀释克隆法克隆的单细胞。筛选单细胞克隆用于通过如实施例1中所述的接头PCR使着陆区在NW_003618207.1、Rosa26和Neu3整合。对阳性克隆进行扩展和分析。

将表现人AAVS1着陆区整合到在参考序列IDNW_003618207.1和Rosa26位置的两个等位基因上的克隆进行分离并扩展。将表现AAVS1着陆区(整合到)在Neu3位置的单一等位基因上的克隆进行分离并扩展。随后使用人AAVS1ZFN对将AAVS1TI克隆单独转染。转染后三天，在上述的TI克隆中的hAAVS着陆区进行CEL-I测定或PCR和插入/缺失的直接测序，以评估在外源着陆区中的AAVS1ZFN切割效率。侧接AAVS1ZFN识别序列的正向引物和反向引物在三个位置(jPCRF3和R2，如图2中所描绘)整合。对PCR产物直接测序或使用CEL-I核酸酶处理并通过凝胶电泳分析。

当对PCR产物直接测序时，在参考序列IDNW_003618207.1位置的结果证实52％的平均hAAVS1ZFN切割效率。当使用Cel1测定时，在Rosa26位置表现着陆区的制备的克隆证实18％的平均hAAVS1ZFN切割效率。通过对PCR产物直接测序，在Neu3位置表现着陆区的制备的克隆证实16％的平均hAAVS1ZFN切割效率。在含有在Neu3位置整合的着陆区的克隆中观察到细胞生长和生存力的不利表型改变，其可解释为当与Rosa26和参考序列IDNW_003618207.1相比较时的较低的效率。

这些结果证实了可在精确位置将外源ZFN识别序列整合到CHO基因组中，以生成人工改造的着陆区。

实施例3：在ZFN识别着陆区的重组蛋白的整合

可基于所需的表达特征和/或整合的容易来确定用于插入的CHO基因组位置，例如参考序列IDNW_003618207.1。可基于所选的基因组位置来选择或设计靶向核酸内切酶，例如ZFN。如实施例1和2中所述的，可制备包括含有一个或更多个识别序列的合适的着陆区、报道分子和/或选择标记及一个或更多个调节元件的质粒。可将所述质粒连同靶向核酸内切酶一起插入CHO细胞中，并可使用例如PCR、测序或DNA印迹的方法来确认着陆区的整合。

随后可制备重组蛋白表达构建物，用于在着陆区位点的靶向整合。靶向整合(“有效负载”)所需的序列可包括两个或更多个独立的表达盒、一个或两个用于感兴趣的重组蛋白(一种或更多种)，例如IgG重链和/或IgG轻链，且另一用于选择性标记。有效负载可以侧接5’和3’同源臂，以允许通过使用靶向核酸内切酶(如一对ZFN)的同源介导法进行整合。或者，有效负载可以侧接靶向核酸内切酶识别序列(即ZFN识别序列)或位点特异性重组酶识别序列，以允许有效负载分别经由黏性末端的直接连接或重组酶介导的盒式交换(RMCE)进行靶向整合。图3提供了示意图。随后可筛选细胞以确认整合在靶向位点发生，而并非随机发生。随后可将所述细胞用于一种或多种重组蛋白的生产。

预期这些分析的结果用以证明当使用可利用的选择方法时，靶向整合以大于随机整合的速率发生，并且与其中重组蛋白被随机整合的细胞相比较，重组蛋白的表达是稳定的、同源性的，并以合适的水平提供。

Claims

1.分离的细胞，其包含至少一个位于基因组DNA中的外源核酸序列，所述基因组DNA在表2中列举的至少一个基因组位置之内或邻近在表2中列举的至少一个基因组位置的，其中各外源核酸序列包含至少一个用于多核苷酸修饰酶的识别序列。

2.权利要求1所述的分离的细胞，其中所述细胞是CHO细胞。

3.权利要求1或2所述的分离的细胞，其中所述至少一个识别序列包含不内源存在于所述细胞的基因组中的核酸序列。

4.权利要求1所述的分离的细胞，其中所述多核苷酸修饰酶选自靶向核酸内切酶、位点特异性重组酶和它们的组合。

5.权利要求4所述的分离的细胞，其中所述靶向核酸内切酶选自锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物，和人工靶向DNA双链断裂诱导剂。

6.权利要求4所述的分离的细胞，其中所述位点特异性重组酶选自λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。

7.前述权利要求中任一项所述的分离的细胞，其中第一识别序列由第一ZFN对识别。

8.权利要求7所述的分离的细胞，其中第二识别序列由不同于所述第一ZFN对的第二ZFN对识别。

9.权利要求7或8所述的分离的细胞，其中所述第一和所述第二ZFN对选自hSIRT、hRSK4和hAAVS1。

10.前述权利要求中任一项所述的分离的细胞，其中所述外源核酸序列还包含至少一个选择性标记序列、至少一个报道序列、至少一个调节控制序列元件或它们的组合。

11.用于制备包含至少一个外源核酸序列的细胞的方法，所述外源核酸序列包含至少一个用于多核苷酸修饰酶的识别序列，所述方法包括

a)将至少一种靶向核酸内切酶引入细胞中，所述靶向核酸内切酶被靶向位于在表2中列举的基因组位置之内或邻近在表2中列举的基因组位置的序列，

b)将包含所述外源核酸的至少一个供体多核苷酸引入所述细胞中，所述外源核酸侧接(i)与所述靶向基因组位置具有实质的序列同一性的序列或(ii)所述靶向核酸内切酶的识别序列；和

c)在使得所述外源核酸被整合到所述细胞的基因组中的条件下维持所述细胞。

12.权利要求11所述的方法，其中所述细胞是CHO细胞。

13.权利要求11或12所述的方法，其中通过同源介导法将所述外源核酸整合到所述基因组中。

14.权利要求11或12所述的方法，其中通过直接连接法将所述外源核酸整合到所述基因组中。

15.权利要求11-14中任一项所述的方法，其中所述靶向核酸内切酶选自锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物，和人工靶向DNA双链断裂诱导剂。

16.用于再靶向细胞以生产至少一种重组蛋白的方法，所述方法包括：

a)提供包含用于多核苷酸修饰酶的至少一个外源识别序列的细胞，所述外源识别序列位于在表2中列举的至少一个基因组位置之内或邻近在表2中列举的至少一个基因组位置；

b)将(i)包含侧接第一和第二序列的编码重组蛋白的序列的至少一个表达构建物，和(ii)识别所述细胞中的所述至少一个外源识别序列的至少一种多核苷酸修饰酶引入所述细胞中；和

c)在使得编码所述重组蛋白的序列被整合到所述细胞的基因组中的条件下维持所述细胞。

17.权利要求16所述的方法，其中所述细胞是CHO细胞。

18.权利要求16或17所述的方法，其中所述细胞的所述至少一个外源识别序列是靶向核酸内切酶识别位点；所述表达构建物的第一和第二序列是与靠近所述细胞中的外源识别序列的染色体序列具有实质的序列同一性的序列；且所述至少一种多核苷酸修饰酶是靶向核酸内切酶。

19.权利要求16或17所述的方法，其中所述细胞的所述至少一个外源识别序列是靶向核酸内切酶识别位点；所述表达构建物的第一和第二序列各自是所述靶向核酸内切酶的识别序列；且所述至少一种多核苷酸修饰酶是靶向核酸内切酶。

20.权利要求18或19所述的方法，其中所述靶向核酸内切酶选自锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物、和人工靶向DNA双链断裂诱导剂。

21.权利要求16或17所述的方法，其中所述细胞的所述至少一个外源识别序列是位点特异性重组酶识别位点；所述表达构建物的第一和第二序列各自是位点特异性重组酶识别序列；且所述至少一种多核苷酸修饰酶是位点特异性重组酶。

22.权利要求21所述的方法，其中所述位点特异性重组酶选自λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。

23.权利要求16-22中任一项所述的方法，其中将所述编码重组蛋白的序列与至少一个表达控制序列可操作地连接。

24.权利要求16-23中任一项所述的方法，其中所述表达构建物还包含至少一个选择性标记序列、至少一个报道序列、至少一个调节控制序列元件，或它们的组合。

25.权利要求16-24中任一项所述的方法，其中将所述细胞维持在用于所述至少一种重组蛋白表达的条件下。

26.用于再靶向细胞以生产重组蛋白的试剂盒，所述试剂盒包含权利要求1至10中任一项所述的细胞，以及对应于所述识别序列的多核苷酸修饰酶，和用于编码所述感兴趣的重组蛋白的序列插入的构建物，其中所述构建物还包含一对侧翼序列，所述侧翼序列对应于所述识别序列和/或侧接所述识别序列的所述基因组DNA。

27.权利要求26所述的试剂盒，其还包含用于完成编码所述重组蛋白的所述序列的靶向整合的说明书。

28.权利要求26或27所述的试剂盒，其中所述多核苷酸修饰酶是靶向核酸内切酶，其选自锌指核酸酶(ZFN)、大范围核酸酶、类转录激活因子效应物核酸酶(TALEN)、CRIPSR核酸内切酶、I-TevI核酸酶或相关的单体杂合物，和人工靶向DNA双链断裂诱导剂。

29.权利要求26或27所述的试剂盒，其中所述多核苷酸修饰酶是位点特异性重组酶，其选自λ整合酶、Cre重组酶、FLP重组酶、γ-δ解离酶、Tn3解离酶、ФC31整合酶、Bxb1-整合酶和R4整合酶。