CN112424362A

CN112424362A - 使用来自青鳉属的转座酶将核酸构建体整合入真核细胞

Info

Publication number: CN112424362A
Application number: CN202080003848.3A
Authority: CN
Inventors: 杰里米·米舒尔; 斯瑞达·戈文达拉詹; 玛吉·李
Original assignee: Dna20 Co ltd
Current assignee: Dna20 Co ltd
Priority date: 2019-04-08
Filing date: 2020-04-07
Publication date: 2021-02-26
Anticipated expiration: 2040-04-07
Also published as: JP2022527017A; US11401521B2; IL287089B1; US11060098B2; US20230103199A1; US20210292773A1; US20200318121A1; BR112021020143A2; JP7418470B2; IL287089B2; IL301620A; WO2020210239A1; SG11202107416PA; CN118667845A; CA3125047A1; AU2020272668B2; EP3953481A4; CN112424362B; KR20210143897A; AU2020272668A1

Abstract

本发明提供了用于异源基因的高表达的多核苷酸载体。一些载体还包含进一步改善表达的新型转座子和转座酶。进一步公开了可在基因转移系统中使用，以将核酸稳定地引入细胞DNA中的载体。基因转移系统可以用于例如基因表达、生物加工、基因治疗、插入诱变，或基因发现等方法中。

Description

使用来自青鳉属的转座酶将核酸构建体整合入真核细胞

相关申请的交叉引用

本申请要求于2019年4月8日提交的美国临时申请号62/831,092、2019年7月12日提交的美国临时申请号62/873,338，以及2020年2月27日提交的美国临时申请号62/982,186号的优先权；出于所有目的通过引用将每一篇的全部内容整体并入本文。

对序列表的引用

本申请涉及名为546916SEQLST.TXT的txt文件中公开的序列，该文件创建于2020年4月6日，为2,254,295字节，通过引用并入。

背景技术

整合到细胞基因组中的多核苷酸上编码的基因的表达水平取决于多核苷酸内序列元件的构型。整合的效率及从而整合到每个基因组中的多核苷酸的拷贝数，以及发生整合的基因组基因座也影响在多核苷酸上编码的基因的表达水平。通常可以通过将多核苷酸置于转座子中来提高多核苷酸整合到靶细胞基因组中的效率。

转座子包含被转座酶识别的两个末端。转座酶作用于转座子，以将其从一个DNA分子中去除，然后整合到另一个DNA分子中。两个转座子末端之间的DNA与转座子末端一起通过转座酶转座。本文的“合成转座子”指的是异源DNA，该异源DNA侧接一对转座子末端，以使其被转座酶识别并转座。将合成转座子和相应的转座酶引入真核细胞的细胞核中可能导致转座子转座到细胞的基因组中。这些结果是有用的，因为它们提高了转化效率，并且因为它们可以提高整合的异源DNA的表达水平。因此，本领域需要高活性转座酶和转座子。

通过piggyBac类转座酶的转座是完全可逆的。转座子最初整合在受体DNA分子中的整合靶序列上，在此过程中，靶序列在转座子反向末端重复序列(ITR)的每个末端处复制。随后的转座去除了转座子并使受体DNA恢复其先前的序列，即同时去除靶序列复本和转座子。但是，这不足以从已经整合了转座子的基因组中除去转座子，因为转座子很有可能从第一整合靶序列中切除而转座到基因组中的第二整合靶序列中。另一方面，缺乏整合(或转座)功能的转座酶可以从第一靶序列中切除转座子，但不能整合到第二靶序列中。因此，整合缺陷转座酶可用于逆转转座子的基因组整合。

转座酶的一种应用是用于工程真核基因组。这种工程可能需要将一个以上的不同多核苷酸整合到基因组中。这些整合可以是同时的或顺序的。当通过第一转座酶将包含第一异源多核苷酸的第一转座子转座入基因组之后是通过第二转座酶将包含第二异源多核苷酸的第二转座子转座入同一基因组时，有利的是第二转座酶不能识别并转座第一转座子。这是因为多核苷酸序列在基因组内的位置影响了在所述多核苷酸上编码的基因的可表达性，因此，第二转座酶将第一转座子转座到不同的染色体位置可以改变在第一异源多核苷酸上编码的任何基因的表达特性。因此，需要一组转座子及其相应的转座酶，其中该组中的转座酶仅识别和转座其相应的转座子，而不识别和转座该组中的任何其他转座子。

自1983年发现以来，来自尺蛾(looper moth)Trichoplusiani的piggyBac转座子和转座酶已被广泛用于将异源DNA插入来自许多不同生物的靶细胞的基因组中。piggyBac系统是一种特别有价值的转座酶系统，因为：“其在广泛的生物体中具有活性，其能够高效整合多个大型转基因，其能够在不损失活性的情况下向转座酶中添加结构域，且从基因组中切除而不会留下足迹突变”(Doherty et al.,Hum.Gene Ther.23,311-320(2012),于p.312,LHC,

2)。

piggyBac系统的价值和多功能性已经激发了巨大的、识别其它类似于piggyBac的活性转座子(通常称为piggyBac类元件，或PLE)的努力，但是这些努力在很大程度上没有成功。“由于piggyBac是用于转基因的最受欢迎的转座子之一，因此寻找新的活性PLE引起了很多关注。然而，迄今为止，仅报道了一些具有活性的PLE。”(Luo et al.,BMC MolecularBiology 15,28(2014)http://www.biomedcentral.com/1471-2199/15/28.12页中的第4页,RHC,

1“Discussion”)。

尽管序列数据库中存在大量的piggyBac转座子和转座酶的同源物，但由于其大多数均被其宿主灭活以避免对宿主有害的活动，因此很少识别出具有活性的同源物；如以下摘录所述：“相关的piggyBac转座元件已在植物、真菌和动物(包括人类)中发现[125]，尽管它们可能由于突变而失活。”(Munoz-Lopez和Garcia-Perez，Current Genomics 11，115-128(2010)，于p.120，RHC，

1)。“据信转座子会侵入基因组，然后在进化过程中遍及整个基因组。转座子的‘自私’的移动性对宿主有害；因此，它们通过自然选择被宿主消除或灭活。由于缺乏保守选择，甚至无害的转座子最终也会失去活性。因此，一般而言，转座子在宿主中的寿命很短，它们随后成为基因组中的化石。”(Hikosaka et al.,Mol.Biol.Evol.24,2648-3656(2007)于p.2648,LHC,

1“Introduction”)。“基因组中转座元件的频繁移动是有害的”(Belancio et al.,2008；Deininger&Batzer,1999；Le Rouzic&Capy,2006；Oliver&Greene,2009)。结果，大多数转座元件在入侵新宿主后不久便被灭活。”(Luo et al.,Insect Science 18,652-662(2011)于p.660,LHC,

1)。

已经发现三类piggyBac类元件：(1)与来自尺蛾的原始piggyBac非常相似的那些(在核苷酸水平上通常>95％相同)、(2)中等相关的那些(通常在氨基酸水平上30％-50％相同)，和(3)非常远地相关的那些(Wu et al.,Insect Science 15,521-528(2008)于p.521,RHC.

2)。

与尺蛾转座酶高度相关的piggyBac类转座酶已经被几个研究小组描述。它们非常保守。在果蝇桔小实蝇(Bactrocera dorsalis)的三个不同品系中已报道了与原始的piggyBac非常相似的转座酶序列(95-98％核苷酸同一性)(Handler&McCombs，InsectMolecular Biology 9，605-612，(2000))。在其它桔小实蝇(Bactrocera)属中也发现了相对保守的piggyBac序列(Bonizzoni et al.,Insect Molecular Biology 16,645-650(2007))。两种夜蛾(谷实夜蛾(Helicoverpazea)和棉铃虫(Helicoverpaarmigera))以及其它品系的尺蛾Trichoplusiani拥有piggyBac转座酶的基因组拷贝，该拷贝与原始piggyBac序列具有93-100％的核苷酸同一性(Zimowska&Handler,Insect Biochemistry andMolecular Biology,36,421-428(2006))。Zimowska&Handler还在两个棉铃虫(Helicoverpa)属中同时发现piggyBac转座酶的更显著的突变(和截短)的版本的多个副本以及在黏虫Spodpterafrugiperda中发现一个同系物。这些小组均未尝试测量这些转座酶的任何活性。Wu等(2008)，同上，报道了从银锭夜蛾(Macdunnoughiacrassisigna)中分离出与尺蛾piggyBac具有99.5％序列同一性的转座酶。他们还证明了该转座子和转座酶可以测量切除和转座，因此具有活性。他们的讨论总结了以前的结果，如下所示：“据报道的其它密切相关的IFP2类序列存在于各种桔小实蝇(Bactrocera)属、尺蛾(T.ni)基因组、棉铃虫(Heliocoverpaarmigera)和H.zea中(Handler&McCombs，2000；Zimowska&Handler，2006；Bonizzoni等，2007)。这些序列是piggyBac类元件的部分片段，其中的大多数通过积累随机突变而被截断或灭活。”(Wu et.al.,Insect Science 15,521-528(2008)于p.526,LHC,

3.)。

已证明，仅通过观察序列，难以识别出与尺蛾酶中等相关的活性piggyBac类转座酶。尚未证明已知的必需特征(全长开放阅读框、催化性天冬氨酸残基和完整的ITR)的存在可预测活性。“在基因组序列数据的计算分析中已记录了真核生物中多种多样的PLE[引文省略]。但是，几乎没有分离出具有与功能一致的、具有完整结构的元件，只有原始的IFP2piggyBac被开发为用于常规转基因的载体。”(Wu et al.,Genetica 139,149-154(2011),at p.152,RHC,

2)。南京大学的Wu等人的小组(“南京小组”)在6年的时间内发表了多篇论文，每篇论文都识别了中等相关的piggyBac同源物。尽管南京小组在2008年表明他们可以通过银锭夜蛾(Macdunnoughiacrassisigna)的相应的转座酶来测量银锭夜蛾转座子的切除和转座，并且在随后的每篇论文中，他们都表示希望识别出新型的活性piggyBac类转座酶，但他们仅示出了切除活性，并且仅为来自棉蚜(Aphis gossypii)的一种转座酶。他们得出结论，这种转座酶的有用性“仍有待进一步实验探索”(Luo et.al.2011,p.660,LHC

2“Discussion”)。但是，在南京小组发表的其它从一系列其它昆虫中识别出piggyBac类序列的论文中没有显示发现任何活性。堪萨斯州立大学的一个小组发表了三篇识别其他推定的活性piggyBac类转座酶的论文。这些论文均未报告任何活性数据。Wang et al.,Insect Molecular Biology 15,435-443(2006)在烟青虫Heliothisvirescens的基因组中发现了piggyBac类序列的多个拷贝。其中许多具有明显的突变或缺失，导致作者不认为它们是候选的活性转座酶。Wang et.al.,Insect Biochemistry and Molecular Biology38,490-498(2008)报道了红色面粉甲虫Triboliumcastaneum的基因组中的30多个piggyBac类序列。他们得出结论：“由于推定的转座酶编码区中存在多个终止密码子和/或得失位，因此此处识别的所有TcPLE(TcPLE1除外)显然都是有缺陷的。”即使对于TcPLE1，“也没有证据支持最近或当前的迁移(mobilization)事件”(第492页，第3.1节，

2&3)。Wang et al.(2010)使用PCR从棉红铃虫Pectinophoragossypiella中识别piggyBac类序列。他们再次发现了许多明显有缺陷的拷贝，以及具有作者认为与活性一致的特征的一种转座酶(第179页，RHC，

2)。但是没有找到表明转座酶活性的跟进报告。其他小组也试图识别具活性的piggyBac类转座酶。这些报告的结论是：已识别出的piggyBac类元件正在接受活性测试，但随后没有成功的报告。例如，Sarkar et.al.(2003)通过重新陈述新型的具活性的piggyBac类的转座子的价值，并描述了他们为识别新型的具活性的piggyBac类的转座子而持续作出的努力而结束了他们的讨论：原始的T.ni piggyBac元件在各种昆虫中的迁移性表明，piggyBac家族转座子可能在除昆虫以外的生物体中被证明是有用的遗传工具。我们目前正在从An.Gambiae(AgaPB1)分离完整的piggyBac元件，以测试其在各种生物中的迁移性。”((Mol.Gen.Genomics 270,173-180于p.179,LHC,

1)。该推定的活性转座酶似乎没有进一步的公开报道。Xu et al.分析家蚕基因组以寻找piggyBac类序列(Xu et al.,Mol Gen Genomics276,31-40(2006))。他们发现了98个piggyBac类序列，并对推定的转座酶序列和ITR序列进行了各种计算分析。他们得出结论：“我们已经从家蚕(B.mori)中分离出几个完整的piggyBac类元件，目前正在测试其活性以及将其用作转化载体的可行性。”(p38，RHC，

3)。这些推定的活性转座酶似乎没有进一步的公开报道。

四篇发表的论文讨论了第三类远相关的piggyBac类转座酶。其中的前三个仅展示了切除部分的反应，并承认这与完全转座不同。Hikosaka et.al.,Mol Biol Evol 24,2648-2656(2007)：“在本研究中，我们证明Xtr-Uribo2 Tpase对靶标转座子具有切除活性，尽管目前没有证据表明切除的靶标整合入基因组。”(第2654页，RHC，

2)。Luo et.al.,Insect Science 18,652-662(2011)报告：“这些结果证明Ago-PLE1.1转座酶在介导元件的剪切和粘贴动作的第一步中的活性”(第658页，LHC，

1)。Daimon et.al.,Genome 53,585-593(2010)讨论了转座酶系统yabusabe-1和yabusabe-W。虽然Daimon等报道了通过PCR检测切除事件，他们还报告了筛选大约100,000个回收的质粒以用于yabusame-1和yabusame-W的切除，而未从元件已切除的之中识别出一个回收的质粒。与此相对，Daimon报告了野生型piggyBac酶的转座频率约为0.3-1.4。因此，从Daimon等的报道看来，yabusabe-1或yabusabe-W的切除频率小于0.001％(1：100,000)。这比野生型piggyBac酶所能达到的水平至少低2-3个数量级，与piggyBac转座酶的基因工程变体(其转座量比野生型高十倍)相比更低。来自Daimon等的yabasume-1的隐含转座频率(implied transposition frequency)也比哺乳动物细胞中的随机整合频率(约为0.1％的量级)低两个数量级。因此，Daimon等表明yabusame-1本质上是不活跃的，不能用作基因工程工具。这样的观点可能潜在于Daimon等自己的结论中：“尽管我们可以在基于PCR的高度灵敏的测定中检测出切除事件，但我们的数据表明这两种元件几乎都失去了切除活性。”这也表明，用于显示Uribo2和Ago-PLE1.1活性的基于PCR的切除测定不能预测有助于将异源DNA插入靶细胞的基因组的转座活性。与来自尺蛾(Trichoplusia Ni)的原始piggyBac转座酶远相关的第三类转座酶中唯一报道的具有完全活性(既能切除又能整合)的piggyBac类转座酶来自蝙蝠Myotis lucifugus(Mitra et.al.,Proc.Natl.Acad.Sci.110,234-239(2013))。这些作者使用酵母系统来证明蝙蝠转座酶的切除和转座活性。这里描述的所有工作表明：即使存在大量的候选序列，也很难识别出具完全活性的piggyBac类转座酶。因此，需要新的piggyBac类转座子及其相应的转座酶。

发明内容

可通过将表达多核苷酸置于一对转座子末端(由转座酶识别和转座的序列元件)之间，以改善稳定整合到靶细胞基因组中的多核苷酸构建体的异源基因表达。可以通过转座酶从一个DNA分子中切除插入在一对转座子末端之间的DNA序列，并将其插入第二个DNA分子中。公开了一种新颖的piggyBac类转座子-转座酶系统，该系统不衍生自尺蛾Trichoplusiani。它源自青鳉Oryziaslatipes(Oryzias转座酶和Oryzias转座子)。Oryzias转座子包含作用为转座子末端的序列，且该序列可与识别并作用于这些转座子末端的相应Oryzias转座酶一起使用，作为稳定地将核酸引入细胞DNA的基因转移系统。本发明的基因转移系统可以用于包括但不限于以下方法：真核细胞的基因组工程、异源基因表达、基因治疗、细胞治疗、插入诱变，或基因发现。

可以使用包含编码Oryzias转座酶的开放阅读框的多核苷酸来进行转座，所述Oyzias转座酶的氨基酸序列与SEQ ID NO：782至少90％相同，可操作地连接至异源启动子。异源启动子可以在真核细胞中有活性。异源启动子可以在哺乳动物细胞中具有活性。可以使用包含编码Oryzias转座酶的开放阅读框的多核苷酸制备mRNA，所述Oyzias转座酶的氨基酸序列与SEQ ID NO：782至少90％相同，可操作地连接至在体外转录反应中有活性的异源启动子。相对于SEQ ID NO：782的序列，转座酶可包含如表1的C列和D列中所示的突变。相对于SEQ ID NO：782的序列，转座酶可在选自22、124、131、138、149、156、160、164、167、171、175、177、202、206、210、214、253、258、281、284、361、386、400、408、409、455、458、467、468、514、515、524、548、549、550和551的氨基酸位置处包含突变。相对于SEQ ID NO：782的序列，转座酶可包含选自E22D、A124C、Q131D、L138V、F149R、L156T、D160E、Y164F、I167L、A171T、R175K、K177N、T202R、I206L、I210L、N214D、V253I、V258L、I281F、A284L、L361I、V386I、M400L、S408E、L409I、F455Y、V458L、V467I、L468I、A514R、V515I、S524P、R548K、D549K、D550R和S551R的突变，该转座酶可选地包含选自该组的至少2、3、4或5个。转座酶的氨基酸序列可以选自SEQ ID NO：782或805-908。转座酶可切除或转座来自SEQ ID NO：41的转座子。转座酶的切除活性或转座活性是SEQ ID NO：782的活性的至少5％或10％。可以选择转座酶开放阅读框的密码子用于哺乳动物细胞表达。分离的mRNA可以编码多肽，其氨基酸序列与SEQID NO：782至少90％相同，并且其中所述mRNA序列在该mRNA和SEQ ID NO：781之间的相应位置处相对于SEQ ID NO：781具有至少10个同义密码子差异，可选地，其中mRNA中相应位置的密码子被选择用于哺乳动物细胞表达。编码转座酶的开放阅读框可进一步编码与转座酶融合的异源核定位序列。编码转座酶的开放阅读框可以进一步编码与转座酶融合的异源DNA结合域(例如衍生自Crispr Cas系统、锌指蛋白，或TALE蛋白)。非天然存在的多核苷酸可以编码多肽，该多肽的序列与SEQ ID NO：782至少90％相同。

Oryzias转座子包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8。转座子可进一步在异源多核苷酸的一侧上包含与SEQ ID NO：12至少90％相同的序列，在另一侧上包含与SEQ ID NO：15至少90％相同的序列。异源多核苷酸可包含在真核细胞中有活性的异源启动子。所述启动子可以可操作地连接至以下至少一个或多个：i)开放阅读框；ii)编码选择性标记的核酸；iii)编码反向选择性标记的核酸；iii)编码调节蛋白的核酸；iv)编码抑制性RNA的核酸。异源启动子可以包含选自SEQ ID NO：325-409的序列。异源多核苷酸可包含在真核细胞中有活性的异源增强子。异源增强子可以选自SEQ ID NO：304-324。异源多核苷酸可包含在真核细胞中可剪接(spliceable)的异源内含子。异源内含子的核苷酸序列可以选自SEQ ID NO：412-472。异源多核苷酸可包含绝缘子序列(insulator sequence)。绝缘子的核酸序列可以选自SEQ ID NO：286-292。异源多核苷酸可包含两个开放阅读框，每个阅读框可操作地连接至单独的启动子。异源多核苷酸可包含选自SEQ ID NO：596-779的序列。异源多核苷酸可包含或编码选择性标记。该选择性标记可以选自谷氨酰胺合成酶、二氢叶酸还原酶、嘌呤霉素乙酰转移酶、杀稻瘟素乙酰转移酶、潮霉素B磷酸转移酶、氨基糖苷3'-磷酸转移酶，和荧光蛋白。本发明的一个实施方案是一种真核细胞，其基因组包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8。该细胞可以是动物细胞、哺乳动物细胞、啮齿动物细胞，或人细胞。

可通过以下方式将转座子整合到真核细胞的基因组中：(a)将包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8的转座子引入细胞中，(b)将转座酶引入细胞中，该转座酶的序列与SEQ ID NO：782至少90％相同，其中转座酶将转座子转座以产生包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8的基因组。可以将转座酶作为编码转座酶的多核苷酸引入，该多核苷酸可以是mRNA分子或DNA分子。转座酶可以作为蛋白质引入。异源多核苷酸也可以编码选择性标记，并且该方法可以进一步包括选择包含选择性标记的细胞。细胞可以是动物细胞、哺乳动物细胞、啮齿动物细胞，或人细胞。人细胞可以是人免疫细胞，例如B细胞或T细胞。异源多核苷酸可以编码嵌合抗原受体。可以从整合到真核细胞基因组中的转座子表达多肽。多肽可以被纯化。可以将纯化的多肽掺入药物组合物中。

附图说明

图1：Oryzias转座子的结构。Oryzias转座子包含侧接异源多核苷酸的左转座子末端和右转座子末端。左转座子末端包括(i)左靶序列，其通常为5'-TTAA-3'，尽管许多其他靶序列也较低频率地被使用(Li et al.,2013.Proc.Natl.Acad.Sci vol.110,no.6,E478-487)；(ii)左ITR(例如SEQ ID NO：7)和(iii)(可选地)其它左转座子末端序列(例如SEQ IDNO：12)。右转座子末端包含(i)(可选地)其它右转座子末端序列(例如SEQ ID NO：15)；(ii)右ITR(例如SEQ ID NO：8)，其为左ITR的完美或不完美重复，但与左ITR的方向相反；以及(iii)右靶序列，其通常与左靶序列相同。

具体实施方式

5.1定义

除非上下文另外明确指出，否则单数形式的“一”、“一个”和“该”的使用包括复数形式。因此，例如，对“多核苷酸”的提及包括多个多核苷酸，对“底物”的提及包括多个这样的底物，对“变体”的提及包括多个变体，等等。

诸如“连接”、“附接”、“链接”和“结合”的术语在本文中可互换使用，并且包括直接连接及间接连接、附接、链接或结合，除非上下文另外明确指出。在列举值的范围的情况下，应当理解还具体公开了该范围的所列举的上限和下限之间的每个中间整数值及其每个分数，以及这些值之间的每个子范围。任何范围的上限和下限可以独立地包括在该范围内或从该范围中排除，并且包含上下限的其中一个、两个或两个都不包含的每个范围也包括在本发明内。在所讨论的值具有固有极限的情况下(例如其中组分可以以0至100％的浓度存在，或其中水溶液的pH可以在1至14的范围内)，具体地公开了这些固有极限。在明确列举一个值的情况下，应当理解，与所述值大约相同数量的值也在本发明的范围内。在公开了组合的情况下，该组合的元素的每个子组合也被具体公开，并且在本发明的范围内。相反，在分别公开不同的要素或要素组的情况下，也公开了其组合。在本发明的任何要素被公开为具有多个替代方案的情况下，在此还公开了其中每个替代方案被单独排除或与其他替代方案以任何组合被排除的发明的例子。发明的一个以上的要素可以具有这样的排除，并且在此公开了具有这样的排除的要素的所有组合。

除非本文另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。Singleton,et al.,Dictionary ofMicrobiology and Molecular Biology，第二版，John Wiley and Sons,New York(1994),和Hale&Marham,The Harper Collins Dictionary of Biology,Harper Perennial,NY,1991为技术人员提供了具有本发明中使用的许多术语的通用词典。尽管与本文描述的方法或材料相似或等同的任何方法和材料都可以用于本发明的实践或测试中，但是描述的是优选的方法和材料。除非另有说明，否则核酸以5'至3'方向从左至右书写；氨基酸序列分别以氨基至羧基的方向从左至右书写。通过整体参考说明书，更完整地定义下文紧接定义的术语。

多核苷酸的“构型”是指多核苷酸内的功能序列元件，以及那些元件的顺序和方向。

术语“相应的转座子”和“相应的转座酶”用于指示转座酶和转座子之间的活性关系。转座酶转座其相应的转座子。许多转座酶可能与单个转座子相对应。转座子由其相应的转座酶转座。许多转座子可能与一个转座酶相对应。

术语“反向选择性标记(counter-selectable marker)”是指赋予宿主细胞选择性缺陷的多核苷酸序列。反向选择性标记的例子包括sacB、rpsL、tetAR、pheS、thyA、gata-1、ccdB、kid和barnase(Bernard,1995,Journal/Gene,162:159-160；Bernard et al.,1994.Journal/Gene,148:71-74；Gabant et al.,1997,Journal/Biotechniques,23:938-941；Gababt et al.,1998,Journal/Gene,207:87-92；Gababt et al.,2000,Journal/Biotechniques,28:784-788；Galvao和de Lorenzo,2005,Journal/Appl EnvironMicrobiol,71:883-892；Hartzog et al.,2005,Journal/Yeat,22:789-798；Knipfer etal.,1997,Journal/Plasmid,37:129-140；Reyrat et al.,1998,Journal/Infect Immun,66:4011-4017；Soderholm et al.,2001,Journal/Biotechniques,31:306-310,312；Tamura et al.,2005,Journal/Appl Environ Microbiol,71:587-590；Yazynin et al.,1999,Journal/FEBS Lett,452:351-354)。反向选择性标记通常会在特定情况下赋予其选择劣势。例如，它们可以对可添加到宿主细胞环境中的化合物赋予敏感性，或者它们可以杀死具有某种基因型的宿主而不杀死具有不同基因型的宿主。不会向带有反向选择性标记的细胞赋予选择性不利条件的条件称为“允许(permissive)”。确实在带有反向选择性标记的细胞上赋予选择性不利条件的条件称为“限制性(restrictive)”。

术语“偶联元件”或“翻译偶联元件(translational coupling element)”是指允许第一多肽的表达与第二多肽的表达连接的DNA序列。内部核糖体进入位点元件(IRES元件)和顺式作用水解酶元件(CHYSEL元件)是偶联元件的实例。

术语“DNA序列”、“RNA序列”，或“多核苷酸序列”是指连续的核酸序列。该序列可以是长度为2至20个核苷酸的寡核苷酸至包括成千上万个碱基对的全长基因组序列。

术语“表达构建体”是指设计为转录RNA的任何多核苷酸。例如，包含至少一个启动子的构建体，该启动子为以下，或与以下可操作地连接：下游基因、编码区域，或多核苷酸序列(例如，编码多肽或蛋白质的cDNA或基因组DNA片段，或RNA效应物分子，例如反义RNA，形成三链体的RNA，核酶，人工选择的高亲和力RNA配体(适配体)，双链RNA，例如包含茎环或发夹dsRNA的RNA分子，或双指或多指dsRNA或微RNA，或任何RNA)。“表达载体”是包含可与第二多核苷酸可操作连接的启动子的多核苷酸。将表达构建体转染或转化成受体细胞使该细胞表达由表达构建体编码的RNA效应物分子、多肽，或蛋白质。表达构建体可以是基因工程的质粒、病毒、重组病毒或源自例如噬菌体、腺病毒、腺伴随病毒、逆转录病毒、慢病毒、痘病毒或疱疹病毒的人工染色体。这样的表达载体可以包括来自细菌、病毒或噬菌体的序列。这样的载体包括染色体、附加(episomal)和病毒衍生的载体，例如衍生自细菌质粒、噬菌体、酵母附加体、酵母染色体元件和病毒的载体，还包括衍生自其组合的载体，例如衍生自质粒和噬菌体遗传元件、黏粒，和噬粒的那些。表达构建体可以在活细胞中复制，也可以合成制备。针对本申请的目的，术语“表达构建体”、“表达载体”、“载体”和“质粒”可互换地用于在一般说明性意义上说明本发明的应用，并且无意于将本发明限制至特定类型的表达构建体。

术语“表达多肽”是指由表达构建体上的基因编码的多肽。

术语“表达系统”是指用于产生一种或多种由多核苷酸编码的基因产物的任何体内或体外生物系统。

“基因”是指包括启动子和从其表达为RNA或蛋白质的序列的转录单位。除其他可能性外，待表达的序列可以是基因组或cDNA。可能存在或可能不存在其他元件，例如内含子和其他调控序列。

“基因转移系统”包括载体或基因转移载体，或包含要转移的基因的多核苷酸，该基因被克隆到载体中(“基因转移多核苷酸”或“基因转移构建体”)。基因转移系统还可以包括其他特征以促进基因转移的过程。例如，基因转移系统可以包含载体和脂质或病毒包装混合物，以使第一多核苷酸能够进入细胞，或者其可以包含多核苷酸，该多核苷酸包括转座子和编码相应转座酶以增强转座子的生产性基因组整合(productive genomicintegration)的第二多核苷酸序列。基因转移系统的转座酶和转座子可以在相同的核酸分子上，也可以在不同的核酸分子上。基因转移系统的转座酶可以以多核苷酸或多肽的形式提供。

如果并非天然相关，则两个元素彼此“异源”。例如，编码与异源启动子连接的蛋白质的核酸序列是指天然驱动该蛋白质表达的启动子以外的启动子。被转座子末端或ITR侧接的异源核酸是指不被那些转座子末端或ITRs侧接的异源核酸，例如编码除转座酶以外的多肽(包括抗体重链或轻链)的核酸。如果核酸不是天然存在于细胞中或天然存在于细胞中但位于别处(例如游离的或不同的基因组位置)，则该核酸对于细胞是异源的。

术语“宿主”是指可以作为核酸受体的任何原核或真核生物。本文使用的术语“宿主”包括可以进行基因工程改造的原核或真核生物。有关此类宿主的示例，请参见Maniatiset al.,Molecular Cloning.A Laboratory Manual,Cold Spring Harbor Laboratory(冷泉港实验室),Cold Spring Harbor(冷泉港),N.Y.(纽约州)(1982)。本文所使用的术语“宿主”、“宿主细胞”、“宿主系统”和“表达宿主”可以互换使用。

“高活性”转座酶是比其衍生自的、天然存在的转座酶更具活性的转座酶。因此，“高活性”转座酶不是天然存在的序列。

“整合缺陷”或“转座缺陷”是指转座酶，其可以切除其相应的转座子，但是以比相应的天然存在的转座酶低的频率将该切除的转座子整合到宿主基因组中。

“IRES”或“内部核糖体进入位点”是指直接促进核糖体结合，而不依赖于帽子结构的专门序列。

“分离的”多肽或多核苷酸是指已经从其天然环境中去除、使用重组技术产生，或者化学或酶促合成的多肽或多核苷酸。可以纯化本发明的多肽或多核苷酸，即基本上不含任何其他多肽或多核苷酸以及相关的细胞产物或其他杂质。

术语“核苷”和“核苷酸”包括不仅包含已知的嘌呤和嘧啶碱基，而且还包含已修饰的其他杂环碱基的那些部分。这样的修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶，或其他杂环。修饰的核苷或核苷酸还可包括对糖部分的修饰，例如，其中一个或多个羟基被卤素、脂族基团取代，或被功能化为醚，胺等。术语“核苷酸单位”旨在涵盖核苷和核苷酸。

“开放阅读框”或“ORF”是指多核苷酸的一部分，当翻译成氨基酸时，其不包含终止密码子。遗传密码以三个碱基对为一组读取DNA序列，这意味着双链DNA分子可以按六个可能的阅读框中的任何一个阅读——正向三个，反向三个。ORF通常还包括起始密码子，可在该起始密码子处开始翻译。

术语“可操作地连接”是指两个序列之间的功能性连接，使得一个序列修饰另一个序列的行为。例如，当包含核酸表达控制序列(例如启动子、IRES序列、增强子，或转录因子结合位点的阵列)的第一多核苷酸影响第二多核苷酸的转录和/或翻译，则该第一多核苷酸与该第二多核苷酸可操作地连接。类似地，如果包含分泌信号或亚细胞定位信号的第一氨基酸序列导致第二氨基酸序列被分泌或定位于亚细胞位置，则该第一氨基酸序列与该第二氨基酸序列可操作地连接。

术语“正交的”是指两个系统之间缺乏相互作用。如果第一转座酶不切除或转座第二转座子并且该第二转座酶不切除或转座该第一转座子，则该第一转座子及其相应的第一转座酶和该第二转座子及其相应的第二转座酶是正交的。

术语“突出端”或“DNA突出端”是指在双链DNA分子末端的单链部分。彼此碱基配对的突出端为互补突出端。

“piggyBac类转座酶”是指与来自尺蛾(Trichoplusiani)(SEQ ID NO：909)的piggyBac转座酶具有至少20％序列同一性的转座酶，该序列同一性使用TBLASTN算法鉴定，并更完整地描述与于Sakar,A.et.al.,(2003).Mol.Gen.Genomics 270:173-180."Molecular evolutionary analysis of the widespread piggyBac transposon familyand related'domesticated'species"，并进一步以DDE样DDD基序为特征，在最大比对时，在与尺蛾(Trichoplusiani)的piggyBac转座酶的D268、D346，和D447对应的位置处具有天冬氨酸残基。PiggyBac类转座酶的特征还在于其能够精确地高频率切除其转座子的能力。“piggyBac类转座子”意指具有与天然存在的、编码piggyBac类转座酶的转座子的转座子末端相同或至少80％相同，优选至少90、95、96、97、98或99％或100％相同的转座子末端的转座子。piggyBac类转座子在每个末端都包含一个约12-16个碱基的反向末端重复序列(ITR)，并在两侧分别带有4个碱基的序列，该序列对应于在转座子整合中复制的整合靶序列(靶位点重复或靶序列重复或TSD)。PiggyBac类转座子和转座酶天然存在于多种生物中，包括银纹夜蛾(Agyrogramma agnate)(GU477713)、冈比亚疟蚊(Anopheles gambiae)(XP_312615；XP_320414；XP_310729)、棉蚜(Aphis gossypii)(GU329918)、豌豆蚜(Acyrthosiphonpisum)(XP_001948139)、小地老虎(Agrotisypsilon)(GU477714)、家蚕(Bombyx mori)(BAD11135)、玻璃海鞘(Ciona intestinalis)(XP_002123602)、二化螟(Chilosuppressalis)(JX294476)、黑腹果蝇(Drosophila melanogaster)(AAL39784)、水蚤(Daphnia pulicaria)(AAM76342)、棉铃虫(Heliocoverpaarmigera)(ABS18391)、智人(Homo sapiens)(NP_689808)、烟青虫(Heliothisvirescens)(ABD76335)、银锭夜蛾(Macdunnoughiacrassisigna)(EU287451)、食蟹猕猴(Macacafascicularis)(AB179012)、小家鼠(Mus musculus)(NP_741958)、棉红铃虫(Pectinophoragossypiella)(GU270322)、褐家鼠(Rattus norvegicus)(XP_220453)、赤拟谷盗(Triboliumcastaneum)(XP_001814566)，和尺蛾(Trichoplusiani)(AAA87375)和热带爪蟾(Xenopus tropicalis)(BAF82026)，尽管它们几乎没有被描述过转座活性。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”可互换使用，是指任何长度的核苷酸的聚合形式，并且可以包含核糖核苷酸、脱氧核糖核苷酸，其类似物或它们的混合物。该术语仅指分子的一级结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。它还包括例如通过烷基化和/或通过加帽修饰的多核苷酸，和多核苷酸的未修饰形式。更具体地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多脱氧核糖核苷酸(含有2-脱氧-D-核糖)、多核糖核苷酸(含有D-核糖)，包括tRNA、rRNA、hRNA、siRNA和mRNA(无论是剪接的还是未剪接的)，包含嘌呤或嘧啶碱基的N-或C-糖苷的任何其他类型的多核苷酸，以及含有非核苷酸骨架的其他聚合物，例如聚酰胺(例如肽核酸(“PNA”))和聚吗啉代(polymorpholino)(与Neugene—样可以从Corvallis Oregon(康瓦利斯城俄勒冈州)Anti-Virals有限公司购得)聚合物，以及其它合成序列特定核酸聚合物，前提是聚合物在允许碱基配对和碱基堆积的结构中包含核碱基，例如在DNA和RNA中发现的。术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”之间在长度上没有预期的区别，并且这些术语在本文中可互换使用。这些术语仅指分子的一级结构。因此，这些术语包括例如3'-脱氧-2'、5'-DNA、寡脱氧核糖核苷酸N3'P5'氨基磷酸酯、2'-O-烷基取代的RNA、双链和单链DNA，以及双链和单链RNA及其杂交体，包括例如DNA与RNA之间或PNA与DNA或RNA之间的杂交体，还包括已知类型的修饰，例如标记、烷基化、“帽”、用类似物取代一个或多个核苷酸、核苷酸间修饰，例如具有不带电荷的键的那些(例如甲基膦酸酯、磷酸三酯、氨基磷酸酯、氨基甲酸酯等)、带有带负电荷的键的那些(例如硫代磷酸酯、二硫代磷酸酯等)，以及带有带正电荷的键的那些(例如氨基烷基磷酰胺酸酯、氨基烷基磷酸三酯)，包含侧基部分(pendant moieties)的那些，例如蛋白质(包括酶(例如核酸酶)、毒素、抗体、信号肽、聚-L-赖氨酸等)，具有嵌入剂的那些(例如吖啶、补骨脂素等)，包含螯合物的那些(螯合物例如金属、放射性金属、硼、氧化性金属等)，含有烷基化剂(alkylators)的那些，具有修饰的键的那些(例如α异头核酸等)，以及多核苷酸或寡核苷酸的未修饰形式。

“启动子”是指足以指导可操作连接的核酸分子转录的核酸序列。启动子可以与或不与其它转录控制元件(例如增强子)一起使用，所述其它转录控制元件足以使启动子依赖性基因表达以细胞类型特异性、组织特异性，或时间特异性方式可控，或者是通过外部信号或剂可诱导的；这样的元件可以在基因的3'区域内或内含子内。期望地，启动子以能够表达核酸序列的方式可操作地连接至核酸序列，例如cDNA或基因序列，或效应物RNA编码序列，或者在表达盒中提供启动子，将要转录的选定的核酸序列可以方便地插入该表达盒。调节元件，例如在哺乳动物细胞中有活性的启动子，是指可配置为导致在已引入该调节元件的哺乳动物细胞中每个细胞至少表达1个转录物的水平的调节元件。

术语“选择性标记”是指多核苷酸片段或其表达产物，其通常在特定条件下允许选择或不选择(against)包含它的分子或细胞。这些标记可以编码某种活动，例如但不限于RNA、肽或蛋白质的产生，或者可以提供RNA、肽、蛋白质、无机和有机化合物或组合物的结合位点。选择性标记的例子包括但不限于：(1)编码对其他毒性化合物具有抗性的产物(例如抗生素)的DNA片段；(2)DNA片段，其编码除此以外在受体细胞中缺乏的产物(例如tRNA基因、营养缺陷型标记)；(3)编码抑制基因产物活性的产物的DNA片段；(4)编码易于识别的产物的DNA片段(例如表型标记如β-半乳糖苷酶、绿色荧光蛋白(GFP)和细胞表面蛋白)；(5)与产物结合(否则这些产物对细胞存活和/或功能有害)的DNA片段；(6)DNA片段，其除此之外会抑制上述1～5中所述的任何DNA片段的活性(例如反义寡核苷酸)；(7)结合修饰底物(例如限制性核酸内切酶)的产物的DNA片段；(8)可用于分离所需分子(例如特定的蛋白质结合位点)的DNA片段；(9)编码特定核苷酸序列的DNA片段，该核苷酸序列除此之外可能是无功能的(例如用于PCR扩增分子亚群)；和/或(10)DNA片段，其如果不存在，则直接或间接赋予特定化合物以敏感性。

序列同一性可以通过使用算法(例如，威斯康星遗传软件软件包7.0版(WisconsinGenetics Software Package Release 7.0)中的BESTFIT、FASTA和TFASTA，遗传学计算机组(Genetics Computer Group)，575Science Dr.，麦迪逊，威斯康星州)，使用默认缺口参数(gap parameters)或通过检查,和最佳比对(即在比较窗口中导致最高的序列相似性百分比)确定。序列同一性百分比是通过在比较窗口中比较两个最佳比对的序列，确定两个序列中出现相同残基的位置的数目以得到匹配位置的数目，然后将匹配位置的数目除以匹配和不匹配的位置的总数(不计算比较窗口中的缺口，即窗口大小)，并将结果乘以100，得出序列同一性百分比。除非另有说明，否则两个序列之间的比较窗口由两个序列中较短的一个的全长定义。

“靶核酸”是转座子将要插入其中的核酸。这样的靶标可以是染色体、附加体或载体的一部分。

转座酶的“整合靶序列”或“靶序列”或“靶位点”是靶DNA分子中转座子可通过转座酶插入的位点或序列。尺蛾(Trichoplusiani)的piggyBac转座酶主要将其转座子插入靶序列5'-TTAA-3'。piggyBac转座子的其他可用靶序列是5'-CTAA-3'、5'-TTAG-3'、5'-ATAA-3'、5'-TCAA-3'、5'-AGTT-3'、5'-ATTA-3'、5'-GTTA-3'、5'-TTGA-3'、5'-TTTA-3'、5'-TTAC-3'、5'-ACTA-3'、5'-AGGG-3'、5'-CTAG-3'、5'-GTAA-3'、5'-AGGT-3'、5'-ATCA-3'、、5'-CTCC-3'、5'-TAAA-3'、5'-TCTC-3'、5'-TGAA-3'、5'-AAAT-3'、5'-AATC-3'、5'-ACAA-3'、5'-ACAT-3'、5'-ACTC-3'、5'-AGTG-3'、5'-ATAG-3'、5'-CAAA-3'、5'-CACA-3'、5'-CATA-3'、5'-CCAG-3'、5'-CCCA-3'、5'-CGTA-3'、5'-CTGA-3'、5'-GTCC-3'、5'-TAAG-3'、5'-TCTA-3'、5'-TGAG-3'、5'-TGTT-3'、5'-TTCA-3'、5'-TTCT-3'和5'-TTTT-3'(Li et al.,2013.Proc.Natl.Acad.Sci vol.110,no.6,E478-487)。PiggyBac类转座酶使用剪切和粘贴机制转座其转座子，这导致其4个碱基对的靶序列在插入DNA分子后重复。因此，靶序列位于整合的piggyBac类转座子的每一侧。

术语“翻译”是指通过核糖体“读取”多核苷酸的序列来合成多肽的过程。

“转座酶”是催化从供体多核苷酸(例如载体)切除相应转座子，并且(假设转座酶没有整合缺陷)随后将该转座子整合到靶核酸中的多肽。“Oryzias转座酶”是指与SEQ IDNO：782具有至少80、90、95、96、97、98、99或100％序列同一性的转座酶，包括能够转座相应转座子的SEQ ID NO：782的高活性变体。高活性转座酶是切除活性或转座活性或两者均比其来源的天然存在的转座酶更具活性的转座酶。高活性转座酶的活性优选比其来源的天然转座酶高至少1.5倍、或至少2倍、或至少5倍，或至少10倍。例如2-5倍或1.5-10倍。转座酶可以或不与一个或多个其他结构域融合，例如核定位序列或DNA结合蛋白。

本文中使用的术语“转座”是指转座酶在从一个多核苷酸切出转座子然后将其整合到同一多核苷酸的不同位点或第二多核苷酸中的作用。

术语“转座子”是指通过相应的反式作用的转座酶的作用，可以从第一多核苷酸(例如载体)上切下并整合到同一多核苷酸的第二位置或第二多核苷酸(例如细胞的基因组或染色体外DNA)中的多核苷酸。转座子包含第一转座子末端和第二转座子末端，它们是被转座酶识别和转座的多核苷酸序列。转座子通常进一步在两个转座子末端之间包含第一多核苷酸序列，使得第一多核苷酸序列通过转座酶的作用与两个转座子末端一起转座。天然转座子中的该第一多核苷酸通常包含开放阅读框，其编码识别并转座转座子的相应转座酶。本发明的转座子是包含异源多核苷酸序列的“合成转座子”，所述异源多核苷酸序列由于其在两个转座子末端之间的并置(juxtaposition)而可转座。合成的转座子可以或可以不进一步包含位于转座子末端外的侧翼多核苷酸序列，例如编码转座酶的序列、载体序列或编码选择性标记的序列。

术语“转座子末端”是指足以被相应的转座酶识别和被其转座的顺式作用核苷酸序列。piggyBac类转座子的转座子末端包含完美或不完美的重复序列，使得两个转座子末端中的各自重复序列是彼此的反向互补。这些被称为反向末端重复序列(ITR)或末端反向重复序列(TIR)。转座子末端可以包括或可以不包括与ITR相近的、促进或增强转座的其他序列。

术语“载体”或“DNA载体”或“基因转移载体”是指用于对另一多核苷酸执行“携带”功能的多核苷酸。例如，载体通常用于允许多核苷酸在活细胞内繁殖，或允许多核苷酸被包装以递送到细胞中，或用于将多核苷酸整合到细胞的基因组DNA中。载体可以进一步包含其他功能元件，例如它可以包含转座子。

5.2描述

5.2.1.基因整合

如果将异源多核苷酸整合到宿主细胞的基因组中，则可以改善来自异源多核苷酸的基因在真核宿主细胞中的表达。将多核苷酸整合进宿主细胞的基因组中也通常使其稳定地可遗传(通过使该多核苷酸经受与确保基因组DNA复制和分裂的机制相同的机制)。这种稳定的遗传力对于在长生长期内获得良好且一致的表达而言是理想的。对于细胞被基因修饰然后放入体内的细胞疗法而言，这点尤其重要。这对于生物分子的制造而言也很重要，特别是对于治疗应用，其中宿主的稳定性和表达水平的一致性对于调节目的也很重要。因此，具有整合到其基因组中的基因转移载体(包括基于转座子的基因转移载体)的细胞是本发明的重要实施方案。

如果异源多核苷酸是转座子的一部分(即位于转座子ITR之间)，则它们可以更有效地整合到靶基因组中(例如使得它们可以被转座酶整合)。转座子的一个特别的好处在于转座子ITR之间的整个多核苷酸被整合。包含侧翼ITR(该ITR侧接异源多核苷酸)的靶位点的转座子整合于基因组中的靶位点处，导致该基因组包含被ITR侧接的异源多核苷酸，该被ITR侧接的异源多核苷酸被靶位点所侧接。其这与随机整合不同，在随机整合中，导入真核细胞的多核苷酸通常在细胞中随机断裂，并且通常仅以低频率将多核苷酸的仅一部分掺入靶基因组中。已经证明，尺蛾Trichoplusiani的piggyBac转座子在许多生物体的细胞中被其转座酶转座(参见例如，Keith et al(2008)BMC Molecular Biology 9:72"Analysis ofthe piggyBac transposase reveals a functional nuclear targeting signal in the94c-terminal residues")。掺入piggyBac类转座子的异源多核苷酸可以整合到真核细胞中，包括动物细胞、真菌细胞或植物细胞。优选的动物细胞可以是脊椎动物或无脊椎动物。优选的脊椎动物细胞包括来自哺乳动物的细胞，所述哺乳动物包括啮齿类动物，例如大鼠、小鼠，和仓鼠；有蹄类动物(ungulates)，例如牛、山羊或绵羊；和猪。优选的脊椎动物细胞还包括来自人组织和人干细胞的细胞。靶细胞类型包括肝细胞、神经细胞、肌肉细胞、血细胞、胚胎干细胞、成体干细胞、造血细胞、胚胎、受精卵、精子细胞(其中一些可在体外环境操作)和免疫细胞，包括淋巴细胞，例如T细胞、B细胞和自然杀伤细胞、T辅助细胞、抗原呈递细胞、树突状细胞、嗜中性粒细胞和巨噬细胞。优选的细胞可以是多能细胞(其后代可以分化为几种限制性细胞类型的细胞，例如造血干细胞或其他干细胞)或全能细胞(即其后代可以成为生物体中任何细胞类型的细胞，例如胚胎干细胞)。优选的培养细胞是中国仓鼠卵巢(CHO)细胞或人胚肾(HEK293)细胞。优选的真菌细胞是酵母细胞，包括酿酒酵母(Saccharomycescerevisiae)和巴斯德毕赤酵母(Pichia pastoris)。优选的植物细胞是藻类(例如小球藻)、烟草、玉米和水稻(Nishizawa-Yokoi et al(2014)Plant J.77:454-63"Precisemarker excision system using an animal derived piggyBac transposon inplants")。

优选的基因转移系统包含转座子与相应的转座该转座子的转座酶蛋白，或编码相应的转座酶蛋白并在靶细胞中可表达的核酸。优选的基因转移系统包含合成的Oryzias转座子和相应的Oryzias转座酶。

可以将转座酶蛋白作为蛋白质或编码该转座酶的核酸(例如作为核糖核酸，包括mRNA或被细胞翻译机制识别的任何多核苷酸)；作为DNA，例如作为染色体外DNA，包括附加体DNA(episomal DNA)；作为质粒DNA或病毒核酸引入细胞中。此外，可以将编码转座酶蛋白的核酸作为核酸载体(例如质粒)或作为基因表达载体(包括病毒载体)转染到细胞中。核酸可以是圆形或线性的。可以使用DNA制备编码转座酶的mRNA，在该DNA中，编码转座酶的基因与在体外具有活性的异源启动子(例如细菌T7启动子)可操作地连接。可以将编码转座酶蛋白的DNA稳定地插入细胞的基因组或载体中，以进行组成型或诱导型表达。当转座酶蛋白以DNA的形式转染到细胞中或插入载体中时，转座酶编码序列优选可操作地与异源启动子连接。可以使用多种启动子，包括组成型启动子、细胞类型特异性启动子(cell-typespecific promoters)、生物体特异性启动子(organism-specific promoters)、组织特异性启动子、诱导型启动子等。当编码转座酶的DNA与启动子可操作连接并转染到靶细胞中时，该启动子应在靶细胞中可操作。例如，如果靶细胞是哺乳动物细胞，则启动子应该在哺乳动物细胞中可操作；如果靶细胞是酵母细胞，则启动子应在酵母细胞中可操作；如果靶细胞是昆虫细胞，则启动子应在昆虫细胞中可操作；如果靶细胞是人细胞，则启动子应在人细胞中可操作；如果靶细胞是人免疫细胞，则启动子应在人免疫细胞中可操作。明确考虑了编码piggyBac类转座酶蛋白的所有DNA或RNA序列。或者，可将转座酶以蛋白质的形式直接引入细胞中，例如使用穿透细胞的肽(例如，如Ramsey and Flynn(2015)Pharmacol.Ther.154:78-86"Cell-penetrating peptides transport therapeuticsinto cells中所述)；使用包括盐和丙基甜菜碱(propanebetaine)的小分子(例如，如Astolfo et al(2015)Cell 161:674-690中所述)；或电穿孔(例如，如Morgan和Day(1995)Methods in Molecular Biology 48:63-71"The introduction of proteins intomammalian cells by electroporation"所述)。

可以通过各种可复制的机制，甚至不需要转座酶的活性，通过非同源重组将转座子插入细胞的DNA中。本文所述的转座子可用于基因转移，而与基因转移的机制无关。

5.2.5基因转移系统

基因转移系统包含要转移至宿主细胞的多核苷酸。优选地，所述多核苷酸包含Oryzias转座子，并且其中所述多核苷酸将被整合到靶细胞的基因组中。

当基因转移系统有多个组分时，例如，一种或多种多核苷酸，其包含用于在靶细胞中表达的基因并可选地包含转座子末端和转座酶(可以作为蛋白质提供或由核酸编码)，这些成分可以同时或依次转染到细胞中。例如，可以在转染相应转座子之前、同时或之后将转座酶蛋白或其编码核酸转染到细胞中。另外，基因转移系统任一组分的施用可以重复进行，例如，通过施用至少两剂量的该组分。

本文所述的任何转座酶蛋白都可以由包括RNA或DNA的多核苷酸编码。类似地，可以将编码本发明的转座酶蛋白或转座子的核酸作为质粒或重组病毒DNA，以线性片段或环状片段的形式转染到细胞中。

Oryzias转座酶可以提供为可在靶细胞中表达的DNA分子。编码Oryzias转座酶的序列应与异源序列可操作地连接，该异源序列使转座酶能够在靶细胞中表达。编码Oryzias转座酶的序列可以可操作地连接至在靶细胞中有活性的异源启动子。例如，如果靶细胞是哺乳动物细胞，则启动子应在哺乳动物细胞中有活性。如果靶标是脊椎动物细胞，则启动子应在脊椎动物细胞中具有活性。如果靶细胞是植物细胞，则启动子应在植物细胞中具有活性。如果启动子是昆虫细胞，则启动子应在昆虫细胞中具有活性。编码Oryzias转座酶的序列也可以可操作地连接至在靶细胞中表达所需的其他序列元件，例如聚腺苷酸化序列、终止子序列等。

Oryzias转座酶可以提供为可在靶细胞中表达的mRNA。mRNA优选在体外转录反应中制备。对于体外转录，将编码Oryzias转座酶的序列可操作地连接至在体外转录反应中有活性的启动子。在体外转录反应中具有活性的示例性启动子包括允许通过T7RNA聚合酶进行转录的T7启动子(5'-TAATACGACTCACTATAG-3')、允许通过T3 RNA聚合酶进行转录的T3启动子(5'-AATTAACCCTCACTAAAG-3')，和允许通过SP6 RNA聚合酶进行转录的SP6启动子(5'-ATTTAGGTGACACTATAG-3')。这些启动子和可用于体外转录的其他启动子的变体也可以可操作地连接至编码Oryzias转座酶的序列。

如果以编码转座酶的多核苷酸(DNA或mRNA)的形式提供Oryzias转座酶，则提高转座酶在靶细胞中的表达性是有利的。因此，有利地使用天然存在的序列以外的序列来编码转座酶；换而言之，使用将在其中进行表达的细胞类型的密码子偏好(codon-preferences)。例如，如果靶细胞是哺乳动物细胞，则密码子应偏向于哺乳动物细胞的偏好。如果靶标是脊椎动物细胞，则密码子应偏向特定脊椎动物细胞的偏好。如果靶细胞是植物细胞，则密码子应偏向植物细胞的偏好。如果启动子是昆虫细胞，则密码子应偏向昆虫细胞的偏好。

优选的RNA分子包括具有适当的帽子结构以增强在真核细胞中的翻译、聚腺苷酸和增强真核细胞中的mRNA稳定性的其他3'序列，以及可选的取代以减少对细胞的毒性作用(例如用假尿苷取代尿苷，用5-甲基胞嘧啶取代胞嘧啶)的RNA分子。可以制备编码Oryzias转座酶的mRNA，使其具有5'帽子结构以改善在靶细胞中的表达。示例性帽子结构是帽类似物((G(5')ppp(5')G)、抗-反向帽类似物(anti-reverse cap analog)(3'-O-Me-m⁷G(5')ppp(5')G)、clean cap(m7G(5')ppp(5')(2'OMeA)pG)、mCap(m7G(5')ppp(5')G)。可以将编码Oryzias转座酶的mRNA制备为一些碱基或部分或完全取代，例如用假尿苷取代尿苷，用5-甲基胞嘧啶取代胞嘧啶。可以进行这些帽和取代的任意组合。

可以通过诸如粒子轰击、电穿孔、显微注射等技术将基因转移系统的组分转染到一个或多个细胞中，将这些组分与含脂质的囊泡(例如阳离子脂质囊泡)、DNA浓缩试剂(例如磷酸钙、聚赖氨酸或聚乙烯亚胺)结合，然后将组分(即其核酸)插入病毒载体，并使该病毒载体与该细胞接触。在使用病毒载体的情况下，病毒载体可包括多种本领域已知的病毒载体，包括选自由逆转录病毒载体、腺病毒载体，和腺相关病毒载体组成的组的病毒载体。可以以本领域已知的合适方式配制基因转移系统，或将其配制为药物组合物或试剂盒。

5.2.3基因转移系统中的序列元件

来自整合到宿主细胞基因组中的基因转移多核苷酸(例如piggyBac类转座子，包括Oryzias转座子)的基因表达通常会受到其整合进的染色质环境的强烈影响。整合到常染色质中的多核苷酸的表达水平高于整合到异染色质中的多核苷酸或在整合后沉默的多核苷酸。如果异源多核苷酸包含染色质控制元件，则可以降低其沉默。因此，基因转移多核苷酸(包括本文所述的任何转座子)有利地包含染色质控制元件，例如防止异染色质(绝缘子)扩散的序列。有利的基因转移多核苷酸包括Oryzias转座子，其包含与选自SEQ ID NO：286-292之一的序列至少95％相同的绝缘子序列，它们还可以包含遍在作用染色质开放元件(ubiquitous acting chromatin opening element，UCOE)或稳定和抗阻遏物元件(STAR)，以增加来自整合的基因转移多核苷酸的长期稳定表达。有利的基因转移多核苷酸可以进一步包含基质附着区，例如与选自SEQ ID NO：293-303之一的序列至少95％相同的序列。

在一些情况下，基因转移多核苷酸包含两个绝缘子是有利的，所述两个绝缘子各自在含有要表达的序列的异源多核苷酸的每一侧上，并在转座子ITR内。绝缘子可以相同，也可以不同。特别有利的基因转移多核苷酸包含与选自SEQ ID NO：291或SEQ ID NO：292之一的序列至少95％相同的绝缘子序列和与选自SEQ ID NO：286-290之一的序列至少95％相同的绝缘子序列。绝缘子还将表达控制元件彼此屏蔽。例如，当基因转移多核苷酸包含编码两个开放阅读框的基因，且每个开放阅读框可操作地连接至不同的启动子，一个启动子可以在称为转录干扰的现象中减少来自另一个启动子的表达。在两个转录单元之间插入与选自SEQ ID NO：286-292之一的序列至少95％相同的绝缘子序列可以减少这种干扰，增加来自一个或两个启动子的表达。

优选的基因转移载体包含能够驱动高水平基因表达的表达元件。在真核细胞中，基因表达受几种不同类型的元件调节，包括增强子、启动子、内含子、RNA输出元件、聚腺苷酸化序列和转录终止子。

用于将用于表达的基因转移到真核细胞中的有利的基因转移多核苷酸包含与异源基因可操作连接的增强子。将用于表达的基因转移到哺乳动物细胞中的有利的基因转移多核苷酸包含来自人、灵长类动物或啮齿动物细胞的巨细胞病毒(CMV)的立即早期基因(immediate early gene)1、2或3的增强子(例如与SEQ ID NO：304-322之一的序列至少95％相同的序列)、来自腺病毒主要晚期蛋白质增强子(adenoviral major late proteinenhancer)的增强子(例如与SEQ ID NO：323至少95％相同的序列)，或来自SV40的增强子(例如与SEQ ID NO：324至少95％相同的序列)，其可操作地连接至异源基因。

将用于表达的基因转移到真核细胞中的有利的基因转移多核苷酸包含与异源基因可操作连接的启动子。用于将用于表达的基因转移到哺乳动物细胞中的有利的基因转移多核苷酸包含来自任何哺乳动物或禽类(包括人、大鼠、小鼠、鸡和中国仓鼠)的EF1a启动子(例如SEQ ID NO：325-346中的任何一个)；来自人，灵长类或啮齿动物细胞的巨细胞病毒(CMV)的立即早期基因1、2或3的启动子(例如SEQ ID NO：347-357中的任一个)；来自任何哺乳动物或禽类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的真核延伸因子2(EEF2)的启动子(例如SEQ ID NO：358-368中的任一个)；来自任何哺乳动物或酵母物种的GAPDH启动子(例如SEQ ID NO：379-395中的任一个)，来自任何哺乳动物或鸟类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的肌动蛋白启动子(例如SEQ ID NO：369-378的任一个)；来自任何哺乳动物或鸟类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的PGK启动子(例如SEQ ID NO：396-402中的任一个)，或泛素启动子(例如SEQ ID NO：403)，其可操作地连接异源基因。启动子可以可操作地连接至：i)异源开放阅读框；ii)编码选择性标记的核酸；iii)编码反向选择性标记的核酸；iii)编码调节蛋白的核酸；iv)编码抑制性RNA的核酸。

将用于表达的基因转移到真核细胞中的有利的基因转移多核苷酸包含在靶细胞中可剪接的异源多核苷酸内的内含子。用于将用于表达的基因转移到哺乳动物中的有利的基因转移多核苷酸包含来自人，灵长类或啮齿动物细胞的巨细胞病毒(CMV)的立即早期基因1、2或3的内含子(例如与SEQ ID NO：412-422的任一个至少95％相同的序列)、来自任何哺乳动物或鸟类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的EF1a内含子(例如与SEQ IDNO：432-444的任一个至少95％相同的序列)、来自任何哺乳动物或鸟类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的EEF2的内含子(例如与SEQ ID NO：464-471的任一个至少95％相同的序列)、来自任何哺乳动物或禽类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的肌动蛋白的内含子(例如与SEQ ID NO：445-458的任一个至少95％相同的序列)、来自任何哺乳动物或禽类物种(包括人、大鼠、小鼠、鸡和中国仓鼠)的GAPDH内含子(例如与SEQ ID NO：459-461的任一个至少95％相同的序列)、包含腺病毒主要晚期蛋白质增强子的内含子(例如与SEQID NO：462-463的任一个至少95％相同的序列)或异源多核苷酸中的杂交/合成内含子(例如与SEQ ID NO：423-431的任一个至少95％相同的序列)。

将用于表达的基因转移到真核细胞中的有利的基因转移多核苷酸包含与异源编码序列可操作连接的增强子和启动子。此类基因转移多核苷酸可包含增强子和启动子的组合，其中来自一个基因的增强子与来自不同基因的启动子结合，即该增强子与该启动子是异源的。例如，为了将用于表达的基因转移到哺乳动物细胞中，来啮齿动物或人或灵长类的立即早期CMV增强子(例如选自SEQ ID NO：304-322的序列)有利地被以下紧随：来自EF1a基因的启动子(例如选自SEQ ID NO：325-346的序列)，或来自异源CMV基因的启动子(例如选自SEQ ID NO：347-357的序列)，或来自EEF2基因的启动子(例如选自SEQ ID NO：358-368的序列)，或来自肌动蛋白基因的启动子(例如选自SEQ ID NO：369-378的序列)，或来自GAPDH基因的启动子(如选自SEQ ID NO：379-395的序列)，其可操作地连接至异源序列。

将用于表达基因转移至真核细胞中的有利的基因转移多核苷酸包含可操作地连接至异源开放阅读框的、可操作地连接的启动子和内含子。此类基因转移多核苷酸可包含启动子和内含子的组合，其中来自一个基因的启动子与来自不同基因的内含子结合，即该内含子与该启动子是异源的。例如，为了将用于表达的基因转移到哺乳动物细胞中，来啮齿动物或人或灵长类的立即早期CMV启动子(例如选自SEQ ID NO：347-357的序列)有利地被以下紧随：来自EF1a基因的内含子(例如与选自SEQ ID NO：432-444的序列至少95％相同的序列)，或来自EEF2基因的内含子(例如与选自SEQ ID NO：464-471的序列至少95％相同的序列)，或来自肌动蛋白基因的内含子(例如与选自SEQ ID NO：445-458的序列至少95％相同的序列)，其可操作地连接至异源序列。

将用于表达的基因转移到真核细胞中的有利的基因转移多核苷酸包含复合转录起始调控元件，该复合转录起始调控元件包含与增强子和/或内含子可操作地连接的启动子，并且该复合转录起始调控元件可操作地与异源序列连接。可以与基因转移多核苷酸中的异源序列可操作地连接，以将用于表达的基因转移到哺乳动物细胞中的有利的复合转录起始调控元件的实例是选自SEQ ID NO：473-565的序列。

来自单个多核苷酸的两个开放阅读框的表达可以通过将每个开放阅读框的表达可操作地连接至单独的启动子来实现，如上所述，每个启动子可以可选地与增强子和内含子可操作地连接。当表达需要以特定摩尔比相互作用的两个多肽时(例如抗体的链或双特异性抗体的链，或受体及其配体)，其特别有用。通常有利的是：通过将遗传绝缘子置于两个开放阅读框之间(例如可操作地连接到第一开放阅读框的聚腺苷酸化序列的3'端，以及可操作地连接到编码第二多肽的第二开放阅读框的启动子的5'端)，以防止转录启动子干扰。转录启动子干扰也可以通过有效终止第一个基因的转录来防止。在许多真核细胞中，在两个开放阅读框之间使用强polyA信号序列将减少转录促进干扰。可以用于有效终止转录的polyA信号序列的实例在SEQ ID NO：566-595中给出。有利的基因转移多核苷酸包含可操作地连接至异源开放阅读框的，与选自SEQ ID NO：566-595的序列至少95％相同的序列。用于第一基因的转录的终止和第二基因的转录的起始的有利的复合调控元件包括SEQ ID NO：596-779给出的序列。用于共表达到哺乳动物细胞中的用于转移第一和第二开放阅读框的特别有利的基因转移多核苷酸包含与选自SEQ ID NO：596-779的序列至少90％相同或至少95％相同或至少99％相同或100％相同的序列，其分离两个异源开放阅读框。

5.2.4包含基因转移多核苷酸的靶细胞的选择

如果基因转移多核苷酸包含编码选择性标记的开放阅读框，则可以通过将靶细胞暴露于有利于细胞表达选择性标记的条件(“选择条件”)来识别基因组包含稳定整合的转移多核苷酸的靶细胞。基因转移多核苷酸有利地包含编码选择性标记的开放阅读框，所述选择性标记例如：赋予对抗生素的抗性的酶，所述抗生素为例如新霉素(由氨基糖苷3’-磷酸转移酶，例如选自SEQ ID NO：114-117的序列赋予的抗性)、嘌呤霉素(由嘌呤霉素乙酰转移酶，例如选自SEQ ID NO：120-122的序列赋予的抗性)、杀稻瘟素(由杀稻瘟素乙酰转移酶和杀稻瘟素脱氨酶，例如SEQ ID NO：124赋予的抗性)、潮霉素B(由潮霉素B磷酸转移酶，例如选自SEQ ID NO：118-119的序列赋予的抗性)和吉欧霉素(由ble基因编码的结合蛋白，例如SEQ ID NO：111赋予的抗性)。其他选择性标记包括荧光的选择性标记(例如编码GFP、RFP等的开放阅读框)，因此可以例如使用流式细胞仪进行选择。其它选择性标记包括编码跨膜蛋白的开放阅读框，所述跨膜蛋白能够与第二分子(蛋白或小分子)结合，该第二分子可以被荧光标记，从而可以例如使用流式细胞术来选择跨膜蛋白的存在。

基因转移多核苷酸可以包含编码谷氨酰胺合成酶(GS，例如选自SEQ ID NO：126-130的序列)的选择性标记开放阅读框，其允许通过谷氨酰胺代谢进行选择。谷氨酰胺合成酶是负责将谷氨酸和氨生物合成为谷氨酰胺的酶，它是哺乳动物细胞中谷氨酰胺形成的唯一途径的关键组成部分。在生长培养基中不存在谷氨酰胺的情况下，GS酶对于培养物中哺乳动物细胞的生存至关重要。某些细胞系(例如小鼠骨髓瘤细胞)在不添加谷氨酰胺的情况下无法表达足够的GS酶以存活。在这些细胞中，转染的GS开放阅读框可以通过允许在无谷氨酰胺的培养基中的生长而用作选择性标记。其它细胞系(例如中国仓鼠卵巢(CHO)细胞)表达了足够的GS酶，可以在不外源添加谷氨酰胺的情况下存活。这些细胞系可以通过包括CRISPR/Cas9在内的基因编辑技术进行操作，以减少或消除GS酶的活性。在所有这些情况下，可使用GS抑制剂(例如蛋氨酸砜亚胺(MSX))抑制细胞的内源GS活性。选择方案包括引入包含编码第一多肽和谷氨酰胺合成酶选择性标记的序列的基因转移多核苷酸，然后用谷氨酰胺合成酶的抑制剂(例如蛋氨酸砜亚胺)处理细胞。使用的蛋氨酸砜亚胺水平越高，使细胞合成存活所需的足够的谷氨酰胺所必要的谷氨酰胺合成酶表达水平越高。这些细胞中的一些还将显示第一多肽的表达增加。

优选地，GS开放阅读框可操作地连接至弱启动子或如本文所述的弱化表达的其他序列元件，使得只有在存在许多份拷贝的基因转移多核苷酸或将它们整合到基因组中发生高水平表达的位置中时才可发生高水平的表达。在这种情况下，可能不需要使用蛋氨酸砜亚胺抑制剂：如果谷氨酰胺合成酶的表达减弱，则简单地合成足够用于细胞存活的谷氨酰胺就可以提供足够严格的选择。

基因转移多核苷酸可包含编码二氢叶酸还原酶(DHFR，例如选自SEQ ID NO：112-113的序列)的选择性标记开放阅读框，二氢叶酸还原酶对于催化5，6-二氢叶酸(DHF)还原生成5,6,7,8-四氢叶酸(THF)而言是必需的。一些细胞系在不添加次黄嘌呤和胸苷(HT)的情况下不能表达足够的DHFR以存活。在这些细胞中的转染DHFR开放阅读框可以通过允许在无次黄嘌呤和胸苷的培养基中的生长，作为选择性标记发挥作用。缺乏DHFR的细胞系，例如中国仓鼠卵巢(CHO)细胞，可以通过包括CRISPR/Cas9在内的基因编辑技术产生，该技术减少或消除内源性DHRF酶的活性。DHFR赋予了对甲氨蝶呤(MTX)的抗性。更高水平的甲氨蝶呤水平可抑制DHFR。选择方案包括将包含编码第一多肽和DHFR选择性标记的序列的构建体引入具有或不具有功能性内源DHFR基因的细胞中，然后用DHFR抑制剂(例如甲氨蝶呤)处理细胞。所使用的甲氨蝶呤水平越高，使细胞合成足够的DHFR以存活所需的DHFR表达水平越高。这些细胞中的一些还将显示第一多肽的表达增加。优选地，DHFR开放阅读框可操作地连接至弱启动子或如上所述的减弱表达的其它序列元件，使得只有在存在许多份拷贝的基因转移多核苷酸或将它们整合到基因组中发生高水平表达的位置中时才可发生高水平的表达。

在整合于高转录活性的基因组区域中，或者以多份拷贝整合到基因组中，或者以染色体外的多份拷贝形式存在的基因转移多核苷酸上编码的基因可具有高水平的表达。将编码选择性标记的开放阅读框与导致来自基因转移多核苷酸的选择性多肽的低表达水平的表达控制元件可操作地连接和/或使用提供更严格选择的条件通常是有利的。在这些条件下，为了使表达细胞产生足够水平的基因转移多核苷酸上编码的选择性多肽，以在选择条件下生存，基因转移多核苷酸可以存在于细胞基因组中的有利位置，以实现高水平表达，或存在足够高数量的基因转移多核苷酸的拷贝，使得这些因素补偿由于表达控制元件而导致的低表达水平。

当转座子中的选择性标记与仅弱表达该选择性标记的调节元件可操作地连接时，通常需要通过转座酶将该转座子插入靶基因组以实现该转座子的基因组整合，参见例如第6.1.3节。通过将选择性标记与导致弱表达的元件可操作地连接，选择掺入转座子多个拷贝的细胞或其中转座子整合在有利的基因组位置以实现高表达的细胞。使用包含转座子和相应转座酶的基因转移系统将增加产生具有多个转座子拷贝的细胞的可能性或其中转座子整合在有利的基因组位置进行高表达的可能性。因此，当转座子包含与弱启动子可操作连接的选择性标记时，包含转座子和相应转座酶的基因转移系统是特别有利的。

将要被表达为RNA或蛋白质的核酸和选择性标记可以被包括在相同的基因转移多核苷酸上，但是可操作地连接至不同的启动子。在这种情况下，可通过使用弱活性组成型启动子，例如磷酸甘油酸激酶(PGK)启动子(例如选自SEQ ID NO：396-402的启动子)、单纯疱疹病毒胸苷激酶(HSV-TK)启动子(例如SEQ ID NO：405)、MC1启动子(例如SEQ ID NO：406)、泛素启动子(例如SEQ ID NO：403)来实现选择性标记的低表达水平。可以故意构建其他弱活性启动子，例如通过截短而减弱的启动子，例如截短的SV40启动子(例如选自SEQ ID NO：407-408的序列)、截短的HSV-TK启动子(例如SEQ ID NO：404)，或通过在启动子和编码选择性多肽的开放阅读框之间插入不利于表达的5'UTR(例如选自SEQ ID NO：410-411的序列)而减弱的启动子。特别有利的基因转移多核苷酸包含选自SEQ ID NO：396-409的启动子序列，其可操作地连接至编码选择性标记的开放阅读框。

选择性标记的表达水平还可以通过其他机制(例如在选择性标记的开放阅读框后插入SV40小t抗原内含子)来有利地降低。SV40小t内含子接受异常的5'剪接位点，其可能导致一部分剪接的mRNA中的在前的开放阅读框中的缺失，从而降低了选择性标记的表达。特别有利的基因转移多核苷酸包含内含子SEQ ID NO：472，其与编码选择性标记的开放阅读框可操作地连接。为了使这种减弱机制有效，对选择性标记进行编码的开放阅读框优选在其编码区内包含强内含子供体。DNA序列SEQ ID NO：131-134是示例性核酸序列，其分别编码SEQ ID NO：126-129的谷氨酰胺合成酶序列。这些核酸序列中的每一个都包含内含子供体，并且其可以通过将内含子置于谷氨酰胺合成酶开放阅读框的3'UTR中而与SV40小t抗原内含子有效连接。序列SEQ ID NO：123是编码嘌呤霉素乙酰转移酶SEQ ID NO：122的示例性核酸序列，其包含内含子供体，并且其可以通过将内含子置于嘌呤霉素开放阅读框的3'UTR中而与SV40小t抗原内含子可操作地连接。有利的基因转移多核苷酸包含与选自SEQ IDNO：123或131-134之一的序列至少90％相同或至少95％相同或至少99％相同或100％相同的序列，该序列可操作地连接至SEQ ID NO：472。

还可以通过其它机制(例如在转录本中插入抑制性5'-UTR，例如SEQ ID NO：410-411)来有利地降低选择性标记的表达水平。特别有利的基因转移多核苷酸包含与编码选择性标记的开放阅读框可操作连接的启动子，其中与SEQ ID NO：410-411至少90％相同或至少95％相同或至少99％相同或100％相同的序列介于启动子和选择性标记之间。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的谷氨酰胺合成酶编码序列的示例性核酸序列包括SEQ ID NO：152-221和283-285。包含选自SEQ ID NO：152-221或283-285的序列的基因转移多核苷酸在整合入靶细胞的基因组后表达谷氨酰胺合成酶，从而帮助细胞在没有添加谷氨酰胺的情况下或在MSX的存在下生长。这些序列中的调节元件已被平衡以产生低水平的谷氨酰胺合成酶表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：152-221或283-285的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的杀稻瘟素-S-转移酶编码序列的示例性核酸序列包括SEQ ID NO：222-228。包含选自SEQ ID NO：222-228的序列的基因转移多核苷酸在整合入靶细胞基因组后表达杀稻瘟素-S-转移酶，从而帮助细胞在添加的杀稻瘟素的存在下生长。这些序列中的调节元件已被平衡以产生低水平的杀稻瘟素-S-转移酶表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：222-228的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的潮霉素B磷酸转移酶编码序列的示例性核酸序列包括SEQ ID NO：229-230。包含选自SEQ ID NO：229-230的序列的基因转移多核苷酸在整合入靶细胞基因组后表达潮霉素B磷酸转移酶，从而帮助细胞在添加的潮霉素的存在下生长。这些序列中的调节元件已被平衡以产生低水平的潮霉素B磷酸转移酶表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：229-230的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的氨基糖苷3'-磷酸转移酶编码序列的示例性核酸序列包括SEQ ID NO：221-223和259-260。包含选自SEQ ID NO：221-223和259-260的序列的基因转移多核苷酸在整合入靶细胞基因组后表达氨基糖苷3'-磷酸转移酶，从而帮助细胞在添加的新霉素的存在下生长。这些序列中的调节元件已被平衡以产生低水平的氨基糖苷3'-磷酸转移酶表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：221-223和259-260的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的嘌呤霉素乙酰转移酶编码序列的示例性核酸序列包括SEQ ID NO：234-253和261-285。包含选自SEQ ID NO：234-253和261-285的序列的基因转移多核苷酸在整合入靶细胞基因组后表达嘌呤霉素乙酰转移酶，从而帮助细胞在添加的嘌呤霉素的存在下生长。这些序列中的调节元件已被平衡以产生低水平的嘌呤霉素乙酰转移酶表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：234-253和261-285的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的ble基因编码序列的示例性核酸序列包括SEQ ID NO：254-258。包含选自SEQ ID NO：254-258的序列的基因转移多核苷酸在整合入靶细胞基因组后表达ble基因，从而帮助细胞在添加的吉欧霉素的存在下生长。这些序列中的调节元件已被平衡以产生低水平的ble基因产物表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：254-258的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

包含与在哺乳动物细胞中可表达的调节序列可操作连接的二氢叶酸还原酶编码序列的示例性核酸序列可包括SEQ ID NO：135-151和259-282。包含选自SEQ ID NO：135-151和259-282的序列的基因转移多核苷酸在整合入靶细胞基因组后表达二氢叶酸还原酶，从而帮助细胞在添加的次黄嘌呤和胸苷的存在下或在MTX的存在下生长。这些序列中的调节元件已被平衡以产生低水平的二氢叶酸还原酶表达，为基因组包含多个拷贝的基因转移多核苷酸的靶细胞或在基因组的有利于编码的基因的表达的区域中包含基因转移多核苷酸拷贝的靶细胞提供了选择优势。有利的基因转移多核苷酸包含选自SEQ ID NO：135-151和259-282的序列，并且它们可以进一步包含左转座子末端和右转座子末端。

与非转座子构建体相比，转座子和转座酶与弱表达的选择性标记结合使用具有多个优势。一是第一多肽的表达与选择性标记之间的连接对于转座子而言更好，因为转座酶将位于两个转座子末端之间的整个序列整合到基因组中。与此相对，当将异源DNA引入真核细胞(如哺乳动物细胞)的细胞核中时，它会逐渐分解成随机片段，这些片段可以整合到细胞的基因组中或降解。因此，如果将包含编码第一多肽和选择性标记的序列的基因转移多核苷酸引入细胞群，则一些细胞将整合编码该选择性标记的序列，但不整合编码第一多肽的序列，反之亦然。因此，表达高水平的选择性标记的细胞的选择仅与也表达高水平的第一多肽的细胞稍微相关。与此相对，因为转座酶整合了转座子末端之间的所有序列，所以表达高水平选择性标记的细胞也很有可能也表达高水平的第一多肽。

转座子和转座酶的第二个优点是它们将DNA序列整合到基因组中的效率更高。因此，细胞群中的更高比例的细胞可能将一个或多个拷贝的基因转移多核苷酸整合到它们的基因组中，因此，选择性标记和第一多肽的良好稳定表达的可能性也相应地更高。

piggyBac类转座子和转座酶的第三个优点是：piggyBac类转座酶倾向于将其相应的转座子插入转录活性染色质中。因此，每个细胞都可能将基因转移多核苷酸整合到基因组中基因表达良好的区域，因此选择性标记和第一多肽的良好稳定表达的可能性也相应地更高。

5.2.5一种新颖的来自青鳉(ORYZIAS LATIPES)的PIGGYBAC类转座酶

天然DNA转座子经过“剪切粘贴”复制系统，其中转座子从第一个DNA分子中切除，然后插入第二个DNA分子中。DNA转座子以反向末端重复序列(ITR)为特征，并通过元件编码的转座酶调动(mobilized)。piggyBac转座子/转座酶系统特别有用，因为转座子的整合和切除具有很高的精确度(请参见，例如“Fraser,M.J.(2001)The TTAA-Specific Family ofTransposable Elements:Identification,Functional Characterization,andUtilityfor Transformation of Insects；Insect Transgenesis:Methods andApplications.A.M.Handler和A.A.James.Boca Raton,Fla.,CRC Press:249-268"；和"US20070204356 A1:PiggyBac constructs in vertebrate”及其参考文献)。

在从真菌到哺乳动物的系统发育上不同的物种的基因组中，已经发现了许多与来自尺蛾(Trichoplusiani)的piggyBac转座酶具有序列相似性的序列，但是极少显示出具有转座酶活性(参见例如Wu M,et al(2011)Genetica139:149-54."Cloning andcharacterization of piggyBac-like elements in lepidopteran insects"，以及其中的参考文献)。

转座酶的两个特性对于基因组修饰特别重要：它们将多核苷酸整合到靶基因组中的能力，以及它们从靶基因组中精确切除多核苷酸的能力。可以使用合适的系统来测量这两个属性。

一种用于测量转座的第一步(从第一多核苷酸中切除转座子)的系统包含以下成分：(i)编码第一选择性标记的第一多核苷酸，所述第一选择性标记可操作地连接至导致其在选择宿主中被表达的序列，以及(ii)包含由转座酶识别的转座子末端的转座子。转座子存在于第一选择性标记中并中断第一选择性标记的编码序列，以使第一选择性标记没有活性。转座子被放置在第一选择性标记中，使得第一转座子的精确切除导致第一选择性标记被重构。如果将能够切除第一转座子的活性转座酶引入包含第一多核苷酸的宿主细胞中，则宿主细胞将表达活性的第一选择性标记。可以将转座酶切除转座子的活性测量为宿主细胞在要求第一选择性标记具有活性的条件下能够生长的频率。

如果转座子包含第二选择性标记，该第二选择性标记可操作地连接至使第二选择性标记在选择宿主中可表达的序列，则将第二选择性标记转座入宿主细胞的基因组将产生包含活性的第一和第二选择性标记的基因组。可以将转座酶将转座子转座到第二基因组位置的活性测量为宿主细胞在要求第一和第二选择性标记具有活性的条件下能够生长的频率。与此相对，如果存在第一选择性标记，但不存在第二选择性标记，则表明转座子已从第一多核苷酸中切除，但随后未转座到第二多核苷酸中。选择性标记可以是，例如，编码抗生素抗性蛋白的开放阅读框、营养缺陷标记或任何其它选择性标记。

如第6.1节所述，我们使用这种系统测试推定的转座酶/转座子组合的活性。我们使用计算方法搜索公开可用的已测序的基因组，以寻找与已知的活性piggyBac类转座酶具有同源性的开放阅读框。我们选择了看起来具有活性piggyBac类转座酶的DDDE基序特征的转座酶序列，并在这些推定的转座酶两侧的DNA序列中搜索与5'-TTAA-3'靶序列相邻的反向重复序列。我们识别出的是具有完整转座酶的推定转座子，这些转座酶来自：斜紋夜盜蛾(Spodopteralitura)(Genbank登录号MTZO01002002.1，蛋白质登记号XP_022823959)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：21，侧接推定的左端SEQ IDNO：68和推定的右端SEQ ID NO：69；白粉蝶(Pieris rapae)(NCBI基因组参考序列NW_019093607.1，Genbank蛋白质登记号XP_022123753.1)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：22，侧接推定的左端SEQ ID NO：70和推定的右端SEQ ID NO：71；桃蚜(Myzuspersicae)(NCBI基因组参考序列NW_019100532.1，蛋白质登记号XP_022166603)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：23，侧接推定的左端SEQ ID NO：72和推定的右端SEQ ID NO：73；牛头嗡蜣螂(Onthophagustaurus)(NCBI基因组参考序列NW_019280463，蛋白质登记号XP_022900752)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：24，侧接推定的左端SEQ ID NO：74和推定的右端SEQID NO：75；切胸蚁(Temnothoraxcurvispinosus)(NCBI基因组参考序列NW_020220783.1，蛋白质登记号XP_024881886)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ IDNO：25，侧接推定的左端SEQ ID NO：76和推定的右端SEQ ID NO：77；白蜡窄吉丁(Agrliusplanipenn)(NCBI基因组参考序列NW_020442437.1，蛋白质登记号XP_025836109)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：26，侧接推定的左端SEQ ID NO：78和推定的右端SEQ ID NO：79；温室拟肥腹蛛(Parasteatodatepidariorum)(NCBI基因组参考序列NW_018371884.1，蛋白质登记号XP_015905033)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：27，侧接推定的左端SEQ ID NO：80和推定的右端SEQ ID NO：81；棉红铃虫(Pectinophoragossypiella)(Genbank登录号GU270322.1，蛋白质ID ADB45159.1，也在Wang et al,2010.InsectMol.Biol.19,177-184.“piggyBac-like elements in the pink bollworm,Pectinophoragossypiella”中得到描述)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：28，侧接推定的左端SEQ ID NO：82和推定的右端SEQ ID NO：83；银纹夜蛾(Ctenoplusiaagnata)(NCBI登录号GU477713.1，蛋白质登记号ADV17598.1，也在Wu M,etal(2011)Genetica139:149-54."Cloning and characterization of piggyBac-likeelements in lepidopteran insects"中得到描述)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：29，侧接推定的左端SEQ ID NO：84和推定的右端SEQ ID NO：85；扁虫(Macrostomumlignano)(NCBI基因组参考序列NIVC01003029.1，蛋白质登记号PAA53757)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：30，侧接推定的左端SEQ ID NO：86和推定的右端SEQ ID NO：87；尾蜂(Orussusabietinus)(NCBI登录号XM_012421754，蛋白质登记号XP_012277177)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：31，侧接推定的左端SEQ ID NO：88和推定的右端SEQ ID NO：89；兰花蜜蜂(Eufrieseamexicana)(NCBI基因组参考序列NIVC01003029.1，蛋白质登记号XP_017759329)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：32，侧接推定的左端SEQ ID NO：90和推定的右端SEQ ID NO：91；斜紋夜盜蛾(Spodopteralitura)(NCBI基因组参考序列NC_036206.1，蛋白质登记号XP_022824855)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：33，侧接推定的左端SEQ ID NO：92和推定的右端SEQID NO：93；特美红蛱蝶(Vanessa tameamea)(NCBI基因组参考序列NW_020663261.1，蛋白质登记号XP_026490968)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：34，侧接推定的左端SEQ ID NO：94和推定的右端SEQ ID NO：95；德国小蠊(Blattellagermanica)(NCBI基因组参考序列PYGN01002011.1，蛋白质登记号PSN31819)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：35，侧接推定的左端SEQID NO：96和推定的右端SEQ ID NO：97；牛头嗡蜣螂(Onthophagustaurus)(NCBI基因组参考序列NW_019281532.1，蛋白质登记号XP_022910826)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：36，侧接推定的左端SEQ ID NO：98和推定的右端SEQ ID NO：99；牛头嗡蜣螂(Onthophagustaurus)(NCBI基因组参考序列NW_019281689.1，蛋白质登记号XP_022911139)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：37，侧接推定的左端SEQ ID NO：100和推定的右端SEQ ID NO：101；牛头嗡蜣螂(Onthophagustaurus)(NCBI基因组参考序列NW_019286114.1，蛋白质登记号XP_022913435)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：38，侧接推定的左端SEQ ID NO：102和推定的右端SEQ ID NO：103；苜蓿切叶蜂(Megachilerotundata)(NCBI基因组参考序列NW_003797295，蛋白质登记号XP_012145925)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：39，侧接推定的左端SEQ ID NO：104和推定的右端SEQ ID NO：105；花斑剑尾鱼(Xiphophorus maculatus)(NCBI基因组参考序列NC_036460.1，蛋白质登记号XP_023207869)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：40，侧接推定的左端SEQ ID NO：106和推定的右端SEQ ID NO：107；以及青鳉(Oryziaslatipes)(NCBI登录号NC_019868.2，蛋白质登记号XP_023815209)，其开放阅读框编码推定的转座酶，该推定的转座酶为SEQ ID NO：782，侧接推定的左端SEQ ID NO：1和推定的右端SEQ ID NO：2。

5.2.5.1 Oryzias转座酶及其相应的转座子

如第6.1.2节所述，通过酵母中的转座活性识别的活性转座酶及其相应的转座子为Oryzias转座酶。Oryzias转座酶包含多肽序列，其与SEQ ID NO:782的序列至少80％相同，或至少90％相同，或至少93％相同，或至少95％相同，或至少96％相同，或至少97％相同，或至少98％相同，或至少99％相同，或100％相同，并且其能够将转座子从转座酶报告构建体(transposase reporter construct)SEQ ID NO:41转座，如第6.1.2节所述。示例性非天然Oryzias转座酶包括SEQ ID NO：805-908给出的序列。

可以将Oryzias转座酶以蛋白质的形式作为基因转移系统的一部分提供，或提供为编码Oryzias转座酶的多核苷酸，其中该多核苷酸可在靶细胞中表达。当以多核苷酸形式提供时，Oryzias转座酶可以以DNA或mRNA形式提供。如果以DNA形式提供，则编码Oryzias转座酶的开放阅读框优选与异源调节元件可操作地连接，所述异源调节元件包括在靶细胞中具有活性的启动子(例如在真核细胞或脊椎动物细胞或哺乳动物细胞中具有活性的启动子)，使得转座酶在靶细胞中可表达。如果以mRNA形式提供，则mRNA可以体外制备自DNA分子，其中编码Oryzias转座酶的开放阅读框优选可操作地连接至在用于制备mRNA的体外转录系统中具有活性的异源启动子，例如T7启动子。

Oryzias转座子包含异源多核苷酸，其侧接左转座子末端和右转座子末端，该左转座子末端包含具有SEQ ID NO：7所给出的序列的左ITR，而该右转座子末端包含具有SEQ IDNO：8所给出的序列的右ITR，并且其中每个ITR的远端紧邻靶序列。在此处和其它地方，当反向重复由序列定义，该序列包括由模糊码(ambiguity code)定义的核苷酸时，可以在两个重复中独立地选择该核苷酸的同一性(identity)。尽管可以使用其它可用的靶序列，但是优选的靶序列是5'-TTAA-3'。优选地，转座子一侧上的靶序列是转座子另一侧上的靶序列的直接重复。左转座子末端还可包含与ITR相近的附加的序列，例如与选自SEQ ID NO：5、11或12的序列至少90％相同或100％相同的序列。右转座子末端可进一步包含与ITR相近的附加的序列，例如与选自SEQ ID NO：6、13、14或15的序列至少90％相同或100％相同的序列。代表性的Oryzias转座子的结构示于图1。Oryzias转座子可以被具有SEQ ID NO：782给出的多肽序列的转座酶转座，例如，由与Gal1启动子可操作连接具有SEQ ID NO：780给出的序列的多核苷酸所编码的多肽序列。

可以将包括ITR和靶序列的转座子末端添加到异源多核苷酸序列的末端，以产生合成的Oryzias转座子，其可以通过Oryzias转座酶有效地转座到靶真核生物基因组中。例如，SEQ ID NO：1、16和17各自包含左5'-TTAA-3'靶序列，其后是左转座子ITR，然后是可被添加到异源多核苷酸的一侧的附加的末端序列，其中靶序列相对于异源多核苷酸位于远端，以产生合成的Oryzias转座子。SEQ ID NO：2、18、19和20各自包含附加的末端序列，其后是右转座子ITR序列，然后是右5'-TTAA-3'靶序列，其可以添加到异源多核苷酸的另一侧，其中靶序列相对于异源多核苷酸位于远端，以产生合成的Oryzias转座子。前述的转座子末端序列包含作为靶序列的5’-TTAA-3’，但是该靶序列可以从合成的Oryzias转座子的两端去除，并被替代的靶序列取代。

Oryzias转座酶识别合成的Oryzias转座子。它们通过从一个转座子左端的靶序列上切割DNA并在第二个转座子末端的右端上切割靶序列，然后重新连接第一个DNA分子的切割端以留下靶序列的单个拷贝，从而从第一个DNA分子中切除转座子。被切除的转座子序列，包括位于转座子末端之间的任何异源DNA，都被转座酶整合到第二个DNA分子的靶序列中，例如靶细胞的基因组。基因组包含合成的Oryzias转座子的细胞是本发明的实施方案。

5.2.5.2 Oryzias转座酶在哺乳动物细胞中有活性

已证明尺蛾piggyBac转座酶在多种真核细胞中具有活性。在第6.1.2节中，我们示出了Oryzias转座酶可以将其相应的转座子转座入酵母酵母(Saccharomyces cerevisiae)的基因组中。在第6.1.3节中，我们示出了Oryzias转座酶可以将其相应的转座子转座入哺乳动物CHO细胞的基因组中。这些结果提供了证据，证明与其它已知的活性piggyBac类转座酶一样，Oryzias转座酶也具有将其相应的转座子转座入大多数真核细胞基因组中的活性。尽管Oryzias转座酶在多种真核细胞中均具有活性，编码Oryzias转座酶的天然的开放阅读框(由SEQ ID NO：781提供)不太可能在相似的大范围的细胞中良好表达，因为最佳密码子选用(optimal codon usage)在不同细胞类型之间存在显著差异。因此，有利的是使用不同于天然序列的序列来编码转座酶，换而言之，使用将在其中进行表达的细胞类型的密码子偏好。同样，选择启动子和其他调控序列，使其在要进行表达的细胞类型中具有活性。用于表达Oryzias转座酶的有利的多核苷酸在多核苷酸和SEQ ID NO：781之间的相应位置处包含相对于SEQ ID NO：781的至少2、5、10、20、30、40或50个同义密码子差异，可选地，其中选择多核苷酸中相应位置的密码子以用于哺乳动物细胞表达。具有SEQ ID NO:782给出的多肽序列的Oryzias转座酶的示例性多核苷酸序列由SEQ ID NO:780给出，其中在该多核苷酸与SEQ ID NO:781的对应位置处相对于SEQ ID NO：781的同义密码子差异被选择为用于哺乳动物细胞表达。多核苷酸可为DNA或mRNA。

5.2.6高活性的Oryzias转座酶

单独的有利突变可以以多种不同方式组合，例如通过“DNA混编(DNA shuffling)”或通过美国专利8,635,029B2和Liao et al(2007,BMC Biotechnology 2007,7:16doi:10.1186/1472-6750-7-16“Engineering proteinase K using machine learning andsynthetic genes”)中描述的方法。通过使用本文所述的选择方案的变体(例如第6.1.6节)和适当的相应转座子，可以获得具有修饰的活性的转座酶，所述修饰的活性为针对新靶序列的活性或针对现有靶序列的增强的活性。

已知活性的piggyBac类转座酶的比对可用于识别可能导致活性增强的氨基酸变化。转座酶通常对其宿主有害，因此倾向于积累使它们失活的突变。然而，在不同的转座酶中积累的突变是不同的，因为每个突变都是随机发生的。可以从序列的比对中获得共有序列，并且可以将其用于改善活性(Ivics et al,1997.Cell 91:501-510.“Molecularreconstruction of Sleeping Beauty,a Tc1-like transposon from fish,and itstransposition in human cells.”)。我们使用CLUSTAL算法比对了已知的活性piggyBac类转座酶，并列举了在每个位置发现的氨基酸。表1示出了相对于Oryzias转座酶(相对于SEQID NO：782)的这种多样性，C列中所示的氨基酸存在于已知的活性piggyBac类转座酶在比对中的等效位置，因此很可能是Oryzia转座酶中可接受的变化。D列示出了在除Oryzias转座酶外的其他已知活性的piggyBac类转座酶中发现的氨基酸变化，这些氨基酸变化所处的位置在其余转座酶组中具有良好的保守性，但在Oryzias转座酶序列中的氨基酸是异常值。A列中所示的位置的突变为D列中所示的氨基酸将特别有可能导致转座酶活性增强，因为它会使Oryzias转座酶的序列朝着共有的方向变化。

我们从表1的D列中选择了60个氨基酸取代，以在Oryzias转座酶SEQ ID NO：782进行取代。这些取代为E22D，D82K，A124C，Q131D，L138V，F149R，L156T，D160E，Y164F，I167L，A171T，G172A，R175K，K177N，G178R，L200R，T202R，I206L，I210L，N214D，W237F，V251L，V253I，V258L，M270I，I281F，A284L，M319L，G322P，L323V，H326R，F333W，Y337I，L361I，V386I，M400L，T402S，H404D，S408E，L409I，D422F，K435Q，Y440M，F455Y，V458L，D459N，S461A，A465S，V467I，L468I，W469Y，A512R，A514R，V515I，S524P，R548K，D549K，D550R，S551R和N562K。如6.1.6节所述，合成编码包含这些取代的组合的Oryzias转座酶变体的基因，并测试其转座酶活性。

除了天然存在的序列SEQ ID NO：782外，我们还工程了70多个具有切除或转座活性的非天然Oryzias转座酶变体。活性非天然Oryzias转座酶变体的示例性序列提供为SEQID NO：816-877。相对于转座活性而言具有增强的切除活性的Oryzias转座酶变体提供为SEQ ID NO：805-815。

因此，可以创建Oryzias转座酶，其为非天然的序列，但是与SEQ ID NO：782至少99％相同，或至少98％相同，或至少97％相同，或至少96％相同，或至少95％相同，或至少90％相同，或至少80％相同。此类变体可以保留SEQ ID NO：782的转座酶的部分活性(由转座活性和/或切除活性确定)，可以在转座和切除中的一者或两者中在功能上等同于SEQ IDNO：782的转座酶，或者在转座活性、切除活性或两者中相对于SEQ ID NO：782的转座酶具有增强的活性。此类变体可以包括本文所示的为了增加转座和/或切除的突变、本文所示的对于转座和/或切除而言是中性的突变，以及不利于转座和/或整合的突变。优选的变体包括显示为中性的突变或增强转座和/或切除的突变。一些此类变体缺少显示出不利于转座和/或切除的突变。一些这样的变体仅包括显示出增强转座的突变，仅包括显示出增强切除的突变，或显示出增强转座和切除的突变。

增强的活性是指超出实验误差的、大于衍生出变体的参考转座酶的活性(例如转座或切除活性)。活性可以是参考转座酶的1.2、1.5、2、5、10、15、20、50或100倍。增强的活性可以在参考转座酶的例如1.2-100倍，2-50倍，1.5-50倍或2-10倍的范围内。此处和其它地方的活性都可以如示例所示进行测量。

功能等效性是指变体转座酶可以以与参考转座酶相当的效率(在实验误差内)介导相同转座子的转座和/或切除。

此外，可以通过组合选自表1的D列中的两个、三个、四个或五个以上的取代来创建SEQ ID NO：782的变体序列。组合有益的取代，例如表1的D列中所示的那些，可以得到SEQID NO：782的高活性(hyperactive)的变体。优选的高活性的Oryzias转座酶可以在相对于SEQ ID NO：782的选自氨基酸22、124、131、138、149、156、160、164、167、171、175、177、202、206、210、214、253、258、281、284、361、386、400、408、409、455、458、467、468、514、515、524、548、549、550和551的位置上包含氨基酸取代(参见第6.1.6节)。优选地，取代是表1的C列或D列中所示的取代。有利的高活性的Oryzias转座酶包含选自E22D、A124C、Q131D、L138V、F149R、L156T、D160E、Y164F、I167L、A171T、R175K、K177N、T202R、I206L、I210L、N214D、V253I、V258L、I281F、A284L、L361I、V386I、M400L、S408E、L409I、F455Y、V458L、V467I、L468I、A514R、V515I、S524P、R548K、D549K、D550R和S551R的氨基酸取代(相对于SEQ ID NO：782)。一些高活性的Oryzias转座酶可进一步包含异源核定位序列。

相对于转座酶的转座活性，一些工程化的Oryzias转座酶可能具有更高的切除活性。在切除方面高活性的有利的Oryzias转座酶可以在相对于SEQ ID NO：782的序列的、选自氨基酸156、164、167、171、175、177、284和455的位置处包含氨基酸取代，例如选自L156T，Y164F，I167L，A171T，R175K，K177N，A284L和F455Y的氨基酸取代。可以结合这些取代来工程出比起转座活性而言具有更高切除活性的Oryzias转座酶。在切除方面高活性的示例性Oryzias转座酶包括选自SEQ ID NO：805-815的序列。

优选的高活性的Oryzias转座酶包含天然存在的蛋白质以外的氨基酸序列(例如，并非氨基酸序列包含SEQ ID NO：782的转座酶)，其与SEQ ID NO：805-877中的任何一个氨基酸序列具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％的同一性，并在相对于SEQ ID NO：782的选自氨基酸22、124、131、138、149、156、160、164、167、171、175、177、202、206、210、214、253、258、281、284、361、386、400、408、409、455、458、467、468、514、515、524、548、549、550和551的位置上包含取代。优选地，该高活性的Oryzias转座酶相对于SEQID NO：782的序列包含选自E22D、A124C、Q131D、L138V、F149R、L156T、D160E、Y164F、I167L、A171T、R175K、K177N、T202R、I206L、I210L、N214D、V253I、V258L、I281F、A284L、L361I、V386I、M400L、S408E、L409I、V458L、V467I、L468I、A514R、V515I、S524P、R548K、D549K、D550R和S551R的氨基酸取代或取代的任何组合，包括至少1、2、3、4、5、6、7、8、9、10个或所有的这些突变。

本发明的一个方面是使用天然存在的或高活性的Oryzias转座酶产生转基因细胞的方法。产生转基因细胞的方法包括(i)将天然存在的或高活性的Oryzias转座酶(以蛋白质或编码转座酶的多核苷酸的形式)和相应的Oryzias转座子引入真核细胞。转基因细胞的创建可进一步包括(ii)识别细胞，在该细胞中，Oryzias转座子被掺入真核细胞基因组。识别Oryzias转座子被掺入真核细胞基因组的细胞可以包括基于Oryzias转座子上编码的选择性标记来选择真核细胞，选择性标记可以是任何选择性多肽，包括任何本文所述的选择性多肽。

只要转座酶活性得到保持，也可以通过在转座酶蛋白的N和C末端或内部区域的N末端、C末端融合核定位信号(NLS)来提高转座酶的活性。核定位信号或序列(NLS)是“标记”或直接或间接促进蛋白质与核转运蛋白相互作用，以导入细胞核的的氨基酸序列。使用的核定位信号(NLS)可以包括共有NLS序列，病毒NLS序列，细胞NLS序列及其组合。

转座酶也可以与其他蛋白质功能域融合。这样的蛋白质功能结构域可以包括DNA结合结构域，可以促进一种或多种结构域融合的柔性铰链区(flexible hinge regions)，及其组合。可以与转座酶蛋白的N端，C端或内部区域融合，只要保持转座酶活性即可。与DNA结合域的融合可用于将Oryzias转座酶引导至特定的单个或多个基因组基因座。DNA结合结构域可包括螺旋-转-螺旋结构域、锌指结构域、亮氨酸拉链结构域、TALE(转录激活因子样效应物)结构域、CRISPR-Cas蛋白或螺旋-环-螺旋结构域。所使用的特定DNA结合结构域可以包括Gal4 DNA结合结构域、LexA DNA结合结构域，或Zif268 DNA结合结构域。所使用的柔性铰链区可包括甘氨酸/丝氨酸接头及其变体。

5.3试剂盒

本发明还涉及试剂盒，该试剂盒包含作为蛋白质或由核酸编码的Oryzias转座酶和/或Oryzias转座子；或如本文所述的基因转移系统，其包含作为蛋白质的或由本文所述的核酸编码的Oryzias转座酶与Oryzias转座子组合；可选地与药学上可接受的载体、佐剂或媒介物一起，以及可选地与使用说明书一起。本发明试剂盒的任何组分都可以以先后顺序或平行地施用和/或转染到细胞中，例如可以在施用和/或转染Oryzias转座子之前，同时或之后，如上所定义地将Oryzias转座酶蛋白或其编码核酸施用和/或转染到细胞中。或者，可以在转染Oryzias转座酶蛋白或其编码核酸之前、同时或之后，如上所定义地将Oryzias转座子转染到细胞中。如果平行转染，优选将两种组分以分开的制剂形式提供和/或直接在施用前彼此混合以避免转染前的转座。另外，试剂盒的至少一种组分的施用和/或转染可以以时间错开模式进行，例如通过多次使用该组分。

6.实施例

以下实施例说明了本文公开的方法，组合物和试剂盒，并且不应以任何方式解释为限制性的。从下面的例子中可以明显看出各种等同形式。这样的等同物也被认为是本文公开的本发明的一部分。

6.1新转座酶

6.1.1测量转座酶活性

如第5.2.5节所述，可以使用转座子干扰选择性标记的系统测量活性转座酶的转座频率。构建转座酶报告多核苷酸，其中酵母Saccharomyces cerevisiae的URA-CH3开放阅读框被酵母TRP 1开放阅读框干扰，该TRP 1开放阅读框可操作地连接至启动子和终止子，从而使其可在酵母Saccharomyces cerevisiae中表达。TRP1基因侧接推定的转座子末端，其带有5'-TTAA-3'靶位点，使得对推定的转座子的切除将留下5'-TTAA-3'靶位点的单个副本，并精确地重构URA3开放阅读框。通过将转座酶报道多核苷酸整合到对LEU2和TRP1营养缺陷的单倍体酵母株的URA3基因中以构建酵母转座酶报告菌株，使得该菌株成为LEU2-，URA3-和TRP1+。

测试了转座酶从URA3开放阅读框中转座含TRP1基因的转座子的能力。将编码推定的转座酶的每个开放阅读框克隆到酿酒酵母(Saccharomyces cerevisiae)表达载体中，该酿酒酵母表达载体包含2微米的复制起点和可在酵母菌(Saccharomyces)中表达的LEU2基因。每个转座酶开放阅读框可操作地连接到Gal1启动子。将每个克隆的转座酶开放阅读框转化为酵母转座酶报告菌株，并接种在缺乏亮氨酸的基本培养基上。2天后，通过刮板收集所有LEU+菌落。通过在半乳糖中生长4小时来诱导Gal启动子，然后将细胞铺板到3种不同的板上：仅缺少亮氨酸的板、缺少亮氨酸和尿嘧啶的板，以及缺少亮氨酸、尿嘧啶和色氨酸的板。将这些板培育2-4天，并计数每块板上的菌落，分别测量活细胞的数目，转座子切除事件的数目以及转座子切除和再整合(即转座事件)的数目。

6.1.2识别活性oryziaspiggybac类转座酶

如第5.2.5节所述，从Genbank中识别十一种推定的piggyBac类座酶，其与来自尺蛾(Trichoplusiani)的piggyBac转座酶至少20％相同。这些推定的转座酶展现包含活性piggyBac类转座酶的DDDE基序特征。分析了侧翼DNA序列中是否存在piggyBac转座的以下特征：紧邻5'-TTAA-3'靶序列的反向重复序列。推定的左和右转座子末端序列取自这些侧翼序列，所述推定的左和右转座子末端序列包括5'-TTAA-3'靶序列与编码推定转座酶的开放阅读框之间的序列。将这些转座子末端并入如6.1.1节所述的构造的转座酶报告构建体中，并整合到酿酒酵母(Saccharomyces cerevisiae)的基因组中，从而产生转座酶报告菌株。对每个报告菌株的相应转座酶序列进行反翻译，合成，克隆到酿酒酵母(Saccharomycescerevisiae)表达载体中，并转化成报告菌株。如6.1.1节所述测量转座酶活性。

以下二十种组合没有显示出切除或转座：报告构建体SEQ ID NO：48(包含推定的左转座子末端SEQ ID NO：68和推定的右转座子末端SEQ ID NO：69)，带有转座酶SEQ IDNO：21；报告构建体SEQ ID NO：49(包含推定的左转座子末端SEQ ID NO：70和推定的右转座子末端SEQ ID NO：71)，带有转座酶SEQ ID NO：22；报告构建体SEQ ID NO：50(包含推定的左转座子末端SEQ ID NO：72和推定的右转座子末端SEQ ID NO：73)，带有转座酶SEQ IDNO：23；报告构建体SEQ ID NO：51(包含推定的左转座子末端SEQ ID NO：74和推定的右转座子末端SEQ ID NO：75)，带有转座酶SEQ ID NO：24；报告构建体SEQ ID NO：52(包含推定的左转座子末端SEQ ID NO：76和推定的右转座子末端SEQ ID NO：77)，带有转座酶SEQ IDNO：25；报告构建体SEQ ID NO：53(包含推定的左转座子末端SEQ ID NO：78和推定的右转座子末端SEQ ID NO：79)，带有转座酶SEQ ID NO：26；报告构建体SEQ ID NO：54(包含推定的左转座子末端SEQ ID NO：80和推定的右转座子末端SEQ ID NO：81)，带有转座酶SEQ IDNO：27；报告构建体SEQ ID NO：55(包含推定的左转座子末端SEQ ID NO：82和推定的右转座子末端SEQ ID NO：83)，带有转座酶SEQ ID NO：28；报告构建体SEQ ID NO：56(包含推定的左转座子末端SEQ ID NO：84和推定的右转座子末端SEQ ID NO：85)，带有转座酶SEQ IDNO：29；报告构建体SEQ ID NO：57(包含推定的左转座子末端SEQ ID NO：86和推定的右转座子末端SEQ ID NO：87)，带有转座酶SEQ ID NO：30；报告构建体SEQ ID NO：58(包含推定的左转座子末端SEQ ID NO：88和推定的右转座子末端SEQ ID NO：89)，带有转座酶SEQ IDNO：31；报告构建体SEQ ID NO：59(包含推定的左转座子末端SEQ ID NO：90和推定的右转座子末端SEQ ID NO：91)，带有转座酶SEQ ID NO：32；报告构建体SEQ ID NO：60(包含推定的左转座子末端SEQ ID NO：92和推定的右转座子末端SEQ ID NO：93)，带有转座酶SEQ IDNO：33；报告构建体SEQ ID NO：61(包含推定的左转座子末端SEQ ID NO：94和推定的右转座子末端SEQ ID NO：95)，带有转座酶SEQ ID NO：34；报告构建体SEQ ID NO：62(包含推定的左转座子末端SEQ ID NO：96和推定的右转座子末端SEQ ID NO：97)，带有转座酶SEQ IDNO：35；报告构建体SEQ ID NO：63(包含推定的左转座子末端SEQ ID NO：98和推定的右转座子末端SEQ ID NO：99)，带有转座酶SEQ ID NO：36；报告构建体SEQ ID NO：64(包含推定的左转座子末端SEQ ID NO：100和推定的右转座子末端SEQ ID NO：101)，带有转座酶SEQ IDNO：37；报告构建体SEQ ID NO：65(包含推定的左转座子末端SEQ ID NO：102和推定的右转座子末端SEQ ID NO：103)，带有转座酶SEQ ID NO：38；报告构建体SEQ ID NO：66(包含推定的左转座子末端SEQ ID NO：104和推定的右转座子末端SEQ ID NO：105)，带有转座酶SEQID NO：39；报告构建体SEQ ID NO：67(包含推定的左转座子末端SEQ ID NO：106和推定的右转座子末端SEQ ID NO：107)，带有转座酶SEQ ID NO：40。这与文献报道一致：尽管对与来自尺蛾(Trichoplusiani)的piggyBac转座酶同源的序列的计算识别是直截了当的，但即使这些序列看起来具有完整的末端重复并且转座酶似乎包含活性piggyBac类转座酶中发现的DDDE基序，它们中的大多数是没有活性的。因此，有必要测量切除和转座活性，以识别新颖的活性piggyBac类转座酶和转座子。

一种在从报告基因构建体中切除其相应转座子方面表现出良好活性(通过URA+菌落的出现而示出)以及将转座子中的TRP基因转座到酿酒酵母(Saccharomycescerevisiae)报告菌株中的另一基因组位置中的转座酶是转座酶SEQ ID NO：782。转座酶SEQ ID NO：782能够转座来自报告构建体SEQ ID NO：41的转座子。这示出于表2：G列示出了切除事件的数量(通过测量URA+菌落的出现)；H列示出了完整转座事件的数量(通过测量URA+TRP+菌落的出现)。

6.1.3 Oryzias转座酶在哺乳动物细胞中活跃

PiggyBac类转座酶可以将其相应的转座子转座到真核细胞的基因组中，真核细胞包括酵母细胞(如巴斯德毕赤酵母(Pichia pastoris)和酿酒酵母(Saccharomycescerevisiae))以及哺乳动物细胞(如人胚肾(HEK)细胞和中国仓鼠卵巢(CHO)细胞)。为确定piggyBac类转座酶在哺乳动物细胞中的活性，我们构建了基因转移多核苷酸，其包含转座子末端，并进一步包含选择标记，其用SEQ ID NO：129的多肽序列编码谷氨酰胺合成酶，该选择性标记可操作地连接至提供谷氨酰胺合成酶的弱表达的调控元件、谷氨酰胺合成酶的序列及与其相关的由SEQ ID NO：172给出的调控元件。基因转移多核苷酸还包含编码抗体重链和轻链的开放阅读框，每个开放阅读框可操作地连接至启动子和聚腺苷酸化信号序列。基因转移多核苷酸(SEQ ID NO：108)包含左转座子末端，其包含5'-TTAA-3'靶整合序列，紧随其后的是带有SEQ ID NO：9给出的ITR序列的Oryzias左转座子末端(其为SEQ IDNO：7的一个实施方案)。该基因转移多核苷酸进一步包含带有由SEQ ID NO：10给出的ITR序列的Oryzias右转座子末端(其为SEQ ID NO：8的一个实施方案)，紧随其后的是5'-TTAA-3'靶整合序列。将两个Oryzias转座子末端置于包含谷氨酰胺合成酶选择性标记和编码抗体的重链和轻链的开放阅读框的异源多核苷酸的任一侧。左转座子末端进一步包含由SEQ IDNO：5给出的序列，该序列紧邻左ITR且在异源多核苷酸的近端。右转座子末端进一步包含由SEQ ID NO：6给出的序列，该序列紧邻右ITR并且在异源多核苷酸的近端。

将基因转移多核苷酸转染到缺少功能性谷氨酰胺合成酶基因的CHO细胞中。通过用25μg基因转移多核苷酸DNA进行电穿孔来转染细胞，可以与3μgDNA共转染或不与3μgDNA共转染，所述DNA包含编码与人CMV启动子和聚腺苷酸化信号序列可操作地连接的转座酶的基因。在电穿孔后，将细胞在含有4mM谷氨酰胺的培养基中培养48小时，随后在缺乏谷氨酰胺的培养基中稀释至每毫升300,000个细胞。每5天将细胞更换至新鲜的无谷氨酰胺的培养基。使用Beckman-Coulter Vi-Cell在转染后的不同时间测量每次转染的细胞活力。还用同一仪器测量了活细胞的总数。结果示于表3。

如表3中所示，到转染后12天，被基因转移多核苷酸且无转座酶转染的细胞的活力下降至约27％(B列)。7天之内，活细胞总数降至每毫升少于50,000个(C列)。在活细胞密度等于或低于此密度时，活力测量变得不准确。该培养从未恢复。相反，当将SEQ ID NO：108的基因转移多核苷酸与Oryzias转座酶SEQ ID NO：782共转染时，细胞在10天内恢复到大于90％的活力(表3的D列)，此时的活细胞密度超过每毫升200万(表3的E列)。这表明包含左和右Oryzias转座子末端的基因转移多核苷酸可以通过相应的Oryzias转座酶高效地转座到哺乳动物靶细胞的基因组中。

使用Sigma Advanced Fed Batch培养基在14天的分批补料(fed-batch)中培养回收的CHO细胞池，该CHO细胞池包含整合到其基因组中的piggyBac类转座子。使用Octet在培养上清液中测量抗体效价。表4示出了在分批补料培养的第7、10、12和14天时测得的效价。14天后，来自通过与Oryzias转座酶SEQ ID NO：782共转染而整合的、包含SEQ ID NO：108的基因转移多核苷酸的细胞的抗体的效价达到约2g/L。这表明，如5.2.5节所述的Oryzias转座子及其相应的转座酶是一种新颖的，piggyBac类的转座子/转座酶系统，其在哺乳动物细胞中具有活性，可用于开发表达蛋白质的细胞系并工程化哺乳动物细胞的基因组。

6.1.4编码Oryzias转座酶的信使RNA在哺乳动物细胞中具有活性

我们进一步测试了带有SEQ ID NO：108的基因转移多核苷酸(其结构在第6.1.3节中描述)以确定如果相应的转座酶以mRNA的形式提供，是否可以将合成的Oryzias转座子整合到哺乳动物细胞的基因组中。

使用T7 RNA聚合酶通过体外转录制备编码转座酶的mRNA。mRNA在编码开放阅读框的序列之前包含5'序列SEQ ID NO：109，在开放阅读框末端的终止密码子之后包含3'序列SEQ ID NO：110。该mRNA具有抗反向帽类似物(3'-O-Me-m⁷G(5')ppp(5')G。包含编码可操作地连接至在体外具有活性的异源启动子的转座酶的序列的DNA分子可用于制备转座酶mRNA。包含编码转座酶的序列的分离的mRNA分子可用于将相应的转座子整合到靶基因组中。

带有SEQ ID NO：108的基因转移多核苷酸354498包含编码谷氨酰胺合成酶的选择性标记，其具有SEQ ID NO：129给出的多肽序列，其由SEQ ID NO：134给出的DNA序列编码并且可操作地连接至调节元件，该调节元件导致弱谷氨酰胺合成酶表达，谷氨酰胺合成酶的序列及其相关调控元件如SEQ ID NO：172所示。基因转移多核苷酸SEQ ID NO：108还包含编码抗体重链和轻链的开放阅读框，每个开放阅读框均可操作地连接至启动子和聚腺苷酸化信号序列。基因转移多核苷酸SEQ ID NO：108进一步包含具有由SEQ ID NO：1给出的序列的Oryzias左转座子末端和具有由SEQ ID NO：2给出的序列的Oryzias右转座子末端。

使用T7 RNA聚合酶通过体外转录制备编码Oryzias转座酶的mRNA。该mRNA包含在开放阅读框之前的5'序列SEQ ID NO：109、编码Oryzias转座酶(氨基酸序列SEQ ID NO：782，核苷酸序列SEQ ID NO：780)的开放阅读框，和在开放阅读框末端的终止密码子之后的3'序列SEQ ID NO：110。将基因转移多核苷酸SEQ ID NO：108转染到缺乏功能性谷氨酰胺合成酶基因的CHO细胞中。通过电穿孔转染细胞：将25μg基因转移多核苷酸DNA与3μg mRNA共转染，该mRNA包含编码相应转座酶(氨基酸序列SEQ ID NO：782，核苷酸序列SEQ ID NO：780)的开放阅读框。细胞在电穿孔后在含有4mM谷氨酰胺的培养基中培养48小时，然后在缺乏谷氨酰胺的培养基中稀释至每毫升300,000个细胞。每5天将细胞更换至新鲜的无谷氨酰胺的培养基。使用Beckman-Coulter Vi-Cell在转染后的不同时间测量每次转染的细胞活力。还用同一仪器测量了活细胞的总数。结果示于表5。

当将具有SEQ ID NO：108的基因转移多核苷酸与编码Oryzias转座酶SEQ ID NO：782的mRNA共转染时，到转染后9天，生存力下降到约28％(表5的B列)，此时活细胞的密度约为每毫升40,000(表5的C列)。然后，细胞生存力和活细胞密度增加，直到转染后28天，生存力超过96％，每毫升超过300万个活细胞。这表明，当与编码相应的Oryzias转座酶的mRNA共转染时，包含左和右Oryzias转座子末端的基因转移多核苷酸可以有效地转座入哺乳动物靶细胞的基因组中。

6.1.5在哺乳动物细胞中具有活性的Oryzias转座子末端序列

当我们最初测试Oryzias转座子时，我们使用了5'-TTAA-3'靶序列和转座酶开放阅读框之间的整个序列作为转座子末端。我们已经发现，对于其它piggyBac类序列，转座活性通常不需要该完整序列。因此，我们构建了具有截短末端的合成Oryzias转座子，以确定它们是否可被Oryzias转座酶转座。SEQ ID NO：42的异源多核苷酸编码具有由SEQ ID NO：130给出的多肽序列的谷氨酰胺合成酶，其可操作地连接至调节元件，所述调节元件作为选择性标记导致弱谷氨酰胺合成酶表达。在异源多核苷酸的一侧是左侧的Oryzias转座子末端，其包含5'-TTAA-3'整合靶序列，紧接着是具有SEQ ID NO：9的转座子ITR序列，其为SEQID NO：7的实施方案。在异源多核苷酸的另一侧是右侧的Oryzias转座子末端，其包含具有SEQ ID NO：10的转座子ITR序列(其为SEQ ID NO：8的实施方案)，紧接着是5'-TTAA-3'整合靶顺序。转座子还包含选自SEQ ID NO：5、11和12的紧邻(跟随)左转座子ITR序列的附加序列。转座子进一步包含选自SEQ ID NO：6、13、14和15的紧邻右转座子ITR序列(在其之前)的附加序列。转座子被转染到缺乏功能性谷氨酰胺合成酶基因的CHO细胞中。通过电穿孔转染细胞：转染25μg基因转移多核苷酸DNA，可选地，将细胞与3μg包含编码相应转座酶(氨基酸序列SEQ ID NO：782，核苷酸序列SEQ ID NO：780)的开放阅读框的mRNA共同转染。细胞在电穿孔后在含有4mM谷氨酰胺的培养基中孵育48小时，然后在缺乏谷氨酰胺的培养基中稀释至每毫升300,000个细胞。每5天将细胞更换至新鲜的无谷氨酰胺的培养基。使用Beckman-Coulter Vi-Cell在转染后的不同时间测量每次转染的细胞活力。还用同一仪器测量了活细胞的总数。结果示于表6。

表6的B列和C列示出了当用包含具有SEQ ID NO：11的截短的左转座子末端和具有SEQ ID NO：6的全长右转座子末端的转座子转染细胞时细胞生存力和活细胞密度(viablecell density)的降低。在整个实验过程中，细胞生存力和活细胞密度均下降。与此相对，当将任何相同的转座子与编码Oryzias转座酶的mRNA共转染时，细胞生存力和活细胞密度最初下降，但在第14天就开始恢复，并在第19天和第24天之间完全恢复(表6的C列和D列)。当用包含具有SEQ ID NO：12的截短的左转座子末端和具有SEQ ID NO：6的全长右转座子末端的转座子转染细胞时，获得可比的结果(比较表6的E和F列及G和H列)。当用包含具有SEQ IDNO：5的全长左转座子末端和具有SEQ ID NO：13的截短的右转座子末端的转座子转染细胞时也获得了可比的结果(比较表6的I和J列及K和L列)。当用包含具有SEQ ID NO：5的全长左转座子末端和具有SEQ ID NO：14的截短的右转座子末端的转座子转染细胞时也获得了可比的结果(比较表6的M和N列及O和P列)。当用包含具有SEQ ID NO：5的全长左转座子末端和具有SEQ ID NO：15的截短的右转座子末端的转座子转染细胞时也获得了可比的结果(比较表6的Q和R列及S和T列)。这表明，除了紧邻具有SEQ ID NO：7的转座子ITR序列的整合靶序列之外，Oryzias合成转座子的左转座子末端还可包含紧邻选左转座子ITR序列的、选自SEQID NO：5、11和12的附加序列；并且Oryzias合成转座子的右转座子末端可以包含紧邻具有SEQ ID NO：8的右转座子ITR序列的、选自SEQ ID NO：6、13、14和15的附加序列。

6.1.6工程高活性的Oryzias转座酶

为了识别相对于SEQ ID NO：782给出的天然存在的Oryzias转座酶序列，导致增加的转座活性或增加的切除活性的Oryzias转座酶突变，我们分析了活性piggyBac类转座酶的CLUSTAL比对。表1的C列示出了相对于Oryzias转座酶中的每个位置(表1的A列所示的位置)的活性piggyBac类转座酶中的氨基酸。表1的B列示出了由SEQ ID NO：782给出的Oryzias转座酶中存在的氨基酸。由于转座酶通常对其宿主有害，因此它们倾向于积累使它们失活的突变。在不同的转座酶中积累的突变是不同的，因为每种突变都是随机发生的。因此，可以使用共有序列来近似在有害突变积累之前的祖先序列。很难从少量现存序列中准确计算出祖先序列，因此我们选择关注于活性转座酶保守性更高，共有氨基酸不同于Oryzias转座酶的氨基酸的位置。我们认为将这些氨基酸突变为其他活性转座酶中发现的共有氨基酸很可能会增加Oryzias转座酶的活性。这些候选的有益氨基酸取代示出于表1的D列中。

6.1.6.1第一组Oryzias转座酶变体

一组95个编码变体Oryzias转座酶的多核苷酸，其包含一个或多个选自E22D、D82K、A124C、Q131D、L138V、F149R、L156T、D160E、Y164F、I167L、A171T、G172A、R175K、K177N、G178R、L200R、T202R、I206L、I210L、N214D、W237F、V251L、V253I、V258L、M270I、I281F、A284L、M319L、G322P、L323V、H326R、F333W、Y337I、L361I、V386I、M400L、T402S、H404D、S408E、L409I、K435Q、Y440M、F455Y、V458L、D459N、S461A、A465S、V467I、L468I、W469Y、A512R、A514R、V515I、S524P、R548K、D549K、D550R、S551R和N562K的取代。在该95个变体的组中，每个取代至少代表5次，并且取代的成对组合的数量最大化，使得在尽可能多的不同序列情景(context)中测试每个取代。将每个变体基因克隆到包含亮氨酸选择性标记的载体中；每个编码转座酶变体的基因均与酿酒酵母(Saccharomyces cerevisiae)Gal-1启动子可操作连接。然后，如上所述，将这些变体中的每一个分别转化为包含SEQ ID NO：41的染色体整合拷贝的酿酒酵母(Saccharomyces cerevisiae)菌株。在48小时后，将细胞从平板上刮入缺乏亮氨酸且半乳糖为碳源的基本培养基中。将每种培养物的A600调整为2。将培养物在半乳糖中培养4小时以诱导转座酶的表达，然后将1,000x稀释的等分样品铺板在缺少亮氨酸，尿嘧啶和色氨酸的培养基上(以计算转座)，将1,000x稀释的等分样品铺板在缺少亮氨酸和尿嘧啶的培养基上(以计算切除)，并将25,000x稀释的等分样品铺板在缺乏亮氨酸的培养基上(以计算活细胞总数)。两天后，对菌落计数以计算转座频率(＝–leu-ura-trp培养基上的细胞数除以(25x–leu培养基上的细胞数))和切除频率(＝–leu-ura-培养基上的细胞数除以(25x–leu培养基上的细胞数))。结果示于表7。超过60个的Oryzias转座酶变体(具有由SEQ ID NO：816-877给出的序列)具有切除或转座活性，其至少是针对天然存在的Oryzias转座酶测得的活性的10％。尽管这些活性不如天然存在的转座酶，但它们仍是将Oryzias转座子整合到靶真核细胞的基因组中的高度活跃和有用的转座酶。相对于SEQ IDNO：782的活性，某些具有表7所示活性的Oryzias转座酶具有针对切除的高活性。示例性的针对切除具有高活性的Oryzias转座酶包含选自SEQ ID NO：805-815的序列。这些都是功能性的非天然Oryzias转座酶。

如美国专利8,635,029和Liao et al(2007,BMC Biotechnology 2007,7:16doi:10.1186/1472-6750-7-16“Engineering proteinase K using machine learning andsynthetic genes”)中所述，对序列改变对切除和转座频率的影响进行建模。计算每个取代的回归权重的平均值和标准差，这些均示于表8中。单个取代对转座酶活性的影响可能因环境(即存在的其他取代)而异。正的平均回归权重表示：考虑到已在其中测试的所有不同序列情景，平均而言，取代对测得的特性具有积极影响。将具有正平均回归权重的取代并入序列通常产生具有改善的活性的变体(Liao等，同上)。取代的效果的情景相关变异性的进一步度量是回归权重的标准偏差。如果取代的平均回归权重减去该取代的回归权重的标准偏差为零或更大，则该取代在大多数情景下都具有积极作用。我们通过寻找其它活跃的piggyBac类转座酶的朝共有的变化而选择的六十个取代中的三十一个的平均回归权重减去用于切除或转座的回归权重的标准偏差为零或更大：E22D，A124C，Q131D，L138V，D160E，Y164F，I167L，A171T，R175K，T202R，I206L，I210L，N214D，V253I，V258L，I281F，A284L，V386I，M400L，S408E，L409I，F455Y，V458L，V467I，L468I，A514R，V515I，D549K，D550R和S551R(表8的F和I列)。我们通过寻找其它活跃的piggyBac类转座酶的朝共有的变化而选择的三十六个取代的平均回归权重为零或更大：E22D，A124C，Q131D，L138V，F149R，L156T，D160E，Y164F，I167L，A171T，R175K，K177N，T202R，I206L，I210L，N214D，V253I，V258L，I281F，A284L，L361I，V386I，M400L，S408E，L409I，F455Y，V458L，V467I，L468I，A514R，V515I，S524P，R548K，S549K，D550R和S551R。除了辨认具有有益作用的特定取代之外，这还指示了类似取代(analogous substitutions)可能有益的位置。类似取代是其中氨基酸的特性被保留的取代。例如：甘氨酸和丙氨酸在“小”氨基酸组中；缬氨酸、亮氨酸、异亮氨酸和蛋氨酸在“疏水”氨基酸组中；苯丙氨酸、酪氨酸和色氨酸在“芳香”氨基酸组中；天冬氨酸盐和谷氨酸盐在“酸性”氨基酸组中；天冬酰胺和谷氨酰胺在“酰胺”氨基酸组中；组氨酸、赖氨酸和精氨酸在“碱性”氨基酸组中；半胱氨酸，丝氨酸和苏氨酸在“亲核”氨基酸组中。如果Oryzias转座酶内氨基酸位置处的取代对切除或转座活性有利，那么来自相同氨基酸基团组的其它取代在相同的位置上也可能是有益的。例如，由于用酸性残基谷氨酸盐(S408E)替代位置408处的亲核残基丝氨酸是有益的，所以用酸性残基天冬氨酸盐(即S408D)的替代也可能是有益的。类似地，由于用疏水残基亮氨酸(V258L)替代位置258处的疏水残基缬氨酸是有益的，所以用疏水残基异亮氨酸或蛋氨酸(即V258I或V258M)的替代也可能是有益的。有利的高活性Oryzias转座酶在相对于SEQ ID NO：782的序列的选自氨基酸22、124、131、138、160、164、167、171、175、202、206、210、214、253、258、281、284、386、400、408、409、455、458、458、467、468、514、515、548、549、550和551的一个或多个位置上包含氨基酸取代，例如在这些位置之一的选自E22D，A124C，Q131D，L138V，D160E，Y164F，I167L，A171T，R175K，T202R，I206L，I210L，N214D，V253I，V258L，I281F，A284L，V386I，M400L，S408E，L409I，F455Y，V458L，V467I，A514R，V515I，R548K，D549K，D550R和S551R的一个或多个氨基酸取代或类似取代。

表8还示出某些取代对于切除的回归权重为正，但对于整合的权重为低得多的正值，或甚至为负。这些包括氨基酸取代L156T，Y164F，I167L，A171T，R175K，K177N，A284L和F455Y。可以结合这样的取代来工程出与转座活性相比，切除活性更强的Oryzias转座酶。在切除方面具有高活性的有利的Oryzias转座酶包含在相对于SEQ ID NO：782的序列的选自氨基酸156、164、167、171、175、177、284和455的位置上的氨基酸取代，例如在这些位置之一的选自L156T，Y164F，I167L，A171T，R175K，K177N，A284L和F455Y的一个或多个氨基酸取代或类似取代。

6.1.6.2第二组Oryzias转座酶变体

如Liao等(2007,BMC Biotechnology 2007,7:16doi:10.1186/1472-6750-7-16“Engineering proteinase K using machine learning and synthetic genes”)和美国专利8,635,029的第5.4.2和5.4.3节中所述，在其它取代的不同组合的情景下进行了多次测试的，且具有“正的回归系数、权重，或用于描述其对一种或多种活性的相对或绝对贡献的其它值”的蛋白质的取代被有用地并入蛋白质中，以获得“针对一个或多个感兴趣的属性、活性或功能具有改进”的蛋白质。基于表8所示的取代权重，我们设计了一组开放阅读框，其编码31个新变体(序列由SEQ ID NO：878-908给出)，结合一些最正(positive)的取代(L156T，Y164F，I167L，R175K，K177N，I210L，V258L，A284L，V386I，L409I，F455Y，V458L，A465S，A514R和D550R)。在31个变体的组中，每个取代至少被代表5次，并且取代的成对组合的数量最大化，使得在尽可能多的不同序列情景中测试每个取代。将每个变体开放阅读框克隆到包含亮氨酸选择性标记的载体中；每个编码转座酶变体的基因均与酿酒酵母(Saccharomyces cerevisiae)Gal-1启动子可操作连接。然后，如第6.1.6.1节所述，将这些变体中的每一个分别转化为包含SEQ ID NO：41的染色体整合拷贝的酿酒酵母(Saccharomyces cerevisiae)菌株。在48小时后，将细胞从平板上刮入缺乏亮氨酸且半乳糖为碳源的基本培养基中。将每种培养物的A600调整为2。将培养物在半乳糖中培养4小时以诱导转座酶的表达，然后将25,000x稀释的等分样品铺板在缺少亮氨酸，尿嘧啶和色氨酸的培养基上(以计算转座)，将1,000x稀释的等分样品铺板在缺少亮氨酸和尿嘧啶的培养基上(以计算切除数)，并将25,000x稀释的等分样品铺板在缺乏亮氨酸的培养基上(以计算活细胞总数)。两天后，对菌落计数以计算转座频率(＝–leu-ura-trp培养基上的细胞数除以(–leu培养基上的细胞数))。结果示于表9。

除了31个新的Oryzias转座酶变体的活性外，表9还示出了来自第一组的1个变体的活性，该变体是该组中最活跃的变体。新的一组变体的活性大大高于第一组。没有变体是无活性的，观察到的最低活性(对于SEQ ID NO：899)是SEQ ID NO：782的活性的42％，并且几种变体比天然存在的Oryzias转座酶具有更高的转座活性(SEQ ID NO：853、885、903和905)。优选的Oryzias转座酶包含选自L156T，Y164F，I167L，R175K，K177N，I210L，V258L，A284L，V386I，L409I，F455Y，V458L，A465S，A514R和D550R的氨基酸取代，或在相同位置的类似变化。

表格简述

表1.氨基酸变化可能导致转座酶活性增强。

如第5.2.6节所述，识别了具有改善转座酶活性潜力的氨基酸取代。A列示出了Oryzias转座酶中的位置(相对于SEQ ID NO：782)，B列示出了天然蛋白质中的氨基酸，C列示出了在比对中，在已知的活性piggyBac类转座酶中的相等位置(equivalent position)上的氨基酸。D列示出了在已知活性的piggyBac类转座酶(非Oryzias转座酶)中的在其余转座酶组中具有良好保守性，但Oryzias转座酶序列中的氨基酸是异常值的位置处发现的氨基酸变化的位置。这些氨基酸的突变特别有可能导致转座酶活性增强。列中的多于一个氨基酸字母表示每个单独的氨基酸取代都是可接受的或有益的，其并非旨在代表肽。例如，在位置2处，氨基酸T、A、R、D或N都是可接受的，因此C列包含“TARDN”以表明这一点。

表2.酵母中转座子的切除和转座。

转座子和转座酶来源列于A列。如第6.1.2节所述，使用B列中示出的左序列的SEQID NO和C列中示出的右序列的SEQ ID NO来构建报告质粒。报告质粒具有由列D中列出的SEQ ID NO给出的插入序列。这些报告质粒被整合到酿酒酵母(Saccharomycescerevisiae)的Trp菌株的Ura3基因中。对E列中所示的SEQ ID NO所给出的氨基酸序列进行反翻译、合成并克隆到包含可在酿酒酵母(Saccharomyces cerevisiae)中表达的Leu2基因和2微米复制起点的质粒中。转座酶基因可操作地连接到Gal1启动子。将包含转座酶的质粒转化到报告株中，诱导表达，并如6.1.1节所述铺板细胞。将诱导培养物稀释25,000倍，然后将100μl铺板在leu缺失(dropout)板上，然后将100μl铺板至leu ura缺失板或leu uratrp缺失板上。F列示出leu缺失板上的菌落数；G列示出了leuura缺失板上的菌落数(表明在报道基因中从ura基因的中间切除了转座子)；H列示出了leu uratrp缺失板上的菌落数(表明在报告基因中从ura基因的中间切除转座子，并将其转座到基因组的另一个位点)。

表3.转座子转座到CHO靶细胞基因组。

如第6.1.3节所述，用转座子SEQ ID NO:108转染细胞。转座酶SEQ ID NO示于第1行中。如第2行所示，相邻的列中示出每次转染的生存力(存活的细胞的百分比)和总存活细胞密度(以每毫升百万细胞计)。第3-17行示出了转染后不同时间的这些测量值，经过的天数示于A列。

表4.整合到CHO靶细胞基因组中的转座子的抗体生产。

如第6.1.3节所述，用转座子和转座酶转染细胞。回收率示于表3。在14天分批补料生产抗体的过程中，培养上清液含有所示浓度的抗体(抗体效价)：A列示出第7天的效价(titer)；B列示出第10天的效价；C列示出第12天的效价；D列示出第14天的效价。

表5.通过mRNA编码的转座酶将转座子转座入CHO靶细胞的基因组。

如第6.1.4节所述，用转座子和mRNA编码的转座酶转染细胞。如第3行所示，相邻的列中示出生存力(存活的细胞的百分比)和总存活细胞密度(以每毫升百万细胞计)。第1-12行示出了转染后不同时间的这些测量值，经过的天数示于A列。

表6.具有截短的末端序列的转座子转座到CHO靶细胞的基因组中。

如第6.1.5节所述，用转座子和可选的mRNA编码的转座酶转染细胞。转座子SEQ IDNO示于第1行。每个转座子都包含左转座子末端，该左转座子末端包含5'-TTAA-3'整合靶序列，该5'-TTAA-3'整合靶序列紧邻具有SEQ ID NO:9的转座子ITR序列，该转座子ITR序列紧邻(在其后方)SEQ ID NO示于第2行的左转座子末端。转座子还包含SEQ ID NO：42：开放阅读框，其编码与哺乳动物细胞中可表达的调控序列可操作连接的谷氨酰胺合成酶选择性标记。转座子进一步包含右转座子末端，该右转座子末端包含SEQ ID NO示于第3行的右末端序列，该右末端序列紧邻具有SEQ ID NO：10的转座子ITR序列，该转座子ITR序列紧邻5'-TTAA-3'整合靶序列。第4行示出了由转染的mRNA编码的转座酶的SEQ ID NO。在第5行的标记为“V％”的列中示出了生存力(存活的细胞的百分比)，在第5行的标记为“VCD”的列中示出了总存活细胞密度(以每毫升百万细胞计)。第6-15行示出了转染后不同时间的这些测量值，经过的天数示于U列。

表7.Oryzias转座酶变体的转座和切除活性。

如第6.1.6.1节所述设计、合成和克隆编码Oryzias转座酶变体的基因。每个变体的SEQ ID NO在A列中给出。将基因转化至酿酒酵母菌株中，该菌株的基因组包含转座酶报告基因SEQ ID NO：41的单个拷贝，并铺板在缺乏亮氨酸的培养基上。48小时后，将细胞从平板上刮入缺乏亮氨酸且半乳糖为碳源的基本培养基中。将每种培养物的A600调节至2。将培养物在半乳糖中生长4小时以诱导转座酶的表达。将培养物稀释1,000倍至缺少亮氨酸的基本培养基中。将一个100μl等分样品铺板在缺少亮氨酸和尿嘧啶的基本培养基琼脂平板上(以测量转座子切除)，将另一个100μl等分样品铺板在缺少亮氨酸，色氨酸和尿嘧啶的基本培养基琼脂平板上(以测量转座子转座)。将每个培养物稀释25,000倍，然后将100μl等分样品铺板在缺少亮氨酸的基本培养基琼脂平板上(以测量活细胞)。在48小时后，对每个平板上的菌落进行计数。B列中示出了缺乏亮氨酸的板上的菌落数，在C列中示出了缺乏亮氨酸和尿嘧啶的板上的菌落数，在D列中示出了缺乏亮氨酸，尿嘧啶和色氨酸的板上的菌落数。E列示出了切除频率(通过将C列中的数字除以B列中的数字，再除以25计算)。F列示出了转座频率(通过将D列中的数字除以B列中的数字，再除以25计算)。

表8.Oryzias转座酶变体中氨基酸取代的模型权重。

如美国专利8,635,029中所描述的，对序列改变对Oryzias转座酶切除和转座活性的影响进行了建模。为每个取代计算回归权重的平均值和标准偏差。位置(相对于SEQ IDNO：782)示于A列，在SEQ ID NO：782的该位置找到的氨基酸示于B列。测试的氨基酸取代示于C列。取代对转座活性的回归权重示于D列，该回归权重的标准差示于E列，平均权重减去标准差示于F列。取代对切除活性的回归权重示于G列，该回归权重的标准差示于H列，平均权重减去标准差示于I列。

表9.Oryzias转座酶变体的转座和切除活性。

如第6.1.6.2节所述设计、合成和克隆编码Oryzias转座酶变体的基因。每个变体的SEQ ID NO在A列中给出。将基因转化至酿酒酵母菌株中，该菌株的基因组包含转座酶报告基因SEQ ID NO：41的单个拷贝，并铺板在缺乏亮氨酸的培养基上。48小时后，将细胞从平板上刮入缺乏亮氨酸且半乳糖为碳源的基本培养基中。将每种培养物的A600调节至2。将培养物在半乳糖中生长4小时以诱导转座酶的表达。将培养物稀释25,000倍至缺少亮氨酸的基本培养基中。将一个100μl等分样品铺板在缺少亮氨酸和尿嘧啶的基本培养基琼脂平板上(以测量转座子切除)，将另一个100μl等分样品铺板在缺少亮氨酸，色氨酸和尿嘧啶的基本培养基琼脂平板上(以测量转座子转座)，将第三个100μl等分样品铺板在缺少亮氨酸的基本培养基琼脂平板上(以测量活细胞)。在48小时后，对每个平板上的菌落进行计数。B列中示出了缺乏亮氨酸的板上的菌落数，在C列中示出了缺乏亮氨酸和尿嘧啶的板上的菌落数，在D列中示出了缺乏亮氨酸，尿嘧啶和色氨酸的板上的菌落数。E列示出了切除频率(通过将C列中的数字除以B列中的数字计算)。F列示出了转座频率(通过将D列中的数字除以B列中的数字计算)。

表格

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1(继续)

表1

表2

表3

表4

表5

表6

表7(继续)

表7

表8(继续)

表8

表9

参考文献

本文引用的所有参考文献出于所有目的以引用的方式全文并入本文，其程度如同每个单独的出版物或专利或专利申请被明确地并单独地指出其出于所有目的以引用的方式全文并入本文。在一定程度上，与引用相关的信息可能随时间而变化，所指的是在本申请的有效申请日时有效的版本，有效申请日是本申请的申请日或首次提及该引用的优先权申请的申请日。

如本领域技术人员所显而易见的，可以在不脱离本发明的精神和范围的情况下做出本发明的许多修改和变化。本文描述的特定实施例仅为示例，并且本发明仅由所附权利要求的条款以及这些权利要求的等同的全部范围来限制。除非从上下文可以明显看出，否则任何实施方式，方面，要素，特征或步骤可以与任何其它实施方式，方面，要素，特征或步骤组合使用。

Claims

1.一种多核苷酸，其包含编码转座酶的开放阅读框，所述转座酶的氨基酸序列与SEQID NO：782至少90％相同，可操作地连接至异源启动子。

2.根据权利要求1所述的多核苷酸，其中所述转座酶相对于SEQ ID NO：782的序列包含表1的C列和D列中所示的突变。

3.根据权利要求2所述的多核苷酸，其中所述转座酶相对于SEQ ID NO：782的序列在选自22、124、131、138、149、156、160、164、167、171、175、177、202、206、210、214、253、258、281、284、361、386、400、408、409、455、458、467、468、514、515、524、548、549、550和551的氨基酸位置处包含突变。

4.根据权利要求3所述的多核苷酸，其中所述转座酶相对于SEQ ID NO：782包含选自以下的突变：E22D、A124C、Q131D、L138V、F149R、L156T、D160E、Y164F、I167L、A171T、R175K、K177N、T202R、I206L、I210L、N214D、V253I、V258L、I281F、A284L、L361I、V386I、M400L、S408E、L409I、F455Y、V458L、V467I、L468I、A514R、V515I、S524P、R548K、D549K、D550R和S551R，所述转座酶可选地包括选自选自所述组的至少2个、3个、4个，或5个。

5.根据权利要求2所述的多核苷酸，其中所述转座酶的所述氨基酸序列选自SEQ IDNO：782或805-908。

6.根据前述权利要求中任意一项所述的多核苷酸，其中所述转座酶可以从SEQ ID NO：41切除或转座转座子。

7.根据权利要求6所述的多核苷酸，其中所述转座酶的切除活性或转座活性为SEQ IDNO：782的活性的至少10％。

8.根据前述权利要求中任意一项所述的多核苷酸，其中所述启动子在体外转录反应中具有活性。

9.根据权利要求1-7中任意一项所述的多核苷酸，其中所述启动子在真核细胞中具有活性。

10.根据权利要求9所述的多核苷酸，其中所述真核细胞是哺乳动物细胞，可选地，选择所述开放阅读框的密码子用于哺乳动物细胞表达。

11.一种编码多肽的分离的mRNA，所述多肽的氨基酸序列与SEQ ID NO：782至少90％相同，并且其中所述mRNA序列在所述mRNA和SEQ ID NO:781之间的相应位置处相对于SEQ IDNO：781包含至少10个同义密码子差异，可选地，其中选择所述mRNA中在所述相应位置处的密码子用于哺乳动物细胞表达。

12.根据权利要求1-10中任意一项所述的多核苷酸，其中所述开放阅读框进一步编码与所述转座酶融合的核定位序列。

13.根据权利要求1-10中任意一项所述的多核苷酸，其中所述开放阅读框进一步编码与所述转座酶融合的异源DNA结合域。

14.根据权利要求13所述的多核苷酸，其中所述DNA结合结构域衍生自CRISPR Cas系统，或锌指蛋白，或TALE蛋白。

15.一种编码多肽的非天然存在的多核苷酸，所述多肽的序列与SEQ ID NO：782至少90％相同，其中所述多核苷酸序列在所述多核苷酸和SEQ ID NO:781之间的相应位置处相对于SEQ ID NO：781具有至少10个同义密码子差异，可选地，其中选择所述多核苷酸中在所述相应位置处的密码子用于哺乳动物细胞表达。

16.由前述权利要求中的任意一项所述的多核苷酸编码的非天然存在的多肽。

17.一种包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8的转座子。

18.根据权利要求17所述的转座子，其在所述异源多核苷酸的一侧还包含与SEQ IDNO：12至少90％相同的序列，在所述异源多核苷酸的另一侧包含与SEQ ID NO：15至少90％相同的序列。

19.根据权利要求17或18所述的转座子，其中所述异源多核苷酸包含在真核细胞中有活性的异源启动子。

20.根据权利要求19所述的转座子，其中所述启动子可操作地连接至以下的至少一个或多个：i)开放阅读框；ii)编码选择性标记的核酸；iii)编码反向选择性标记的核酸；iii)编码调节蛋白的核酸；iv)编码抑制性RNA的核酸。

21.根据权利要求19所述的转座子，其中所述异源启动子包含选自SEQ ID NO：325-409的序列。

22.根据权利要求17-21中任意一项所述的转座子，其中所述异源多核苷酸包含在真核细胞中具有活性的异源增强子。

23.根据权利要求22所述的转座子，其中所述异源增强子选自SEQ ID NO：304-324。

24.根据权利要求17-23中任意一项所述的转座子，其中所述异源多核苷酸包含在真核细胞中可剪接的异源内含子。

25.根据权利要求24所述的转座子，其中所述异源内含子的核苷酸序列选自SEQ IDNO：412-472。

26.根据权利要求17-25中任意一项所述的转座子，其中所述异源多核苷酸包含绝缘子序列。

27.根据权利要求26所述的转座子，其中所述绝缘子的核酸序列选自SEQ ID NO：286-292。

28.根据权利要求17-27中任意一项所述的转座子，其中所述异源多核苷酸包含或编码选择性标记。

29.根据权利要求28所述的转座子，其中所述选择性标记选自谷氨酰胺合成酶、二氢叶酸还原酶、嘌呤霉素乙酰转移酶、杀稻瘟素乙酰转移酶、潮霉素B磷酸转移酶、氨基糖苷3'-磷酸转移酶，和荧光蛋白。

30.一种真核细胞，其基因组包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8。

31.根据权利要求30所述的真核细胞，其中所述细胞是动物细胞。

32.根据权利要求31所述的动物细胞，其中所述细胞是哺乳动物细胞。

33.根据权利要求32所述的哺乳动物细胞，其中所述细胞是啮齿动物细胞。

34.根据权利要求32所述的哺乳动物细胞，其中所述细胞是人类细胞。

35.根据权利要求17-29中任意一项所述的转座子，其中所述异源多核苷酸包含两个开放阅读框，每个所述开放阅读框可操作地连接至单独的启动子。

36.根据权利要求35所述的转座子，其中所述异源多核苷酸还包含选自SEQ ID NO：596-779的序列。

37.一种将转座子整合到真核细胞中的方法，所述方法包括

a.将转座子引入细胞中，所述转座子包含侧接异源多核苷酸的SEQ ID NO：7和SEQ IDNO：8；

b.向所述细胞中引入转座酶，所述转座酶的序列与SEQ ID NO：782至少90％相同，其中所述转座酶转座所述转座子，以产生包含侧接所述异源多核苷酸的SEQ ID NO：7和SEQ IDNO：8的基因组。

38.根据权利要求37所述的方法，其中将所述转座酶以编码所述转座酶的多核苷酸的形式引入。

39.根据权利要求38所述的方法，其中编码所述转座酶的所述多核苷酸是mRNA分子。

40.根据权利要求38所述的方法，其中编码所述转座酶的所述多核苷酸是DNA分子。

41.根据权利要求37所述的方法，其中所述转座酶以蛋白质的形式引入。

42.根据权利要求37-41中任意一项所述的方法，其中所述异源多核苷酸编码选择性标记，且所述方法进一步包含

c.选择包含所述选择性标记的细胞。

43.根据权利要求37-42中任意一项所述的方法，其中所述细胞是动物细胞。

44.根据权利要求43所述的动物细胞，其中所述细胞是哺乳动物细胞。

45.根据权利要求44所述的哺乳动物细胞，其中所述细胞是啮齿动物细胞。

46.根据权利要求44所述的哺乳动物细胞，其中所述细胞是人类细胞。

47.一种表达多肽的方法，包括培养真核细胞，所述真核细胞具有包含侧接异源多核苷酸的SEQ ID NO：7和SEQ ID NO：8的基因组，其中所述多核苷酸被表达。

48.根据权利要求47所述的方法，还包括从培养基中纯化所述多肽。

49.根据权利要求47或48所述的方法，还包括将纯化的多肽掺入药物组合物中。