CN117964776A

CN117964776A - 基因编辑融合蛋白、基因编辑系统及其应用

Info

Publication number: CN117964776A
Application number: CN202311851352.3A
Authority: CN
Inventors: 陈柏洪; 胡洋; 林少芸; 马肖杰; 徐文倡; 余嘉俊; 谭文琼; 吴幼玉; 余宇霖; 孙金帅
Original assignee: Microlight Gene Suzhou Co ltd
Current assignee: Microlight Gene Suzhou Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-03

Abstract

本文公开了基因编辑融合蛋白、基因编辑系统及其应用。本文具体公开了基于CRISPR/Cas12i的基因编辑融合蛋白、引导RNA、基因编辑融合蛋白与引导RNA形成的复合物、核酸、载体、载体系统、递送系统、试剂盒、组合物、以及利用上述组分修饰核酸的方法。

Description

基因编辑融合蛋白、基因编辑系统及其应用

技术领域

本发明涉及核酸编辑领域，特别是规律成簇的间隔短回文重复(CRISPR)技术领域。具体而言，本发明涉及基因编辑融合蛋白，包含编码它们的核酸分子。本发明还涉及用于核酸编辑(例如，基因或基因组编辑)的复合物和组合物，其包含本发明的融合蛋白，或编码它们的核酸分子。本发明还涉及用于核酸编辑(例如，基因或基因组编辑)的方法，其使用包含本发明的融合蛋白。

背景技术

成簇规律间隔短回文重复序列(CRISPR)和CRISPR相关(Cas)基因(统称为CRISPR-Cas或CRISPR/Cas系统)是古细菌和细菌中针对外来遗传元件而防御特定物种的适应性免疫系统。利用CRISPR-Cas系统，开发了多种基因组工程技术，极大地加速了合成生物学、基因治疗、诊断、植物工程等研究。除了常用的化脓性链球菌Cas9(SpCas9)之外，目前已开发了其他可替代性的用于基因组编辑的CRISPR核酸酶。

CRISPR/Cas12i属于V-I型系统，是继Cas9系统后发现的另一种类型的CRISPR系统，它识别TTN的PAM，该基序位于spacer的5’端。同时Cas12i蛋白除了核酸内切酶功能，还具有RNA酶的活性，可以将前体crRNA(pre-crRNA)处理成单个的成熟crRNA用于基因编辑，该系统不包括tracrRNA，只需要Cas12i蛋白和crRNA就可以产生特定位点的切割，因此在多基因编辑设计中更为方便。

然而，当前的CRISPR-Cas12i系统的编辑效率有待进一步提高。因此，开发一种切割效率更高的新型CRISPR/Cas系统对生物技术的发展具有重要意义。

发明内容

本发明的一个方面提供一种基因编辑融合蛋白，包含嵌合Cas12i多肽和5’-3’外切核酸酶功能域，所述5’-3’外切核酸酶功能域融合至所述嵌合Cas12i多肽。

在优选的实施方式中，所述5’-3’外切核酸酶功能域融合至所述嵌合Cas12i多肽的N末端和/或C末端。

在优选的实施方式中，所述5’-3’外切核酸酶功能域融合至所述嵌合Cas12i多肽的C末端。

在优选的实施方式中，所述5’-3’外切核酸酶功能域不融合至所述嵌合Cas12i多肽的N末端。

在优选的实施方式中，所述5’-3’外切核酸酶功能域来自T5噬菌体。

在优选的实施方式中，所述5’-3’外切核酸酶功能域包含与SEQ ID NO.21所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。

在优选的实施方式中，所述5’-3’外切核酸酶功能域通过接头多肽融合至所述嵌合Cas12i多肽。

在另一些实施方式中，本发明提供的所述嵌合Cas12i多肽，其包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸。

在优选的实施方式中，所述嵌合Cas12i多肽：(i)包含与SEQ ID NO.1或2所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含与SEQ ID NO.1或2的aa1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在优选的实施方式中，所述嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽：(i)包含与SEQ ID NO.3至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在另一些实施方式中，本发明提供的所述嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含与SEQ ID NO.1的aa 1至897或SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；所述第二肽段包含与SEQID NO.75至80任一项所示的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且所述第三肽段包含与SEQ ID NO.1的aa 1008至1044或SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％序列同一性氨基酸序列。

在一些实施方式中，所述嵌合Cas12i多肽被突变以使其具有以下特征：核酸切割活性增强。

在一些实施方式中，所述嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；根据SEQ ID NO.1所示的序列编号，在K259位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；根据SEQ ID NO.1所示的序列编号，在Q602位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；根据SEQ IDNO.1所示的序列编号，在Y881位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；根据SEQ ID NO.1所示的序列编号，在G979位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在一些实施方式中，所述嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在一些实施方式中，所述嵌合Cas12i多肽，(i)包含与SEQ ID NO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且，所述嵌合Cas12i多肽在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在优选的实施方式中，所述基因编辑融合蛋白包含与SEQ ID NO.90至100任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。

在本发明的另一个方面提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白选自权利要求1至12任一项所述基因编辑融合蛋白；以及(b)引导RNA，所述引导RNA与所述基因编辑融合蛋白复合以引导所述基因编辑融合蛋白结合至靶核酸。

在一些实施方式中，所述引导RNA包含与所述靶核酸杂交的引导区段和与所述基因编辑融合蛋白的Cas12i多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。

在一些实施方式中，在所述基因编辑系统中，所述引导RNA的重复区段包含SEQ IDNO.22至29任一项所示的核苷酸序列或与SEQ ID NO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；在优选的实施方式中，其中所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列。

本发明的另一个方面提供一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白选自本发明提供的所述基因编辑融合蛋白。

在一些实施方式中，所述一个或多个异源多肽独立地为表位标签、核定位信号、报告基因序列、能够与DNA分子或细胞内分子结合的结构域、可检测信号的酶、亚细胞定位和蛋白质转导结构域。

本发明的另一个方面提供一种复合物，其包含本发明提供任何一种融合多肽以及引导RNA，所述引导RNA与所述融合多肽复合以引导所述融合多肽结合至靶核酸。在优选的实施方式中，在所述复合物中，所述引导RNA包含与所述靶核酸杂交的引导区段和与融合多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。在优选的实施方式中，在所述复合物中，所述引导RNA的重复区段包含SEQ ID NO.22至29任一项所示的核苷酸序列或与SEQ ID NO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；在优选的实施方式中，其中所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列。

本发明的另一个方面提供一种核酸，其包含编码本发明提供的任何一种基因编辑融合蛋白或上述融合多肽的多核苷酸。在优选的实施方式中，所述多核苷酸被密码子优化以在原核或真核细胞中表达。在优选的实施方式中，所述多核苷酸包含或为如SEQ IDNO.68至74任一个所示的核苷酸序列。

本发明的另一个方面提供一种核酸，包含引导RNA或编码所述引导RNA的核苷酸序列，所述引导RNA包含重复区段，包含SEQ ID NO.22至29任一项所示的核苷酸序列或与SEQID NO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；在优选的实施方式中，其中所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列。在优选的实施方式中，所述引导RNA不包含且不结合tracrRNA。在优选的实施方式中，所述核酸是DNA或mRNA。

本发明的另一个方面提供一种载体，其包含本发明提供的任何一种核酸。在优选的实施方式中，所述载体是质粒或病毒载体。在优选的实施方式中，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

本发明的另一个方面提供一种载体系统，其包括第一载体和与第一载体不同的第二载体，所述第一载体包含编码本发明提供的任何一种基因编辑融合蛋白或融合多肽的多核苷酸；所述第二载体包含引导RNA或编码所述引导RNA的核苷酸序列。在优选的实施方式中，所述第一载体和第二载体独立地是质粒或病毒载体。在优选的实施方式中，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

本发明的另一个方面提供一种递送系统，包含本发明提供的任一基因编辑融合蛋白、本发明提供的任一基因编辑系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、或本发明提供的任一载体系统。在优选的实施方式中，所述递送系统包括脂质体、纳米颗粒或外泌体。

本发明的另一个方面提供一种细胞，其包含本发明提供的任一基因编辑融合蛋白、本发明提供的任一基因编辑系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、本发明提供的任一载体系统、或本发明提供的任一递送系统。在优选的实施方式中，所述细胞是真核细胞。在优选的实施方式中，所述细胞是人细胞。在优选的实施方式中，所述细胞是嵌合抗原受体T细胞(ChimericAntigen Receptor T)。

本发明的另一个方面提供组合物或试剂盒，其包含本发明提供的任一基因编辑融合蛋白、本发明提供的任一基因编辑系统、本发明提供的任一融合多肽、本发明提供的任一复合物、本发明提供的任一核酸、本发明提供的任一载体、本发明提供的任一载体系统、本发明提供的任一递送系统、或本发明提供的任一细胞；以及药学上可接受的载体。

本发明的另一个方面提供切割靶核酸的方法，所述方法包括使靶核酸与本发明提供的任一基因编辑系统、本发明提供的任一复合物、本发明提供的任一载体、本发明提供的任一载体系统、或本发明提供的任一递送系统接触，所述接触导致所述靶核酸被切割。在优选的实施方式中，其中所述靶核酸选自：双链DNA、单链DNA、RNA、基因组DNA和染色体外DNA。在优选的实施方式中，其中所述接触在体外在细胞外部发生、在培养的细胞内部发生或在体内细胞内部发生。在优选的实施方式中，所述细胞是真核细胞，更优选为人细胞。

附图说明

图1显示本发明的载体1至载体11的重组载体图。

图2显示本发明的各种基因编辑融合蛋白在真核细胞中不同位点的切割活性。

图3显示各种基因编辑融合蛋白在真核细胞中的对RNF2、TTR site1和TTR site2靶点的Indel效率。

图4显示本发明的载体12至载体19的重组载体图。

图5显示本发明的各种基因编辑融合蛋白在真核细胞中不同位点的切割活性。

图6显示各种基因编辑融合蛋白在真核细胞中的对B2M和PD-1靶点的Indel效率。

图7显示各种基因编辑融合蛋白在真核细胞中的对PD-1靶点的Indel效率。

具体实施方式

定义

在本文中可互换使用的术语“多核苷酸”和“核酸”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此，该术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体、或包含嘌呤和嘧啶碱基或其他天然的、经化学或生物化学修饰的、非天然或衍生的核苷酸碱基的聚合物。

“可杂交的”或“互补的”或“大致上互补的”意指核酸(例如RNA、DNA)包含能使其在适当的温度和溶液离子强度的体外和/或体内条件下以序列特异性、反平行的方式(即，核酸特异性结合互补核酸)非共价结合(即形成沃森-克里克碱基对和/或G/U碱基对)、“退火”或“杂交”另一个核酸的核苷酸序列。标准沃森-克里克碱基配对包括：腺嘌呤(A)与胸腺嘧啶(T)配对、腺嘌呤(A)与尿嘧啶(U)配对以及鸟嘌呤(G)与胞嘧啶(C)配对[DNA、RNA]。此外，对于两个RNA分子(例如，dsRNA)之间的杂交，以及对于DNA分子与RNA分子的杂交(例如，当DNA靶核酸碱基与引导RNA配对时，等)：鸟嘌呤(G)也可以与尿嘧啶(U)碱基配对。例如，G/U碱基配对为tRNA抗密码子碱基配对mRNA中的密码子的背景下的遗传密码简并(即，冗余)的至少部分原因。因此，在本发明的上下文中，鸟嘌呤(G)(例如，引导RNA分子的dsRNA双链体；与靶核酸配对的引导RNA碱基等)被认为与尿嘧啶(U)和腺嘌呤(A)互补。例如，当G/U碱基对可以在引导RNA分子的dsRNA双链体的给定核苷酸位置产生时，所述位置不被认为是非互补的，而是被认为是互补的。

杂交要求两个核酸含有互补序列，虽然碱基之间有可能存在错配。适用于两个核酸之间的杂交的条件取决于核酸的长度和互补的程度、本领域中熟知的变量。两个核苷酸序列之间的互补程度越大，对于具有那些序列的核酸的杂交体的解链温度(Tm)的值越大。对于具有短序列段互补性(例如，在35或更少、30或更少、25或更少、22或更少、20或更少或18或更少个核苷酸上的互补性)的核酸之间的杂交，错配的位置可变得重要(参见Sambrook等，同上,11.7-11.8)。通常，可杂交核酸的长度为8个核苷酸或更多(例如，10个核苷酸或更多、12个核苷酸或更多、15个核苷酸或更多、20个核苷酸或更多、22个核苷酸或更多、25个核苷酸或更多、或30个核苷酸或更多)。根据诸如互补区域的长度和互补程度的因素，可以根据需要调节温度、洗涤溶液盐浓度和其它条件。

应当理解，多核苷酸的序列不需要与其靶核酸的序列100％互补才能特异性杂交或可杂交。此外，多核苷酸可在一个或多个区段上杂交以使得中间区段或相邻区段不涉及杂交事件(例如，凸起、环结构或发夹结构等)。多核苷酸可以与同它杂交的靶核酸序列内的靶区域具有60％或更多、65％或更多、70％或更多、75％或更多、80％或更多、85％或更多、90％或更多、95％或更多、98％或更多、99％或更多、99.5％或更多或100％序列互补性。例如，其中反义化合物的20个核苷酸中的18个与靶区域互补并且因此将特异性杂交的反义核酸将表示90％互补性。在此实例中，剩下的非互补核苷酸可与互补核苷酸集群或穿插在互补核苷酸中并且不需要彼此邻接或与互补核苷酸邻接。可以使用任何方便的方法来确定核酸内特定核酸序列片段之间的互补百分比。示例方法包括BLAST程序(基本局部比对搜索工具)和PowerBLAST程序、Gap程序(例如使用默认设置)等。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用，并且是指任何长度的氨基酸(其可包括编码和非编码的氨基酸、经化学或生物化学修饰或衍生的氨基酸)的聚合形式，以及具有经修饰的肽骨架的多肽。

如本文所用，“结合”(例如，关于多肽的RNA结合结构域，与靶核酸的结合等)是指大分子之间(例如，蛋白质和核酸之间；在嵌合Cas12i多肽/引导RNA复合物与靶核酸之间；等等)的非共价相互作用。当在非共价相互作用的状态下，大分子被称作“缔合”或“相互作用”或“结合”(例如，当分子X被称作与分子Y相互作用时，意指分子X以非共价方式结合分子Y)。不是所有的结合相互作用组分都需要为序列特异性的(例如，与DNA骨架中的磷酸酯残基接触)，但结合相互作用的一些部分可为序列特异性的。结合相互作用的特征通常在于解离常数(K_D)小于10^-6M、小于10^-7M、小于10^-8M、小于10^-9M、小于10^-10M、小于10^-11M、小于10^-12M、小于10^-13M、小于10^-14M或小于10^-15M。“亲和力”是指结合的强度，增加的结合亲和力与较低的K_D相关。

“结合结构域”意指能够非共价结合另一分子的蛋白质结构域。结合结构域可结合例如DNA分子(DNA结合结构域)、RNA分子(RNA结合结构域)和/或蛋白质分子(蛋白质结合结构域)。就具有蛋白质结合结构域的蛋白质来说，在一些实施方式中，它可结合其自身(以形成同源二聚体、同源三聚体等)和/或它可结合不同蛋白质的一个或多个区。

术语“保守氨基酸取代”是指具有类似侧链的氨基酸残基的蛋白质中的可互换性。例如，具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成；具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成；具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成；具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成；具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成；具有酸性侧链的一组氨基酸由谷氨酸酯和天冬氨酸酯组成；并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团为：缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸-甘氨酸以及天冬酰胺-谷氨酰胺。

多核苷酸或多肽与另一多核苷酸或多肽具有一定的“序列同一性”百分比，这意味着当比对时碱基或氨基酸的百分数为相同的，并且当比较两个序列时在相同的相对位置上。可以许多不同方式确定序列同一性。为了确定序列同一性，可使用在包括ncbi.nlm.nili.gov/BLAST、ebi.ac.uk/Tools/msa/tcoffee/、ebi.ac.uk/Tools/msa/muscle/、maff t.cbrc.jp/alignment/software/的万维网网址上可获得的各种方便的方法和计算机程序(例如，BLAST、T-COFFEE、MUSCLE、MAFFT等)来比对序列。本文使用的术语“序列同一性”是指在比较窗内基于一个核苷酸接着一个核苷酸或基于一个氨基酸接着一个氨基酸的序列相同的程度。因此，“序列同一性百分比(percentage ofsequenceidentity)”如下计算：通过在比较窗内比较两个最佳比对的序列，确定两个序列中出现相同的核酸碱基(例如，A、T、C、G、I)或相同的氨基酸残基(例如，Ala、Pro、Ser、Thr、Gly、Val、Leu、Ile、Phe、Tyr、Trp、Lys、Arg、His、Asp、Glu、Asn、Gln、Cys和Met)的位置数目以产生匹配位置的数目，将匹配位置的数目除以比较窗中位置的总数目(即，窗大小)，并将结果乘以100以得到序列同一性的百分比。

在本发明中，当比对的序列是非连续的两段序列时，序列同一性的计算基于该两段序列的比对结果获得。例如，“与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性”是指：(i)与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有至少80％序列同一性，并且与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有至少80％序列同一性；或(ii)与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有低于或高于80％序列同一性，并且与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有高于或低于80％序列同一性，但在aa 1至897以及aa 1008至1044共934个aa上具有至少80％序列同一性。

术语“至少80％”在本发明中是指80％至100％的任何值，例如80％、85％、90％、90.5％、91％、91.5％、92％、92.5％、93％、93.5％、94％、94.5％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％。术语“至少95％”在本发明中是指95％至100％的任何值，例如95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％。

“编码”具体RNA的DNA序列为转录成RNA的DNA核苷酸序列。DNA多核苷酸可以编码翻译成蛋白质的RNA(mRNA)(因此DNA和mRNA都编码蛋白质)，或者DNA多核苷酸可以编码不翻译成蛋白质的RNA(例如tRNA、rRNA、微小RNA(miRNA)、“非编码”RNA(ncRNA)、引导RNA等)。

“蛋白质编码序列”或编码具体蛋白质或多肽的序列为当置于适当调节序列的控制下时转录成mRNA(在DNA的情况下)并且在体外或体内翻译(在mRNA的情况下)成多肽的核苷酸序列。

本文可互换使用的术语“DNA调节序列”、“控制元件”和“调节元件”是指提供和/或调节非编码序列(例如，引导RNA)或编码序列(例如基因编辑融合蛋白、融合多肽等)的转录和/或调节编码多肽的翻译的转录和翻译控制序列，例如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等。

如本文所使用，“启动子”或“启动子序列”为能够结合RNA聚合酶并且启动下游(3'方向)编码或非编码序列的转录的DNA调节区。出于本发明的目的，启动子序列在其3'末端上通过转录起始位点结合并且向上游(5'方向)序列段以包括启动高于背景的可检测水平转录所需要的最小数目的碱基或元件。在启动子序列内将发现转录起始位点以及蛋白质结合结构域为造成RNA聚合酶结合的原因。真核生物启动子将经常但不总是含有“TATA”盒和“CAT”盒。包括诱导型启动子的各种启动子可用来驱动本发明的各种载体表达。

如本文所使用适用于核酸、多肽、细胞或生物的术语“天然存在的”或“未修饰的”或“野生型”是指存在于自然中的核酸、多肽、细胞或生物。例如，可从自然中的来源分离的存在于生物中的多肽或多核苷酸序列为天然存在的。

如本文所使用适用于核酸或多肽的术语“融合”是指通过源自不同来源的结构定义的两种组分。例如，当在融合多肽(例如，融合基因编辑融合蛋白)的上下文中使用“融合”时，融合多肽包括源自不同多肽的氨基酸序列。融合多肽可包含修饰的或天然存在的多肽序列(例如，来自修饰或未修饰的基因编辑融合蛋白的第一氨基酸序列；和来自除基因编辑融合蛋白之外的修饰或未修饰蛋白的第二氨基酸序列等)。类似地，在编码融合多肽的多核苷酸的背景下的“融合”包括源自不同编码区的核苷酸序列(例如，编码修饰的或未修饰的基因编辑融合蛋白的第一核苷酸序列；和编码除了基因编辑融合蛋白以外的多肽的第二核苷酸序列)。

术语“融合多肽”是指通常通过人干预，通过组合(即，“融合”)氨基酸序列的两个另外分开的区段而制得的多肽。

如本文所用，“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如，在一些实施方式中，在本发明的基因编辑融合蛋白中，嵌合Cas12i多肽(或其变体)的一部分可以融合到来自除形成所述嵌合Cas12i多肽的来源之外的蛋白质的氨基酸序列；或来自另一种生物体的氨基酸序列。作为另一个实例，融合多肽可包含与异源多肽融合的嵌合Cas12i多肽(或其变体)的全部或部分，所述异源多肽即来自除形成所述嵌合Cas12i多肽的来源之外的蛋白质的多肽或来自另一种生物体的多肽。异源多肽可表现出嵌合基因编辑融合蛋白会表现出的活性(例如，酶促活性)(例如，生物素连接酶活性；核定位；等)。异源核酸序列可连接至核酸序列(或其变体)(例如，通过基因工程化)以产生编码融合多肽(融合蛋白)的核苷酸序列。

如本文所使用的“重组”意指具体核酸(DNA或RNA)为克隆、限制、聚合酶链反应(PCR)和/或连接步骤的各种组合的产物，所述步骤产生具有可与天然系统中发现的内源核酸区别开的结构编码或非编码序列的构建体。编码多肽的DNA序列可由cDNA片段或由一系列合成寡核苷酸组装以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组DNA还可用于形成重组基因或转录单元。非翻译DNA的序列可存在于开放读码框的5'端或3'端，其中此类序列不干扰编码区的操纵或表达，并且实际上可通过各种机制起到调节希望的产物产生的作用。或者，未翻译的编码RNA的DNA序列(例如，引导RNA)也可被认为是重组的。因此，例如术语“重组”核酸是指非天然存在的，例如通过人干预通过人工组合序列的两个另外分开的区段而制得的核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如，通过遗传工程化技术)来完成。这通常是用编码相同氨基酸、保守氨基酸或非保守氨基酸的密码子来替代一个密码子。可替代地，执行这种操作以将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如，通过遗传工程化技术)来完成。当重组多核苷酸编码多肽时，编码多肽的序列可为天然存在的(“野生型”)或可为天然存在的序列的变体(例如，突变体)。这种情况的实例是编码野生型蛋白质的DNA(重组体)，其中该DNA序列被密码子优化用于在不天然存在所述蛋白质的细胞(例如，真核细胞)中表达所述蛋白质(例如，在真核细胞中表达CRISPR/Cas RNA引导的多肽，诸如Cas12i(例如基因编辑融合蛋白等等))。因此，密码子优化的DNA可以是重组的和非天然存在的，而由所述DNA编码的蛋白质可以具有野生型氨基酸序列。

因此，术语“重组”多肽未必是指其氨基酸序列不是天然存在的多肽。相反，“重组”多肽通过重组非天然存在的DNA序列来编码，但多肽的氨基酸序列可为天然存在的(“野生型”)或非天然存在的(例如，变体、突变体等)。因此，“重组”多肽为人干预的结果，但可具有天然存在的氨基酸序列。

“载体”或“表达载体”为复制子，如质粒、噬菌体、病毒、人工染色体或粘粒，另一个DNA区段(即“插入物”)可附着至所述复制子以便在细胞中引起所附着的区段的复制。

“表达盒”包含可操作地连接至启动子的DNA编码序列。“可操作地连接”是指并置，其中所述组分处于容许其以预期的方式起作用的关系中。例如，如果启动子影响其转录或表达，则启动子可操作地连接到编码序列(或者编码序列也可以被认为可操作地连接到启动子)。

术语“重组表达载体”或“DNA构建体”在本文中可互换使用，是指包含载体和插入物的DNA分子。通常出于表达和/或繁殖插入物的目的或出于构建其它重组核苷酸序列而产生重组表达载体。插入物可以或可以不可操作地连接至启动子序列并且可以或可以不可操作地连接至DNA调节序列。

当此类DNA引入到细胞内部时，细胞被外源DNA或外源RNA例如重组表达载体“遗传修饰”或“转化”或“转染”。外源DNA的存在导致永久或瞬时的遗传变化。转化DNA可以或可以不整合(共价连接)到细胞基因组中。在例如原核生物、酵母和哺乳动物细胞中，转化DNA可维持在游离元件如质粒上。相对于真核细胞，稳定转化的细胞为其中转化DNA逐渐整合到染色体中以使得通过染色体复制遗传给子细胞的一种细胞。此稳定性通过真核细胞建立包含含有转化DNA的子细胞群的细胞系或克隆的能力来展示。“克隆”为通过有丝分裂源自单个细胞或共同祖先的一群细胞。“细胞系”为能够在体外稳定生长许多代的原代细胞的克隆。

遗传修饰(也称为“转化”)的合适的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。遗传修饰的方法的选择通常取决于待转化的细胞类型和在其下发生转化的环境(例如，体外、离体或体内)。

如本文所用，“靶核酸”是多核苷酸(例如DNA，诸如基因组DNA)，其包括被RNA引导的核酸内切酶多肽(例如基因编辑融合蛋白等)靶向的位点(“靶位点”或“靶序列”)。靶序列是基因编辑融合蛋白引导RNA(例如双基因编辑融合蛋白引导RNA或单分子基因编辑融合蛋白引导RNA)的引导序列将与之杂交的序列。合适的杂交条件包括细胞中正常存在的生理条件。对于双链靶核酸，与引导RNA互补并杂交的靶核酸链被称为“互补链”或“靶链”；而与“靶链”互补的靶核酸链(并因此不与引导RNA互补)被称为“非靶链”或“非互补链”。

如本文所用，术语“治疗(treatment)、治疗(treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言，所述效果可以是预防性的，并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言，所述效果可以是治疗性的。如本文所用，“治疗”涵盖对哺乳动物(例如，人)的疾病的任何治疗，并且包括：(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生；(b)抑制疾病，即阻止其发展；以及(c)缓解疾病，即引起疾病消退。

在本文中可互换使用的术语“个体”、“受试者”、“宿主”和“患者”是指个体生物体，例如哺乳动物，包括但不限于鼠类、猿、人类、非人灵长类动物、有蹄类动物、猫科动物、犬科动物、牛科动物、绵羊、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。

基因编辑融合蛋白

本发明的一个方面提供一种基因编辑融合蛋白，所述基因编辑融合蛋白包含或为与SEQ ID NO.90至100任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。例如，所述基因编辑融合蛋白包含或为与SEQ ID NO.90至100任一项所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

嵌合Cas12i多肽

本发明的另一个方面提供一种嵌合Cas12i多肽，其包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸。

在一些实施方式中，第一Cas12i多肽和第二Cas12i多肽具有相同的双叶分区结构，例如均包含识别叶(REC lobe)和核酸酶叶(NUC lobe)。例如，识别叶分为两个Helical-I(包括第一Helical-I和第二Helical-I)、PI(PAM-interacting domain)和Helical-II结构域，而核酸酶叶由WED(wedge domain，包括WED-I和WED-II)、RuvC核酸酶结构域和其他三部分结构域：Helical-III、BH(Bridge Hinge)和Nuc结构域共同构成；RuvC核酸酶结构域被分为序列上不连续的3个部分(包括RuvC-I、RuvC-II和RuvC-III)。在一些实施方式中，第一Cas12i多肽和第二Cas12i多肽缺乏HNH核酸酶结构域，也不含有常见于真核生物的锌指结构域(Cys2/His2锌指、Cys2/Cys2锌指等)。

在一些实施方式中，所述嵌合Cas12i多肽由N端至C端依次包括WED-I、第一Helical-I、PI、第二Helical-I、Helical-II、WED-II、RuvC-I、Helical-III、BH、RuvC-II、Nuc和RuvC-III结构域。

第一Cas12i多肽和第二Cas12i多肽可独立地选自WO2023138685A1、WO2023078314A1、WO2023039534A2、US11649444B1或WO2022247873A1中公开的那些Cas12i多肽，通过引用将它们公开的内容完整合并至本文中。

在一些实施方式中，所述嵌合Cas12i多肽可以为CN202311464815.0中公开的那些Cas12i多肽，通过引用将它们公开的内容完整合并至本文中。

在一些实施方式中，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1或2所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.2所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，所述嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.3所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.4所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.5所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.6所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.1的aa 898至1007的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.2的aa898至1007的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，所述嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.3的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.3的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.4的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.4的aa896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.5的aa1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQ ID NO.5的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。例如，所述嵌合Cas12i多肽包含或为与SEQ ID NO.6的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性且与SEQID NO.6的aa 896至1015的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.1的aa 1至897或SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.75至80任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.1的aa 1008至1044或SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.75至80任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.1的aa 1至897的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.75至80任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.75至80任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.1的aa 1008至1044的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽由N端至C端包含依次连接的第一肽段、第二肽段和第三肽段，其中：所述第一肽段包含或为与SEQ ID NO.3的aa 1至895的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；所述第二肽段包含或为与SEQ ID NO.75至80任一项所示的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列；并且所述第三肽段包含或为与SEQ ID NO.3的aa 1016至1054的氨基酸序列相比具有至少80％、85％、90％、95％、96％、97％、98％、99％或100％序列同一性氨基酸序列。

在一些实施方式中，其中所述嵌合Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且被突变以使其具有以下特征：核酸切割活性增强。

在一些实施方式中，所述突变导致所述嵌合Cas12i多肽的核酸切割活性增强，例如与亲本嵌合Cas12i多肽相比，核酸切割活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。

在一些实施方式中，所述嵌合Cas12i多肽(i)包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ IDNO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列，并且进一步具有至少一个(例如1至10个，例如1、2、3、4、5、6、7、8、9或10个)氨基酸取代、缺失和/或插入的氨基酸序列。在这样的实施方式中，所述至少一个氨基酸取代、缺失和/或插入可导致所述嵌合Cas12i多肽的核酸切割活性增强，例如与亲本嵌合Cas12i多肽相比，核酸切割活性增强至少10％，例如10％至500％，10％至100％、10％至200％、10％至300％、10％至50％、10％至30％、10％至20％、50％至100％、50％至200％、50％至300％、100％至200％、或200％至300％。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代。在优选的实施方式中，N229被赖氨酸、精氨酸或组氨酸取代。在更优选的实施方式中，N229被精氨酸取代。

在一些实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含或为与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且，所述嵌合Cas12i多肽在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代。在优选的实施方式中，N229、K259、Q602、Y881和G979五个位置中的至少一个被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229一个位置被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229和Q602两个位置均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229和Y881两个位置均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229和G979两个位置均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229、K259和Y881三个位置均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229、K259和G979三个位置均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229、Y881和G979三个位置均被赖氨酸、精氨酸或组氨酸取代。在优选的实施方式中，N229、K259、Q602和Y881四个位置均被赖氨酸、精氨酸或组氨酸取代。

在优选的实施方式中，本发明提供一种嵌合Cas12i多肽，其(i)包含或为与SEQ IDNO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或(ii)包含或为与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；并且，所述嵌合Cas12i多肽在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代。在优选的实施方式中，N229一个位置被精氨酸取代。在优选的实施方式中，N229和Q602两个位置均被精氨酸取代。在优选的实施方式中，N229和Y881两个位置均被精氨酸取代。在优选的实施方式中，N229和G979两个位置均被精氨酸取代。在优选的实施方式中，N229、K259和Y881三个位置均被精氨酸取代。在优选的实施方式中，N229、K259和G979三个位置均被精氨酸取代。在优选的实施方式中，N229、Y881和G979三个位置均被精氨酸取代。在优选的实施方式中，N229、K259、Q602和Y881四个位置均被精氨酸取代。

在一些实施方式中，所述嵌合Cas12i多肽包含或为SEQ ID NO.1至6所示的氨基酸序列，分别称为“enCas12i-001”、“enCas12i-002”、“enCas12i-003”、“enCas12i-004”、“enCas12i-005”、“enCas12i-006”。在一些实施方式中，所述嵌合Cas12i多肽包含或为SEQID NO.7至20所示的氨基酸序列，分别称为“enCas12i-001-N229R”、“enCas12i-001-K259R”、“enCas12i-001-Q602R”、“enCas12i-001-Y881R”、“enCas12i-001-G979R”、“enCas12i-001-N229R-Q602R”、“enCas12i-001-N229R-Y881R”、“enCas12i-001-N229R-G979R”、“enCas12i-001-N229R-K259R-Y881R”、“enCas12i-001-N229R-K259R-G979R”、“enCas12i-001-N229R-Y881R-G979R”、“enCas12i-001-N229R-K259R-Q602R-Y881R”、“enCas12i-001-N229R-K259R-Q602R-G979R”、“enCas12i-001-N229R-Q602R-Y881R-G979R”。在本发明中，这些嵌合Cas12i多肽及其突变体也称为“enCas12i多肽”、“Cas12i多肽”、“Cas12i效应蛋白”“enCas12i效应蛋白”，这些术语在本文可互换使用。

在一些实施方式中，所述嵌合Cas12i多肽的氨基酸(aa)序列长度为1000至1200，例如1000至1100，例如1000至1080、1000至1060、1020至1060、1030至1060、1040至1060、1050至1060、1040、1041、1042、1043、1044、1045、1046、1047、1048、1049、1050、1051、1052、1053、1054、1055、1056、1057、1058、1059或1060。

5’-3’外切核酸酶功能域

本发明的另一个方面提供一种5’-3’外切核酸酶功能域，所述5’-3’外切核酸酶功能域包含或为与SEQ ID NO.21所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。例如，所述5’-3’外切核酸酶功能域包含或为与SEQ ID NO.21所示的氨基酸序列相比具有至少95％、96％、97％、98％、99％或100％序列同一性的氨基酸序列。

在优选的实施方式中，所述5’-3’外切核酸酶功能域融合至所述嵌合Cas12i多肽的N末端和/或C末端，更优选融合至所述嵌合Cas12i多肽的C末端。

引导RNA(gRNA)

本发明的另一个方面提供引导RNA。所述引导RNA包含与靶核酸杂交的引导区段和与嵌合Cas12i多肽结合的重复区段。在一些实施方式中，所述引导RNA不包含且不结合tracrRNA。

引导RNA的引导区段也称靶向区段，其包含与靶核酸(例如，靶dsDNA、靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(引导序列)。引导RNA的重复区段也称蛋白质结合区段(“蛋白质结合序列”或crRNA)，其与本发明提供的基因编辑融合蛋白的嵌合Cas12i多肽相互作用(结合)。靶核酸(例如，基因组DNA、dsDNA、RNA等)的位点特异性结合可发生在由引导RNA(引导序列)与靶核酸之间的碱基配对互补性确定的位置(例如，靶基因座的靶序列)处。

在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为60％或更高(例如，65％或更高、70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比为100％。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在靶核酸的靶位点最3'端的七个连续核苷酸上为100％。

在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如，20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100％。

在一些实施方案中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100％。

在一些实施方案中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60％或更高(例如，70％或更高、75％或更高、80％或更高、85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80％或更高(例如，85％或更高、90％或更高、95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90％或更高(例如，95％或更高、97％或更高、98％或更高、99％或更高或者100％)。在一些实施方式中，引导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100％。

在一些实施方式中，引导序列具有在17-30个核苷酸(nt)(例如，17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些实施方式中，引导序列具有在17-25个核苷酸(nt)(例如，17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些实施方式中，引导序列具有17或更多个nt(例如，18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些实施方式中，引导序列具有19个或更多个nt(例如，20个或更多个、21个或更多个或者22个或更多个nt；19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些实施方式中，引导序列具有17个nt的长度。在一些实施方式中，引导序列具有18个nt的长度。在一些实施方式中，引导序列具有19个nt的长度。在一些实施方式中，引导序列具有20个nt的长度。在一些实施方式中，引导序列具有21个nt的长度。在一些实施方式中，引导序列具有22个nt的长度。在一些实施方式中，引导序列具有23个nt的长度。在一些实施方式中，引导序列具有15至50个核苷酸的长度(例如，15个核苷酸(nt)至20nt、20nt至25nt、25nt至30nt、30nt至35nt、35nt至40nt、40nt至45nt或45nt至50nt)。

在本发明的一些实施方式中，引导RNA的重复区段(蛋白质结合区段)为单段核苷酸序列，其不与tracrRNA互补配对，也不以其他方式与tracrRNA结合。因此，在所形成的CRISPR-Cas系统或复合物中不包含tracrRNA。

具体地，重复区段的序列长度可以为15至100个nt，例如20-80nt、20-50nt、20至40nt，例如20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个nt。

在一些实施方式中，所述引导RNA的重复区段包含或为SEQ ID NO.22至29任一个所示的核苷酸序列或与SEQ ID NO.22至29任一项所示的核苷酸序列相比具有1至10个(例如1、2、3、4、5、6、7、8、9或10个)核苷酸替换、缺失和/或插入的核苷酸序列。

在一些实施方式中所述引导RNA的重复区段可包括可以形成茎和茎环结构的回文区。在一些实施方式中，所述回文区包括由5至15个碱基对(bp)形成的茎结构，例如8至12个bp或10至15个bp，例如7、8、9、10、11、12、13、14或15个bp。在一些实施方式中，并非茎结构中的所有核苷酸都是配对的，因此茎结构可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸)，这段核苷酸对茎结构没有贡献，但是在5'端和3'端被有贡献的核苷酸围绕，因此凸起被认为是茎结构的一部分。在一些实施方式中，茎结构包含1个或更多个凸起(例如，2个或更多个、3个或更多个、4个或更多个凸起)。在一些实施方式中，茎结构包含2个或更多个凸起(例如，3个或更多个、4个或更多个凸起)。在一些实施方式中，茎结构包含1-5个凸起(例如，1-4个、1-3个、2-5个、2-4个或2-3个凸起)。

在一些实施方式中，所述引导RNA包含或为SEQ ID NO.30至37任一个所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数，例如15至30、15至20、17至25、17至22、18至22、18至20、20至25或25至30，例如可以为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.30所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.31所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.32所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.33所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ IDNO.34所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.35所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.36所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。在一些实施方式中，所述引导RNA包含或为SEQ ID NO.37所示的核苷酸序列或其反向互补序列，其中N是任何核苷酸(A、G、C、U或T)，并且n是15至40的整数。

在本发明中，引导RNA可被修饰。在一些实施方案中，引导RNA具有一个或多个修饰(例如，碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如，改进的稳定性)。合适的核酸修饰包括但不限于：2'-O甲基修饰的核苷酸、2'-氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如，7-甲基鸟苷酸帽(m7G))。

例如，修饰包含适配子。适配子是一种结合特异性靶分子的合成寡核苷酸；例如，已经通过重复数轮的体外选择或SELEX(指数富集配体系统进化法)被工程化为结合不同分子的核苷酸分子靶向诸如小分子、蛋白质、核酸以及甚至细胞、组织和生物体。适配子可提供类似抗体的分子识别特性，且其在治疗性应用中几乎不引发免疫原性。

基因编辑系统

基因编辑融合蛋白与相应的引导RNA(例如，嵌合Cas12i引导RNA)相互作用(结合)以形成核糖核蛋白(RNP)复合物，所述复合物通过引导RNA与靶核酸分子内的靶序列之间的碱基配对被靶向至靶核酸(例如，靶DNA)中的特定位点。引导RNA包括与靶核酸的序列(靶位点)互补的核苷酸序列(引导序列)。因此，基因编辑融合蛋白的嵌合Cas12i引导RNA形成复合物，并且引导RNA通过引导序列为RNP复合物提供序列特异性。换言之，基因编辑融合蛋白借助于其与引导RNA缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列，例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如在靶位点处稳定)。

因此，本发明的一个方面提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白为本发明提供的任一基因编辑融合蛋白；以及(b)引导RNA，所述引导RNA与所述基因编辑融合蛋白的Cas12i多肽复合以引导所述基因编辑融合蛋白结合至靶核酸。

在一些实施方式中，在本发明提供的基因编辑系统中，所述Cas12i多肽为任何一个在上文“嵌合Cas12i多肽”小节描述的嵌合Cas12i多肽。在一些实施方式中，在本发明提供的基因编辑系统中，所述引导RNA为任何一个在上文“引导RNA(gRNA)”小节描述的引导RNA。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含或为与SEQ ID NO.1至20任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列，所述基因编辑融合蛋白的5’-3’外切核酸酶功能域包含或为与SEQ ID NO.21所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述基因编辑融合蛋白复合以引导所述基因编辑融合蛋白结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1至20任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在N229位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在N229位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，所述嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列并且根据SEQ ID NO.1所示的序列编号，在N229位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，其包含或为与SEQ ID NO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列，并且在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，本发明提供一种基因编辑系统，其包含：(a)基因编辑融合蛋白，所述基因编辑融合蛋白包含嵌合Cas12i多肽，其包含与或为SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；以及(b)引导RNA，所述引导RNA与所述Cas12i多肽复合以引导所述Cas12i多肽结合至靶核酸。

在一些具体的实施方式中，在以上所述的任何一种基因编辑系统中，所述引导RNA包含与所述靶核酸杂交的引导区段和与所述基因编辑融合蛋白的嵌合Cas12i多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA。

在一些具体的实施方式中，在以上所述的任何一种基因编辑系统中，所述引导RNA的重复区段包含或为SEQ ID NO.22至29任一项所示的核苷酸序列或与SEQ ID NO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列。

在一些具体的实施方式中，在以上所述的任何一种基因编辑系统中，所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列。

在一些具体的实施方式中，在以上所述的任何一种基因编辑系统中，所述引导RNA的包含或为SEQ ID NO.30至37任一个所示的核苷酸序列。

嵌合Cas12i多肽在由靶向靶核酸的RNA与靶核酸之间的互补性区域限定的靶序列处与靶核酸结合。双链靶核酸的位点特异性结合发生在由以下二者确定的位置处：(i)引导RNA与靶核酸之间的碱基配对互补性；和(ii)靶核酸中的原间隔序列相邻基序(PAM)。

本发明的基因编辑系统识别并结合靶核酸的过程需要靶序列上/下游的一段短保守序列，即前间区序列临近基序(protospacer adjacentmotif，PAM)的参与。gRNA介导所述嵌合Cas12i蛋白识别靶点序列5’端PAM，当PAM出现特定的碱基组成特征时，催化该靶点序列附近的DNA双链解链，引导RNA的靶向区段(引导区段)通过碱基互补配对与DNA双链中的靶向链杂交形成RNA-DNA异源双链复合体，进而与靶核酸链结合。经过实验测试发现，本发明的嵌合Cas12i多肽的PAM序列为5'-TTN(N＝A、T、C或G)、5'-ATN(N＝A、T、C或G)、5'-TAN(N＝A、T、C或G)、或5'-AAN(N＝A、T、C或G)。

融合多肽

本发明的另一个方面提供了一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含Nuc结构域，其中所述Nuc结构域来源于第一Cas12i多肽的Nuc结构域，所述嵌合Cas12i多肽的非Nuc结构域部分来源于第二Cas12i多肽的非Nuc结构域部分，所述第一Cas12i多肽与所述第二Cas12i多肽相比序列同一性不超过80％，并且所述嵌合Cas12i多肽能够结合核酸，并且优选地所述嵌合Cas12i切割所述核酸。

在一些实施方式中，本发明提供的一种融合多肽，其包含与一个或多个异源多肽融合的Cas12i多肽，所述Cas12i多肽为任何一个在上文“嵌合Cas12i多肽”小节描述的嵌合Cas12i多肽。

在一些实施方式中，本发明提供的一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含或为与SEQ IDNO.1至20任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供的一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含或为与SEQ IDNO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供的一种融合多肽，其与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

在一些实施方式中，本发明提供的一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含或为与SEQ IDNO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在一些实施方式中，本发明提供的一种融合多肽，其与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

在一些实施方式中，本发明提供的一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白的嵌合Cas12i多肽(i)包含或为与SEQID NO.1至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；(ii)包含或为与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；或(iii)包含或为与SEQ ID NO.3至6任一项的aa 1至895以及aa1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列，并且根据SEQ ID NO.1所示的序列编号，在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；并且所述一个或多个异源多肽独立地选自为表位标签、核定位信号、报告基因序列、能够与DNA分子或细胞内分子结合的结构域、可检测信号的酶、亚细胞定位和蛋白质转导结构域。

在一些实施方式中，所述异源多肽选自表位标签(epitope tag)。这类表位标签为现有常规的标签，包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。

在一些实施方式中，所述异源多肽选自报告基因序列，这类报告基因是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

在一些实施方式中，所述异源多肽选自能够与DNA分子或细胞内分子结合的结构域，例如麦芽糖结合蛋白(MBP)、LexA的DNA结合结构域(DBD)、GAL4的DBD等。

在一些实施方式中，所述异源多肽还可以是可检测信号的酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。

在一些实施方式中，异源多肽提供亚细胞定位，即异源多肽含有亚细胞定位序列(例如，用于靶向细胞核的核定位信号(NLS)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(NES))、用于将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、ER保留信号等)。在一些实施方案中，Cas12i融合多肽不包括NLS，使得蛋白质不靶向细胞核(这可能是有利的，例如，当靶核酸是存在于胞质溶胶中的RNA时)。

在一些实施方式中，本发明提供的融合多肽包含(融合有)核定位信号(NLS)(例如，在一些实施方式中，2个或更多、3个或更多、4个或更多、或5个或更多个NLS)。因此，在一些实施方式中，融合多肽包括一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。在一些实施方式中，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和/或C末端处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在C末端处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和C末端二者处或附近(例如，在50个氨基酸内)。在一些实施方式中，一个或多个NLS定位在N末端，并且一个或多个NLS定位在C末端。具体地，核定位信号(NLS)连接顺序可以为：NH₂-[基因编辑融合蛋白]-[NLS]-COOH；NH₂-[NLS]-[基因编辑融合蛋白]-COOH；其中]-[表示可任选地存在的根据下文定义的连接肽(下同)。

在一些实施方式中，本发明提供的融合多肽包含(融合有)1至10个NLS(例如，1-9、1-8、1-7、1-6、1-5、2-10、2-9、2-8、2-7、2-6或2-5个NLS)。在一些实施方式中，Cas12i融合多肽包含(融合有)2至5个NLS(例如，2-4个或2-3个NLS)。

NLS的非限制性实例包括如SEQ ID NO.38至53的任一项所示的氨基酸序列。

在一些实施方式中，本发明提供的一种融合多肽包含“蛋白转导结构域”或PTD(又称为CPP–细胞穿透肽)，其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中，PTD与嵌合Cas12i多肽氨基末端共价连接以生成融合蛋白。在一些实施方案中，PTD与嵌合Cas12i多肽的羧基末端共价连接以生成融合蛋白。在一些实施方式中，PTD在合适的插入位点处内插在融合多肽中(即，不在Cas12i融合多肽的N端或C端)。在一些实施方式中，融合多肽包含(缀合至、融合至)一个或多个PTD(例如，两个或更多个、三个或更多个、四个或更多个PTD)。在一些实施方式中，PTD包括核定位信号(NLS)(例如，在一些实施方式中，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。

在一些实施方案中，基因编辑融合蛋白可经由一个或多个接头多肽(或称连接肽)与异源多肽融合。接头可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接，间隔肽通常具有柔性性质，但不排除其他化学键。合适的接头包括长度在4至40个氨基酸之间或者长度在4至25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸来产生以偶联蛋白质，或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列，应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说，产生此类序列是常规的。多种不同的接头是可商购获得的并且被认为是适合使用的。

接头多肽的实例包括甘氨酸聚合物(G)n、甘氨酸-丝氨酸聚合物、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列，所述氨基酸序列包括但不限于GGSG、GGSGG(SEQ ID NO:54)、GSGSG(SEQ ID NO:55)、GSGGG(SEQ ID NO:56)、GGGSG(SEQ ID NO:57)、GSSSG(SEQ ID NO:58)、SGGS(SEQ ID NO:59)、SGGSSGGS(SEQ ID NO:60)、SGGSGGSGGS(SEQ ID NO:61)、GGGGSGGGGS(SEQ ID NO:62)、SGGSGGGGSGGGGS(SEQ ID NO:63)、SGSETPGTSESATPES(SEQ ID NO:64)、SGGSSGSETPGTSESATPESSGGS(SEQ ID NO:65)、SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO:66)等。连接肽还可以是各种XTEN linker等，XTEN linker的长度约为16-80个氨基酸，XTEN linker可以为XTEN16 linker、XTEN18linker、XTEN32 linker、XTEN80 linker(SEQ ID NO:67)。更具体的，该连接肽包括但不限于SEQ ID NO.54至67所示的氨基酸序列。本领域技术人员将认识到，与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头，使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。

融合多肽：gRNA复合物

本发明的另一个方面提供一种复合物，其包含本发明提供的任何一个融合多肽以及本发明提供的任何一个引导RNA，所述引导RNA与所述融合多肽复合以引导所述融合多肽结合至靶核酸。

核酸

本发明的另一个方面提供多种核酸。

在一些实施方式中，本发明提供一种核酸，其包含编码本发明提供的任何一种基因编辑融合蛋白或任何一种融合多肽的核苷酸序列。

在一些实施方式中，本发明提供一种核酸，其包含本发明提供的任何一种引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，编码本发明的基因编辑融合蛋白或融合多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码基因编辑融合蛋白或融合多肽的核苷酸序列的突变以模拟预期的宿主生物体或细胞同时编码相同蛋白质时的密码子偏好。因此，密码子可改变，但编码的蛋白质保持不变。例如，如果预期的靶细胞是人细胞，可使用人密码子优化的编码基因编辑融合蛋白或融合多肽的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是小鼠细胞，则可生成小鼠密码子优化的编码基因编辑融合蛋白或融合多肽的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是植物细胞，则可生成植物密码子优化的编码基因编辑融合蛋白或融合多肽的核苷酸序列。作为另一个非限制性实例，如果预期的宿主细胞是昆虫细胞，则可生成昆虫密码子优化的编码基因编辑融合蛋白或融合多肽的核苷酸序列。

在一些实施方式中，所述核酸是DNA。在一些实施方式中，所述核酸是mRNA。在一些实施方式中，所述核酸是RNA。

在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.68至74任一个所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.68所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.69所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.70所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.71所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.72所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ ID NO.73所示的核苷酸序列。在一些实施方式中，所述编码基因编辑融合蛋白的核酸包含或为如SEQ IDNO.74所示的核苷酸序列。

载体及载体系统

本发明的另一个方面提供多种载体，其包含本发明提供的任何一种核酸。

在一些实施方式中，本发明提供一种载体，其包含一种核酸，所述核酸包含编码本发明提供的任何一种基因编辑融合蛋白或任何一种融合多肽的核苷酸序列。

在一些实施方式中，本发明提供一种载体，其包含一种核酸，所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，本发明提供一种载体，其包含一种核酸，所述核酸包含编码本发明提供的任何一种基因编辑融合蛋白或任何一种融合多肽的核苷酸序列，并且所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，本发明提供一种载体系统，其包括一个或多个相同的载体，每个所述载体包含一种核酸，所述核酸包含编码本发明提供的任何一种基因编辑融合蛋白或任何一种融合多肽的核苷酸序列，并且所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

在一些实施方式中，本发明提供一种载体系统，其包括第一载体和与第一载体不同的第二载体，所述第一载体包含一种核酸，所述核酸包含编码本发明提供的任何一种基因编辑融合蛋白或任何一种融合多肽的核苷酸序列；所述第二载体包含一种核酸，所述核酸包含引导RNA或编码所述引导RNA的核苷酸序列。

合适的载体包括脂质体、质粒、粒子、外泌体、微囊泡、基因枪或病毒载体。病毒载体的例子包括腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。在一些实施方式中，本发明的载体是重组腺相关病毒(AAV)载体。在一些实施方式中，本发明的载体是重组慢病毒载体。在一些实施方式中，本发明的载体是重组逆转录病毒载体。载体可以是表达载体或复制载体。

根据所用的宿主/载体系统，可在载体中使用多种合适的转录和翻译控制元件中的任一种，包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。在一些实施方案中，编码引导RNA的核苷酸序列可操作地连接至控制元件，例如转录控制元件，诸如启动子。在一些实施方案中，编码基因编辑融合蛋白或融合多肽的核苷酸序列可操作地连接至控制元件，例如转录控制元件，诸如启动子。

转录控制元件可以是启动子。在一些实施方式中，启动子是组成型活性启动子。在一些实施方式中，启动子是可调控启动子。在一些实施方式中，启动子是诱导型启动子。在一些实施方式中，启动子是组织特异性启动子。在一些实施方式中，启动子是细胞类型特异性启动子。在一些实施方式中，转录控制元件(例如，启动子)在所靶向细胞类型或所靶向细胞群中是功能性的。例如，在一些实施方式中，转录控制元件在真核细胞(例如，造血干细胞(例如，动员的外周血(mPB)CD34(+)细胞、骨髓(BM)CD34(+)细胞等))中可以是功能性的。

真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括EF1α，来自巨细胞病毒(CMV)立即早期、单纯疱疹病毒(HSV)胸苷激酶、早期和晚期SV40、逆转录病毒的长末端重复序列(LTR)以及小鼠金属硫蛋白-I的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如，6×His标签、血凝素标签、荧光蛋白等)的核苷酸序列，所述蛋白质标签可融合至基因编辑融合蛋白，从而产生基因编辑融合蛋白。

在一些实施方案中，编码引导RNA和/或基因编辑融合蛋白的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中，编码引导RNA和/或基因编辑融合蛋白的核苷酸序列可操作地连接至组成型启动子。启动子可以是组成型活性启动子(即，组成性地处于活性/“ON”状态的启动子)，它可以是诱导型启动子(即，通过外界刺激例如特定温度、化合物或蛋白质的存在控制其状态(活性/“ON”或非活性/“OFF”)的启动子)，它可以是空间限制的启动子(即，转录控制元件、增强子等)(例如，组织特异性启动子、细胞类型特异性启动子等)，并且它可以是时间限制的启动子(即，启动子在胚胎发育的特定阶段过程中或在生物过程的特定阶段(例如，小鼠体内的毛囊周期)过程中处于“ON”状态或“OFF”状态)。

合适的启动子可衍生自病毒并且可因此称为病毒启动子，或者它们可衍生自任何生物，包括原核生物或真核生物。合适的启动子可用来通过任何RNA聚合酶(例如，pol I、pol II、pol III)驱动表达。示例性启动子包括但不限于SV40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(LTR)启动子；腺病毒主要晚期启动子(AdMLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子诸如CMV立即早期启动子区(CMVIE)、劳斯肉瘤病毒(RSV)启动子、人U6小核启动子(U6)、增强的U6启动子、人H1启动子(H1)等。

在一些实施方式中，编码引导RNA的核苷酸序列可操作地连接至(受控制于)在真核细胞中可操作的启动子(例如，U6启动子、增强的U6启动子、H1启动子等)。如本领域的普通技术人员所理解的，当使用U6启动子(例如，在真核细胞中)或另一种PolIII启动子由核酸(例如，表达载体)表达RNA(例如，引导RNA)时，如果连续存在若干个T(在RNA中编码U)，则可能需要对RNA进行突变。这是因为DNA中的一串T(例如，5个T)可充当聚合酶III(PolIII)的终止子。因此，为了确保引导RNA在真核细胞中的转录，有时可能需要修饰编码引导RNA的序列以消除T的作用。在一些实施方式中，编码基因编辑融合蛋白的核苷酸序列可操作地连接至在真核细胞中可操作的启动子(例如，CMV启动子、EF1α启动子、雌激素受体调控的启动子等)。

诱导型启动子的实例包括但不限于T7 RNA聚合酶启动子、T3RNA聚合酶启动子、异丙基-β-D-硫代半乳糖苷(IPTG)调控的启动子、乳糖诱导的启动子、热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。因此，诱导型启动子可通过分子调控，所述分子包括但不限于强力霉素；雌激素和/或雌激素类似物；IPTG等。

在一些实施方式中，启动子是可逆启动子。合适的可逆启动子，包括可逆诱导型启动子，在本领域中是已知的。此类可逆启动子可分离自并衍生自许多生物体，例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如，第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰在本领域中是众所周知的。此类可逆启动子和基于此类可逆启动子但还包含另外的控制蛋白的系统包括但不限于醇调控的启动子(例如，醇脱氢酶I(alcA)基因启动子、响应于醇反式激活因子蛋白(AlcR)的启动子等)、四环素调控的启动子(例如，包括Tet激活因子、TetON、TetOFF等的启动子系统)、类固醇调控的启动子(例如，大鼠糖皮质激素受体启动子系统、人雌激素受体启动子系统、类视黄醇启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调控的启动子(例如，金属硫蛋白启动子系统等)、发病原相关的调控启动子(例如，水杨酸调控的启动子、乙烯调控的启动子、苯并噻二唑调控的启动子等)、温度调控的启动子(例如，热休克诱导型启动子(例如，HSP-70、HSP-90、大豆热休克启动子等))、光调控的启动子、合成诱导型启动子等。

RNA聚合酶III(Pol III)启动子可用于驱动非蛋白质编码RNA分子(例如，引导RNA)表达。在一些实施方式中，合适的启动子是Pol III启动子。在一些实施方式中，PolIII启动子可操作地连接到编码引导RNA(gRNA)的核苷酸序列。在一些实施方式中，Pol III启动子可操作地连接到编码CRISPR RNA(crRNA)的核苷酸序列。

Pol III启动子的非限制性实例包括U6启动子、Hl启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。在一些实施方式中，Pol III启动子选自由以下组成的组：U6启动子、Hl启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子。在一些实施方式中，引导RNA编码核苷酸序列可操作地连接到选自由U6启动子、Hl启动子、5S启动子、腺病毒2(Ad2)VAI启动子、tRNA启动子和7SK启动子组成的组的启动子。

将核酸(例如，包含一种或多种编码基因编辑融合蛋白和/或嵌合基因编辑融合蛋白引导RNA的核酸等)引入宿主细胞中的方法在本领域中是已知的，并且可使用任何方便的方法来将核酸(例如，表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。在一些实施方案中，基因编辑融合蛋白可以作为RNA提供。RNA可通过直接化学合成提供，或者可在体外从DNA(例如，编码基因编辑融合蛋白的DNA)转录。一旦合成，可通过用于将核酸引入细胞中的任何众所周知的技术(例如，微注射、电穿孔、转染等)将RNA引入细胞中。

可直接向靶宿主细胞提供载体。换句话讲，使细胞与包含所述核酸的载体(例如包含编码基因编辑融合蛋白引导RNA的核酸以及编码基因编辑融合蛋白或融合多肽的核酸的重组表达载体等)接触，使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)在本领域中是众所周知的。对于病毒载体递送，可使细胞与包含主题病毒表达载体的病毒颗粒接触。

逆转录病毒，例如慢病毒，适用于本发明的方法。通常使用的逆转录病毒载体是“缺陷型的”，即不能产生生产性感染所需要的病毒蛋白质。而且载体的复制需要在包装细胞系中生长。为了生成包含目标核酸的病毒颗粒，通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同的包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性)，此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性；对包括人、狗和小鼠的大多数哺乳动物细胞类型的双嗜性；以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法在本领域中是众所周知的。还可通过直接微注射引入核酸(例如，RNA的注射)。

在一些实施方式中，本发明的核酸及包含核酸的载体包含目标引导序列的插入位点。例如，核酸可包含目标引导序列的插入位点，其中所述插入位点紧邻编码基因编辑融合蛋白引导RNA的部分的核苷酸序列，当引导序列被改变而与所需靶序列(例如，有助于引导RNA的基因编辑融合蛋白结合方面的序列，即重复区段)杂交时，基因编辑融合蛋白引导RNA的所述部分不会改变。因此，在一些实施方式中，本发明提供的核酸(例如，表达载体)包含编码基因编辑融合蛋白引导RNA的核苷酸序列，不同的是编码引导RNA的引导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的，并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如，在一些实施方式中，插入位点是多克隆位点(MCS)(例如，包含一个或多个限制性酶识别序列的位点)，用于不依赖于连接的克隆的位点，用于基于重组的克隆(例如，基于att位点的重组)的位点，由基于CRISPR/Cas(例如Cas9)的技术识别的核苷酸序列等。

插入位点可以是任何期望的长度，并且可取决于插入位点的类型(例如，可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列)，位点是否包括CRISPR/Cas蛋白的靶位点等)。在一些实施方式中，本发明的核酸的插入位点的长度为3个或更多个核苷酸(nt)(例如，长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些实施方式中，本发明的核酸的插入位点的长度具有在2至50个核苷酸(nt)的范围内(例如，2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些实施方式中，本发明的插入位点的长度具有在5至40个nt的范围内的长度。

递送系统

可通过多种熟知的方法中的任一种将基因编辑融合蛋白引导RNA(或包含编码所述引导RNA的核苷酸序列的核酸)和/或本发明的基因编辑融合蛋白(或包含编码所述多肽的核苷酸序列的核酸)和/或本发明的融合多肽(或包含编码本发明的融合多肽的核苷酸序列的核酸)引入到宿主细胞中。

多种化合物和方法中的任一种可用于将本发明的基因编辑系统递送至靶细胞。所述基因编辑系统可包含：a)本发明的基因编辑融合蛋白和基因编辑融合蛋白引导RNA；b)本发明的融合多肽和基因编辑融合蛋白引导RNA；c)编码本发明的基因编辑融合蛋白的mRNA；和基因编辑融合蛋白引导RNA；d)编码本发明的融合多肽的mRNA和基因编辑融合蛋白引导RNA；e)重组表达载体，其包含编码本发明的基因编辑融合蛋白的核苷酸序列和编码基因编辑融合蛋白引导RNA的核苷酸序列；f)重组表达载体，其包含编码本发明的融合多肽的核苷酸序列和编码基因编辑融合蛋白引导RNA的核苷酸序列；g)包含编码本发明的基因编辑融合蛋白的核苷酸序列的第一重组表达载体，和包含编码基因编辑融合蛋白引导RNA的核苷酸序列的第二重组表达载体；h)包含编码本发明的融合多肽的核苷酸序列的第一重组表达载体，和包含编码基因编辑融合蛋白引导RNA的核苷酸序列的第二重组表达载体；i)重组表达载体，其包含编码本发明的基因编辑融合蛋白的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或j)重组表达载体，其包含编码本发明的融合多肽的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或者是(a)到(j)之一的某种变体。作为非限制性实例，本发明的基因编辑系统可与脂质组合。作为另一个非限制性实例，本发明的基因编辑系统可与颗粒组合或配制成颗粒。

将核酸引入宿主细胞中的方法在本领域中是已知的，并且可使用任何方便的方法来将主题核酸(例如，表达构建体/载体)引入靶细胞(例如，原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、人细胞等)中。合适的方法包括例如病毒感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(PEI)介导的转染、DEAE-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送。

在一些实施方式中，本发明的基因编辑融合蛋白作为编码基因编辑融合蛋白多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些实施方式中，本发明的基因编辑融合蛋白直接作为蛋白质(例如，不与相关联的引导RNA一起或与相关联的引导RNA一起，即作为核糖核蛋白复合物)提供。可通过任何方便的方法将本发明的基因编辑融合蛋白引入细胞中(提供至细胞)；此类方法是本领域的普通技术人员已知的。作为说明性实例，可将本发明的基因编辑融合蛋白直接注射到细胞中(例如，与或不与基因编辑融合蛋白引导RNA或编码基因编辑融合蛋白引导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本发明的基因编辑融合蛋白和基因编辑融合蛋白引导RNA的预先形成的复合物(RNP)引入细胞(例如，真核细胞)中(例如，通过注射、通过核转染；通过缀合至一种或多种组分的蛋白转导结构域(PTD)，例如缀合至基因编辑融合蛋白、缀合至引导RNA、缀合至本发明的基因编辑融合蛋白以及引导RNA；等)。

在一些实施方式中，本发明提供的融合多肽(例如，融合到异源多肽基因编辑融合蛋白)作为编码融合多肽的核酸(例如，mRNA、DNA、质粒、表达载体、病毒载体等)提供。在一些实施方式中，本发明的融合多肽直接作为蛋白质(例如，不与相关联的引导RNA一起或与相关联的引导RNA一起，即作为核糖核蛋白复合物)提供。本发明的融合多肽可通过任何方便的方法引入到细胞中(提供给细胞)；此类方法是本领域普通技术人员已知的。作为说明性实例，本发明的融合多肽可以直接注射到细胞中(例如，与或不与编码基因编辑融合蛋白引导RNA的核酸一起，并且与或不与供体多核苷酸一起)。作为另一个实例，可将本发明的融合多肽和基因编辑融合蛋白引导RNA(RNP)的预形成复合物引入到细胞中(例如，通过注射；通过核转染；通过与一种或多种组分缀合的蛋白质转导结构域(PTD)，例如与融合蛋白缀合，与引导RNA缀合，与本发明的融合多肽和引导RNA缀合；等)。

包含编码本发明的基因编辑融合蛋白的核苷酸序列和/或基因编辑融合蛋白引导RNA的重组表达载体、包含编码本发明的基因编辑融合蛋白的核苷酸序列的mRNA以及引导RNA可使用颗粒或脂质包膜同时递送；例如，基因编辑融合蛋白和基因编辑融合蛋白引导RNA，例如作为复合物(例如，核糖核蛋白(RNP)复合物)可通过颗粒递送，例如通过包含脂质或类脂质以及亲水性聚合物(例如，阳离子脂质和亲水聚合物)的递送颗粒递送，例如，其中阳离子脂质包括1,2-二油酰基-3-三甲基铵-丙烷(DOTAP)或1,2-二十四烷酰基-sn-甘油基-3-磷酸胆碱(DMPC)并且/或者其中亲水性聚合物包括乙二醇或聚乙二醇(PEG)；并且/或者其中颗粒还包含胆固醇。例如，可使用多步骤方法形成颗粒，其中将基因编辑融合蛋白和基因编辑融合蛋白引导RNA例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1×磷酸盐缓冲盐水(PBS)中混合在一起；并且将适用于制剂的DOTAP、DMPC、PEG和胆固醇单独地溶于醇(例如，100％乙醇)，并且将两种溶液混合在一起以形成含有复合物的颗粒)。

本发明的基因编辑融合蛋白(或包含编码本发明的基因编辑融合蛋白的核苷酸序列的mRNA；或包含编码本发明的基因编辑融合蛋白的核苷酸序列的重组表达载体)和/或基因编辑融合蛋白引导RNA(或核酸，诸如一种或多种编码基因编辑融合蛋白引导RNA的表达载体)可使用颗粒或脂质包膜同时递送。例如，可使用具有由磷脂双层壳包封的聚(β-氨基酯)(PBAE)核的可生物降解的核壳结构的纳米颗粒。在一些实施方式中，使用基于自组装生物粘附聚合物的颗粒/纳米颗粒；此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送，例如递送至脑。还考虑了其他实施方案，诸如疏水性药物的口服吸收和眼部递送。可使用分子包膜技术，其涉及受保护并递送至疾病部位的工程化聚合物包膜。可以单剂量或多剂量使用约5mg/kg的剂量，这取决于各种因素，例如靶组织。

在一些实施方式中，脂质纳米颗粒(LNP)用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞。带负电的聚合物(诸如RNA)可在低pH值(例如，pH 4)下装载到LNP中，其中可电离的脂质显示正电荷。然而，在生理pH值下，LNP表现出与较长的循环时间相容的低表面电荷。可使用阳离子脂质1,2-二亚油酰基-3-二甲基铵-丙烷(DLinDAP)、1,2-二亚油基氧基-3-N,N-二甲基氨基丙烷(DLinDMA)、1,2-二亚油基氧基酮基-N,N-二甲基-3-氨基丙烷(DLinK-DMA)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(DLinKC2-DMA)、(3-o-[2'’-(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(PEG-S-DMG)，以及R-3-[(ω-甲氧基-聚(乙二醇)2000)氨甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(PEG-C-DOMG)。核酸(例如，基因编辑融合蛋白引导RNA；本发明的核酸等)可包封在含有DLinDAP、DLinDMA、DLinK-DMA和DLinKC2-DMA(阳离子脂质:DSPC:CHOL:PEGS-DMG或PEG-C-DOMG的摩尔比为40:10:40:10)的LNP中。在一些实施方式中，并入0.2％SP-DiOC18。

球形核酸(SNATM)构建体和其它纳米颗粒(特别是金纳米颗粒)可用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞。具有RNA的自组装纳米颗粒可以用聚乙烯亚胺(PEI)来构建，所述聚乙烯亚胺用连接在聚乙二醇(PEG)远端的Arg-Gly-Asp(RGD)肽配体聚乙二醇化。一般来讲，“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些实施方式中，适用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞的纳米颗粒具有500nm或更小，例如，25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些实施方式中，适用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞的纳米颗粒具有25nm至200nm的直径。在一些实施方式中，适用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞的纳米颗粒具有100nm或更小的直径。在一些实施方式中，适用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞的纳米颗粒具有35nm至60nm的直径。适用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞的纳米颗粒可以不同的形式提供，例如，作为固体纳米颗粒(例如，金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或它们的组合提供。可制备金属、介电和半导体纳米颗粒，以及混合结构(例如，核壳纳米颗粒)。如果由半导体材料制成的纳米颗粒足够小(通常低于10nm)以致发生电子能级的量子化，则也可将它们标记量子点。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂，并且可适用于本发明中的相似目的。

在一些实施方式中，外来体用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞。外泌体是内源性纳米囊泡，其运输RNA和蛋白质，并且可将RNA递送至脑和其他靶器官。在一些实施方式中，脂质体用于将本发明的基因编辑融合蛋白、本发明的融合多肽、本发明的RNP、本发明的核酸或本发明的基因编辑系统递送至靶细胞。脂质体是球形囊泡结构，其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成；然而，磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时，脂质体形成是自发的，但是也可通过使用均化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如，可将胆固醇或鞘磷脂添加到脂质体混合物中，以便帮助稳定脂质体结构并防止脂质体内容物(inner cargo)的泄漏。脂质体制剂可主要由以下组成：天然磷脂和脂质，诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(DSPC)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。

细胞

本发明提供一种修饰的细胞，所述修饰的细胞包含本发明的基因编辑融合蛋白或融合多肽和/或包含编码本发明的基因编辑融合蛋白或融合多肽的核苷酸序列的核酸。本发明提供一种修饰的细胞，所述修饰的细胞包含本发明的基因编辑融合蛋白或融合多肽，其中所述修饰的细胞是通常不包含本发明的基因编辑融合蛋白或融合多肽的细胞。本发明提供一种修饰的细胞(例如，遗传修饰的细胞)，所述修饰的细胞包含核酸，所述核酸包含编码本发明的基因编辑融合蛋白或融合多肽的核苷酸序列。本发明提供一种用mRNA遗传修饰的遗传修饰的细胞，所述mRNA包含编码本发明的基因编辑融合蛋白或融合多肽的核苷酸序列。本发明提供一种用重组表达载体遗传修饰的遗传修饰的细胞，所述重组表达载体包含编码本发明的基因编辑融合蛋白或融合多肽的核苷酸序列。本发明提供一种用重组表达载体遗传修饰的遗传修饰细胞，所述重组表达载体包含：a)编码本发明的基因编辑融合蛋白或融合多肽的核苷酸序列；和b)编码本发明的基因编辑融合蛋白引导RNA的核苷酸序列。

受体的细胞可以是多种细胞中的任一种，这些细胞包括例如体外细胞；体内细胞；离体细胞；原代细胞；癌细胞；动物细胞；植物细胞；藻类细胞；真菌细胞等。用作本发明的基因编辑融合蛋白或融合多肽和/或包含编码本发明的基因编辑融合蛋白或融合多肽和/或本发明的基因编辑融合蛋白引导RNA的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本发明的基因编辑系统的受体。宿主细胞或靶细胞可以是本发明的基因编辑融合蛋白RNP的受体。宿主细胞或靶细胞可以是本发明的基因编辑系统的单一组分的受体。

细胞(靶细胞)的非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、植物细胞、藻类细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorellapyrenoidosa)、展枝马尾藻(Sargassum patens)、羽藻(C.agardh)等)、海藻(例如巨藻(kelp))、真菌细胞(例如，酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如，果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如，鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，有蹄类动物(例如，猪、牛、山羊、绵羊)；啮齿动物(例如，大鼠、小鼠)；非人灵长类动物；人；猫科动物(例如，猫)；犬(例如，狗)等)的细胞等。在一些实施方式中，细胞是不源自天然生物体的细胞(例如，细胞可以是合成制得的细胞；也称为人造细胞)。

细胞可以是体外细胞(例如，建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如，个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如，体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。

合适的细胞包括干细胞(例如胚胎干(ES)细胞、诱导多能干(iPS)细胞；生殖细胞(例如，卵母细胞、精子、卵原细胞、精原细胞等)；体细胞，例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。

合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。

在一些实施方式中，细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些实施方式中，免疫细胞是T细胞、B细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些实施方式中，免疫细胞是细胞毒性T细胞。在一些实施方式中，免疫细胞是辅助性T细胞。在一些实施方式中，免疫细胞是调节性T细胞(Treg)。在一些实施方式中，细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。在一些实施方案中，干细胞是造血干细胞(HSC)。在其他实施方案中，干细胞是神经干细胞(NSC)。在其他实施方案中，干细胞是间充质干细胞(MSC)。

组合物或试剂盒

本发明的另一个方面涉及组合物或试剂盒，所述组合物或试剂盒包含本发明的基因编辑系统，所述基因编辑系统可包含：a)本发明的基因编辑融合蛋白和基因编辑融合蛋白引导RNA；b)本发明的融合多肽和基因编辑融合蛋白引导RNA；c)编码本发明的基因编辑融合蛋白的mRNA；和基因编辑融合蛋白引导RNA；d)编码本发明的融合多肽的mRNA和基因编辑融合蛋白引导RNA；e)重组表达载体，其包含编码本发明的基因编辑融合蛋白的核苷酸序列和编码基因编辑融合蛋白引导RNA的核苷酸序列；f)重组表达载体，其包含编码本发明的融合多肽的核苷酸序列和编码基因编辑融合蛋白引导RNA的核苷酸序列；g)包含编码本发明的基因编辑融合蛋白的核苷酸序列的第一重组表达载体，和包含编码基因编辑融合蛋白引导RNA的核苷酸序列的第二重组表达载体；h)包含编码本发明的融合多肽的核苷酸序列的第一重组表达载体，和包含编码基因编辑融合蛋白引导RNA的核苷酸序列的第二重组表达载体；i)重组表达载体，其包含编码本发明的基因编辑融合蛋白的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或j)重组表达载体，其包含编码本发明的融合多肽的核苷酸序列、编码第一Cas12i引导RNA的核苷酸序列和编码第二Cas12i引导RNA的核苷酸序列；或者是(a)到(j)之一的某种变体。

本发明的组合物或试剂盒可进一步包括药学上可接受的载体，例如一种或多种另外的试剂，例如，i)缓冲剂；ii)蛋白酶抑制剂；iii)核酸酶抑制剂；iv)显影或可视化可检测标记所需的试剂；v)阳性和/或阴性对照靶DNA；vi)阳性和/或阴性对照Cas12i引导RNA等。本发明的组合物或试剂盒可包括：a)如上所述的本发明的基因编辑系统的组分，或者可包含本发明的基因编辑系统；和b)治疗剂。

本发明的组合物或试剂盒可包括重组表达载体，所述重组表达载体包含：a)用于插入核酸的插入位点，所述核酸包含编码基因编辑融合蛋白引导RNA的一部分的核苷酸序列，所述基因编辑融合蛋白引导RNA的一部分与靶核酸中的靶核苷酸序列杂交；和b)编码基因编辑融合蛋白引导RNA的Cas12i结合部分的核苷酸序列。本发明的组合物或试剂盒可包括重组表达载体，所述重组表达载体包含：a)用于插入核酸的插入位点，所述核酸包含编码基因编辑融合蛋白引导RNA的一部分的核苷酸序列，所述基因编辑融合蛋白引导RNA的一部分与靶核酸中的靶核苷酸序列杂交；b)编码基因编辑融合蛋白引导RNA的Cas12i结合部分的核苷酸序列；和c)编码本发明的基因编辑融合蛋白的核苷酸序列。

方法及用途

本发明的基因编辑融合蛋白或本发明的融合多肽可用于多种方法中(例如，与基因编辑融合蛋白引导RNA组合)。例如，本发明的基因编辑融合蛋白可用于(i)修饰(例如甲基化等)靶核酸(DNA或RNA；单链或双链)；(ii)调节靶核酸的转录；(iii)标记靶核酸；(iv)结合靶核酸(例如，用于分离、标记、成像、追踪等的目的)；(v)修饰与靶核酸相关联的多肽(例如，组蛋白)；(vi)对靶核酸进行碱基对转换等。因此，本发明提供一种切割靶核酸的方法。在一些实施方式中，本发明的用于切割靶核酸的方法包括使靶核酸与以下物质接触：a)本发明的基因编辑融合蛋白或融合多肽；和b)一种或多种(例如，两种)基因编辑融合蛋白引导RNA，所述接触导致所述靶核酸被切割。在一些实施方式中，接触步骤在体外细胞中进行。在一些实施方式中，接触步骤在体内细胞中进行。在一些实施方式中，接触步骤在离体细胞中进行。

如本文所用，术语/短语“使靶核酸，例如，与基因编辑融合蛋白或与融合多肽等接触”，涵盖用于接触靶核酸的所有方法。例如，基因编辑融合蛋白可以作为蛋白质、RNA(编码基因编辑融合蛋白或融合多肽)或DNA(编码基因编辑融合蛋白或融合多肽)提供给细胞；而基因编辑融合蛋白引导RNA可以作为引导RNA或编码引导RNA的核酸提供。因此，当例如在细胞中(例如，在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时，包括接触靶核酸的方法涵盖将处于活性/最终状态的任何或所有组分(例如，呈基因编辑融合蛋白的一种或多种蛋白质形式；呈融合多肽的蛋白质形式；在一些实施方式中，呈引导RNA的RNA形式)引入细胞中，并且还涵盖将编码一种或多种组分的一种或多种核酸(例如，一种或多种包含编码基因编辑融合蛋白或融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种引导RNA的一种或多种核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外在细胞外部执行，所以包括接触靶核酸的方法(除非另外指明)涵盖在体外在细胞外部、在体外在细胞内部、在体内在细胞内部、离体在细胞内部接触等。在一些实施方式中，靶核酸在体外无细胞组合物中。在一些实施方式中，靶核酸存在于靶细胞中。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是原核细胞。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是真核细胞。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是哺乳动物细胞。在一些实施方式中，靶核酸存在于靶细胞中，其中靶细胞是植物细胞。

在一些实施方式中，本发明的用于修饰靶核酸的方法包括使靶核酸与本发明的基因编辑融合蛋白或本发明的融合多肽接触。在一些实施方式中，本发明的用于切割靶核酸的方法包括使靶核酸与基因编辑融合蛋白和基因编辑融合蛋白引导RNA接触。在一些实施方式中，本发明的用于切割靶核酸的方法包括使靶核酸与基因编辑融合蛋白、第一Cas12i引导RNA和第二Cas12i引导RNA接触。

当与基因编辑融合蛋白引导RNA结合时，本发明的基因编辑融合蛋白或本发明的融合多肽可结合靶核酸，并且在一些实施方式中，可结合并修饰靶核酸。靶核酸可以是任何核酸(例如，DNA、RNA)，可以是双链或单链的，可以是任何类型的核酸(例如，染色体(基因组DNA)、衍生自染色体、染色体DNA、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如，只要基因编辑融合蛋白引导RNA包含与靶核酸中的靶序列杂交的核苷酸序列，使得靶核酸可被靶向即可)。靶核酸可以是DNA或RNA。靶核酸可以是双链的(例如，dsDNA、dsRNA)或单链的(例如，ssRNA、ssDNA)。

本发明的其他方面涉及包含本文所述的融合蛋白：gRNA复合物中的任何一种的药物组合物。本发明的其它方面涉及包含任何所述多核苷酸或载体的药物组合物，所述多核苷酸或载体包含编码本文所述融合蛋白：gRNA复合物的核酸片段。

在一些实施方案中，本文所述的任何融合蛋白：gRNA复合物作为药物组合物的一部分提供。在一些实施方案中，药物组合物包含本文提供的任何碱基编辑器。在一些实施方案中，药物组合物包含本文提供的任何复合物。在一些实施方案中，药物组合物包含融合蛋白：gRNA复合物和药学上可接受的赋形剂。药物组合物可以任选地包含一种或多种额外的治疗活性物质。

在一些实施方案中，本文提供的组合物被配制用于递送至受试者，例如递送至人类受试者以在受试者内实现靶向基因组修饰。在一些实施方案中，从受试者获得细胞并与本文提供的任何药物组合物接触。在一些实施方案中，任选地在细胞中实现或检测到所需的基因组修饰之后，将从受试者移除并与药物组合物离体接触的细胞重新引入受试者中。

本文所述的药物组合物的制剂可以通过药理学领域中已知的任何方法制备。通常，这种制备方法包括使活性成分与赋形剂和/或一种或多种其他辅助成分结合，然后，如果必要和/或需要，将产品成型和/或包装成所需的单剂量或多剂量单元的步骤。

在一些实施方案中，药物组合物被配制用于递送至受试者，例如用于基因编辑。施用本文所述药物组合物的合适途径包括但不限于：局部、皮下、透皮、皮内、病变内、关节内、腹膜内、膀胱内、透粘膜、牙龈、颏内、耳蜗内、经鼓室、耳内、硬膜外、鞘内、肌内、静脉内、血管内、骨内、眼周、肿瘤内、脑内和侧脑室给药。

在各种实施方案中，所公开的切割方法在靶核碱基对处产生至少约35％、40％、50％、60％、70％、80％、85％、90％、95％、98％或99％的靶上DNA碱基编辑(如切割等)效率。接触步骤可导致至少约60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％或75％的DNA编辑(如切割等)效率。特别地，接触的步骤导致大于75％的基于目标的编辑(如切割等)效率。在某些实施例中，可以实现99％的编辑(如切割等)效率。

在一些实施方案中，预期编辑的碱基对是PAM位点上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施例中，预期编辑的碱基对在PAM位点的下游。在一些实施方案中，预期编辑的碱基对是PAM位点下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中，靶区包括靶窗口，其中靶窗口包括靶核碱基对。在一些实施例中，靶窗口包括1-10个核苷酸。在一些实施方案中，靶窗口的长度为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施方案中，靶窗口的长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施例中，预期编辑的碱基对在靶窗口内。在一些实施方案中，使用本文提供的任何编辑器来执行该方法。在一些实施例中，靶窗口是切割碱基窗口。

具体地，本文提供的基因编辑融合蛋白、基因编辑系统、融合多肽、复合物、核酸、载体、载体系统、递送系统或细胞可用于治疗各种罕见病、肿瘤、癌症、炎症、病毒感染疾病、遗传疾病、中枢神经系统疾病、衰老和多种自身免疫性疾病以及常见和慢性疾病。更具体地，治疗的疾病可以为高血压、高脂血症、乙型肝炎病毒(HBV)、肝细胞癌(HCC)、肩肱型肌营养不良症(FSHD)、杂合子家族性高胆固醇血症(HeFH)、α-1抗胰蛋白酶缺乏症(A1AD)、非动脉性前部缺血性视神经病变(NAION)或杜氏肌营养不良(DMD)。

序列表

实施例

实施例1.基因编辑融合蛋白在人类细胞系中切割活性验证

为了进一步证实本发明提供的基因编辑融合蛋白在哺乳动物细胞中的靶序列切割活性，本实验采用测序方式进行验证，如表1和图1所示载体结构，分别将enCas12i-001效应蛋白(SEQ ID NO.68)、enCas12i-001-N229R效应蛋白(SEQ ID NO.74)、5’-3’外切核酸酶(SEQ ID NO.21，下称T5 Exo)经过真核生物密码子优化的核苷酸、靶向RNF2基因的sgRNA表达盒构建至真核生物表达载体pX330中，靶点RNF2-Target gRNA的核苷酸序列为：5’-TTCAACATATCCAAACAAAT-3’(SEQ ID NO.81)。sgRNA中crRNA的核苷酸序列为：5’-AGAAATCCGTCTTTCATTGACGG-3’(SEQ ID NO.89)，该sgRNA由U6启动子启动表达；该enCas12i-001效应蛋白由chickenβ-actinpromoter启动子启动表达；T5 Exo通过GSlinker连接在enCas12i-001核苷酸或enCas12i-001-N229R核苷酸的C端或N端，eGFP基因(用于进行细胞分选)通过自剪切多肽2A(P2A)连接在T5 Exo的C端，构建重组载体，分别标记为：pX330-enCas12i-001-N229R-T5 Exo-eGFP(载体1，不含有Target gRNA，为空白对照)、pX330-enCas12i-001-N229R-RNF2-eGFP(载体2，为不连接T5 Exo的对照)、pX330-enCas12i-001-T5 Exo-RNF2-eGFP(载体3，T5 Exo连接在enCas12i-001的C末端)、pX330-T5Exo-enCas12i-001-N229R-RNF2-eGFP(载体4，T5 Exo连接在enCas12i-001-N229R的N末端)和pX330-enCas12i-001-N229R-T5 Exo-RNF2-eGFP(载体5，T5 Exo连接在enCas12i-001-N229R的C末端)。

按照上述方法将靶向TTR site1基因的sgRNA(TTR-Target1 gRNA)替换上述载体中的RNF2-Target gRNA，靶点TTR-Target1 gRNA的核苷酸序列为：5’-TTGTATAATAGGAAAGGGAA-3’(SEQ ID NO.82)，构建重组载体，分别标记为：pX330-enCas12i-001-N229R-TTR1-eGFP(载体6，为不连接T5 Exo的对照)、pX330-T5 Exo-enCas12i-001-N229R-TTR1-eGFP(载体7，T5 Exo连接在enCas12i-001-N229R的N末端)和pX330-enCas12i-001-N229R-T5 Exo-TTR1-eGFP(载体8，T5 Exo连接在enCas12i-001-N229R的C末端)。

按照上述方法将靶向TTR site2基因的sgRNA(TTR-Target2 gRNA)替换上述载体中的RNF2-Target gRNA，靶点TTR-Target2 gRNA的核苷酸序列为：5’-AAGGAAAATACATATTAATA-3’(SEQ ID NO.83)，构建重组载体，分别标记为：pX330-enCas12i-001-N229R-TTR2-eGFP(载体9，为不连接T5 Exo的对照)、pX330-T5 Exo-enCas12i-001-N229R-TTR2-eGFP(载体10，T5 Exo连接在enCas12i-001-N229R的N末端)和pX330-enCas12i-001-N229R-T5 Exo-TTR2-eGFP(载体11，T5 Exo连接在enCas12i-001-N229R的C末端)。

分别将上述载体(载体1-载体11)转染人HEK293T细胞。在37℃、5％二氧化碳浓度下培养，转染72h后，通过荧光活化细胞分选(FACS)收集eGFP阳性细胞，细胞分选后继续培养48小时，随后提取分选的细胞基因组，然后进行一代测序以及高通量测序。

一代测序结果如图2所示，图2A至图2E为载体1至载体5转染细胞后RNF2靶点的测序结果，图2A至图2E的箭头区为RNF2靶点序列，图2A显示空白对照(载体1)中该靶点序列上游和下游的峰形比较完整，基本为单一峰形，仅有基线噪音；图2B至图2E(载体2至载体5)显示效应蛋白：enCas12i-001-N229R、enCas12i-001-T5 Exo、T5 Exo-enCas12i-001-N229R和enCas12i-001-N229R-T5 Exo均在RNF2靶点序列的下游(箭头方向)，也即阅读框下游存在连续稳定的套峰，说明本专利的基因编辑融合蛋白在RNF2靶点上进行切割，导致该靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰；图2F至图2I为载体1、载体6至载体8转染细胞后TTR site1靶点的测序结果，图2F至图2I的箭头区为TTR site1靶点序列，图2F(载体1)显示空白对照中该靶点序列上游和下游的峰形比较完整，基本为单一峰形，仅有基线噪音，图2G至图2I(载体6至载体8)显示效应蛋白：enCas12i-001-N229R、T5Exo-enCas12i-001-N229R和enCas12i-001-N229R-T5 Exo均在TTR site1靶点序列的下游(箭头方向)，也即阅读框下游存在连续稳定的套峰，说明本专利的基因编辑融合蛋白在TTR site1靶点上进行切割，导致该靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰；图2J至图2M为载体1、载体9至载体11转染细胞后TTR site2靶点的测序结果，图2J至图2M的箭头区为TTR site2靶点序列，图2J(载体1)显示空白对照中该靶点序列上游和下游的峰形比较完整，基本为单一峰形，仅有基线噪音，图2K至图2M(载体9至载体11)显示效应蛋白：enCas12i-001-N229R、T5 Exo-enCas12i-001-N229R和enCas12i-001-N229R-T5 Exo均在TTR site2靶点序列的下游(箭头方向)，也即阅读框下游存在连续稳定的套峰，说明本专利的基因编辑融合蛋白在TTR site2靶点上进行切割，导致该靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰。上述测序结果说明本发明的基因编辑融合蛋白具有在真核细胞的切割活性。

通过NGS高通量测序分析上述靶点(RNF2、TTR site1和TTR site2)PCR基因产物的Indel情况，结果如图3。图3A为靶点(RNF2)PCR基因产物的Indel分析结果，结果显示T5 Exo融合在enCas12i-001和enCas12i-001-N229R的C末端的基因编辑融合蛋白编辑靶基因的Indel％比不融合T5 Exo的效应蛋白高；图3B为靶点(TTR site1)PCR基因产物的Indel分析结果，结果显示T5 Exo融合在enCas12i-001-N229R的C末端的基因编辑融合蛋白的编辑靶基因的Indel％比不融合T5 Exo的效应蛋白高；图3C为靶点(TTR site2)PCR基因产物的Indel分析结果，结果显示T5 Exo融合在enCas12i-001-N229R的C末端的基因编辑融合蛋白的编辑靶基因的Indel％比不融合T5 Exo的效应蛋白高，上述结果说明T5 Exo能显著提高enCas12i效应蛋白的切割活性。

上述测序结果表明，T5 Exo融合在enCas12i的C末端可导致靶基因Indel的增加，该融合方式使得Indel增加到80％以上(图3)，以下实施例选择测试T5 Exo融合在enCas12i-001-N229R的C末端的基因编辑融合蛋白在其他位点的切割活性和Indel情况。

表1(载体1-11结构如图1所示)

实施例2.基因编辑融合蛋白在人类细胞系中其他内源靶点切割活性验证

为了进一步证实enCas12i效应蛋白在哺乳动物细胞中的dsDNA切割活性，本实验采用测序方式进行验证，如表2所示载体结构，分别将SpCas9蛋白、enCas12i-001-N229R效应蛋白(SEQ ID NO.74)、T5 Exo(SEQ ID NO.21)经过真核生物密码子优化的核苷酸、靶向B2M基因的sgRNA表达盒构建至真核生物表达载体pX330中；由于SpCas9与enCas12i-001-N229R的PAM不同，因此两者的gRNA的靶向区段(Target gRNA)也不同，用于SpCas9的B2M-Target gRNA序列为：5’-TCACGTCATCCAGCAGAGAA-3’(命名为B2M-Target1 gRNA，SEQ IDNO.84)，SpCas9的gRNA采用常规SpCas9 gRNA scaffold；用于enCas12i-001-N229R的B2M-Target gRNA序列为：5’-CATTCTCTGCTGGATGACGT-3’(命名为B2M-Target2 gRNA，SEQ IDNO.85)，enCas12i-001-N229R的sgRNA中crRNA的核苷酸序列为：5’-AGAAATCCGTCTTTCATTGACGG-3’(SEQ ID NO.89)，这两个sgRNA均由U6启动子启动表达；两种效应蛋白由chickenβ-actin promoter启动子启动表达；T5 Exo通过GS linker连接在enCas12i-001-N229R核苷酸的C端，eGFP基因(用于进行细胞分选)通过自剪切多肽2A(P2A)连接在T5 Exo的C端，构建重组载体，分别标记为：pX330-SpCas9-B2M1-eGFP(载体12，Cas9阳性对照)、pX330-enCas12i-001-N229R-B2M2-eGFP(载体13，为不连接T5 Exo的对照)和pX330-enCas12i-001-N229R-T5 Exo-B2M2-eGFP(载体14，T5 Exo连接在enCas12i-001-N229R的C末端)。

按照上述方法将靶向PD-1site1基因的sgRNA(PD-1-Target1 gRNA)替换上述载体中的B2M-Target1 gRNA，靶点PD-1-Target1 gRNA的核苷酸序列为：5’-CTGCAGCTTCTCCAACACAT-3’(SEQ ID NO.86)，构建重组载体，标记为：pX330-SpCas9-PD-1-1-eGFP(载体15，Cas9阳性对照)。

按照上述方法将靶向PD-1site2基因的sgRNA(PD-1-Target2 gRNA)替换上述载体中的B2M-Target1 gRNA，靶点PD-1-Target2 gRNA的核苷酸序列为：5’-ACCTGCAGCTTCTCCAACAC-3’(SEQ ID NO.87)，构建重组载体，分别标记为：pX330-enCas12i-001-N229R-PD-1-2-eGFP(载体16，为不连接T5 Exo的对照)、pX330-enCas12i-001-N229R-T5 Exo-PD-1-2-eGFP(载体17，T5 Exo连接在enCas12i-001-N229R的C末端)。

按照上述方法将靶向PD-1site3基因的sgRNA(PD-1-Target3 gRNA)替换上述载体中的B2M-Target1 gRNA，靶点PD-1-Target3 gRNA的核苷酸序列为：5’-CACATGAGCGTGGTCAGGGC-3’(SEQ ID NO.88)，构建重组载体，分别标记为：pX330-enCas12i-001-N229R-PD-1-3-eGFP(载体18，为不连接T5 Exo的对照)、pX330-enCas12i-001-N229R-T5 Exo-PD-1-3-eGFP(载体19，T5 Exo连接在enCas12i-001-N229R的C末端)。

分别将上述载体(载体12-载体19)转染人HEK293T细胞。在37℃、5％二氧化碳浓度下培养，转染72h后，通过荧光活化细胞分选(FACS)收集eGFP阳性细胞，细胞分选后继续培养48小时，随后提取分选的细胞基因组，然后进行一代测序以及高通量测序。

一代测序结果如图5所示，图5A至图5C为载体12至载体14转染细胞后B2M靶点的测序结果，图5A至图5C的箭头区为B2M靶点序列，图5A显示Cas9阳性对照(载体12)、图5B至图5C(载体13至载体14)显示效应蛋白：enCas12i-001-N229R和enCas12i-001-N229R-T5 Exo均在B2M靶点序列的下游(箭头方向)，也即阅读框下游存在连续稳定的套峰，说明本专利的基因编辑融合蛋白在B2M靶点上进行切割，导致该靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰；图5D至图5H为载体15至载体19转染细胞后PD-1靶点的测序结果，图5D至图5H的箭头区为PD-1靶点序列，图5E显示Cas9阳性对照(载体15)、图5F至图5H(载体16至载体19)显示效应蛋白：enCas12i-001-N229R和enCas12i-001-N229R-T5 Exo均在PD-1靶点序列的下游(箭头方向)，也即阅读框下游存在连续稳定的套峰，说明本专利的基因编辑融合蛋白在PD-1靶点上进行切割，导致该靶点下游(箭头方向)的阅读框下游序列发生移码突变，引起阅读框架变化，导致其位点下游出现连续稳定的套峰。

通过NGS高通量测序分析上述靶点(B2M和PD-1)PCR基因产物的Indel情况，结果如图6。图6A为靶点(B2M)PCR基因产物的Indel分析结果，结果显示T5 Exo融合在enCas12i-001-N229R的基因编辑融合蛋白编辑靶基因的Indel％比不融合T5 Exo的效应蛋白高，且该基因编辑融合蛋白的切割活性比Cas9蛋白切割相同靶基因的活性高；图6B为靶点(PD-1)PCR基因产物的Indel分析结果，结果显示T5 Exo融合在enCas12i-001-N229R的基因编辑融合蛋白的编辑靶基因的Indel％比不融合T5 Exo的效应蛋白高，上述结果说明T5 Exo能显著提高enCas12i效应蛋白的切割活性。

上述测序结果表明，T5 Exo融合在enCas12i的C末端显著提高靶基因Indel比例，说明本专利提供的基因编辑融合蛋白切割靶序列的活性比Cas9蛋白高(图6)。

表2(载体12-19结构如图4所示)

实施例3.其他基因编辑融合蛋白在人类细胞系中其他内源靶点切割活性验证

以enCas12i-001-N229R为基础，在K259、Q602、Y881和G979位点上构建九种突变体，分别标记为“enCas12i-001-N229R-Q602R”、“enCas12i-001-N229R-Y881R”、“enCas12i-001-N229R-G979R”、“enCas12i-001-N229R-K259R-Y881R”、“enCas12i-001-N229R-K259R-G979R”、“enCas12i-001-N229R-Y881R-G979R”、“enCas12i-001-N229R-K259R-Q602R-Y881R”、“enCas12i-001-N229R-K259R-Q602R-G979R”、“enCas12i-001-N229R-Q602R-Y881R-G979R”效应蛋白，然后按照上述方法分别将这九种效应蛋白替换实施例2的载体17的enCas12i-001-N229R，得到的基因编辑融合蛋白的氨基酸序列如SEQ ID NO.90至100所示，分别标记为：enCas12i-001-N229R-Q602R-T5 Exo-PD-1-2、enCas12i-001-N229R-Y881R-T5Exo-PD-1-2、enCas12i-001-N229R-G979R-T5 Exo-PD-1-2、enCas12i-001-N229R-K259R-Y881R-T5 Exo-PD-1-2、enCas12i-001-N229R-K259R-G979R-T5Exo-PD-1-2、enCas12i-001-N229R-Y881R-G979R-T5 Exo-PD-1-2、enCas12i-001-N229R-K259R-Q602R-Y881R-T5 Exo-PD-1-2、enCas12i-001-N229R-K259R-Q602R-G979R-T5 Exo-PD-1-2、enCas12i-001-N229R-Q602R-Y881R-G979R-T5 Exo-PD-1-2，然后按照实施例2的方法转染293T细胞，分选后提取基因组、PCR并对PD-1site2位点进行高通量测序，结果如图7。图7结果显示上述T5 Exo亦能提高各种enCas12i-001-N229R突变体的切割活性。

Claims

1.基因编辑融合蛋白，包含嵌合Cas12i多肽和5’-3’外切核酸酶功能域，所述5’-3’外切核酸酶功能域融合至所述嵌合Cas12i多肽；所述5’-3’外切核酸酶功能域来自T5噬菌体。

2.根据权利要求1所述的基因编辑融合蛋白，所述5’-3’外切核酸酶功能域融合至所述嵌合Cas12i多肽的N末端和/或C末端；

优选地，所述5’-3’外切核酸酶功能域包含与SEQ ID NO.21所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。

3.根据权利要求1所述的基因编辑融合蛋白，其中所述嵌合Cas12i多肽：

(i)包含与SEQ ID NO.1或2所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或

(ii)包含与SEQ ID NO.1或2的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

4.根据权利要求3所述的基因编辑融合蛋白，所述嵌合Cas12i多肽能够结合核酸，并且任选地切割所述核酸，所述嵌合Cas12i多肽：

(i)包含与SEQ ID NO.3至6任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或

(ii)包含与SEQ ID NO.3至6任一项的aa 1至895以及aa 1016至1054的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.3至6任一项的aa 896至1015的氨基酸序列相比具有至少80％序列同一性的氨基酸序列。

5.根据权利要求3或4所述的基因编辑融合蛋白，所述嵌合Cas12i多肽被突变以使其具有以下特征：核酸切割活性增强；其中所述嵌合Cas12i多肽，根据SEQ ID NO.1所示的序列编号，在N229位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；或

根据SEQ ID NO.1所示的序列编号，在K259位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；或

根据SEQ ID NO.1所示的序列编号，在Q602位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；或

根据SEQ ID NO.1所示的序列编号，在Y881位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代；或

根据SEQ ID NO.1所示的序列编号，在G979位置处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

6.根据权利要求5所述的基因编辑融合蛋白，其中所述嵌合Cas12i多肽，

(i)包含与SEQ ID NO.1所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列；或

(ii)包含与SEQ ID NO.1的aa 1至897以及aa 1008至1044的氨基酸序列相比具有至少80％序列同一性且与SEQ ID NO.1或2的aa 898至1007的氨基酸序列相比具有至少80％序列同一性的氨基酸序列；

并且，所述嵌合Cas12i多肽在N229、K259、Q602、Y881和G979五个位置中的至少一个处具有氨基酸取代，优选被赖氨酸、精氨酸或组氨酸取代，更优选被精氨酸取代。

7.根据权利要求6所述的基因编辑融合蛋白，所述基因编辑融合蛋白包含与SEQ IDNO.90至100任一项所示的氨基酸序列相比具有至少95％序列同一性的氨基酸序列。

8.基因编辑系统，其包含：

(a)基因编辑融合蛋白，所述基因编辑融合蛋白选自权利要求1至7任一项所述基因编辑融合蛋白；以及

(b)引导RNA，所述引导RNA与所述基因编辑融合蛋白复合以引导所述基因编辑融合蛋白结合至靶核酸。

9.根据权利要求8所述的基因编辑系统，其中所述引导RNA包含与所述靶核酸杂交的引导区段和与所述基因编辑融合蛋白的Cas12i多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA；

其中所述引导RNA的重复区段包含SEQ ID NO.22至29任一项所示的核苷酸序列或与SEQ ID NO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列。

10.一种融合多肽，其包含与一个或多个异源多肽融合的基因编辑融合蛋白，所述基因编辑融合蛋白选自权利要求1至7任一项所述的基因编辑融合蛋白；其中所述一个或多个异源多肽独立地为表位标签、核定位信号、报告基因序列、能够与DNA分子或细胞内分子结合的结构域、可检测信号的酶、亚细胞定位和蛋白质转导结构域。

11.一种复合物，其包含权利要求10所述的融合多肽以及引导RNA，所述引导RNA与所述融合多肽复合以引导所述融合多肽结合至靶核酸；优选地，所述引导RNA包含与所述靶核酸杂交的引导区段和与融合多肽结合的重复区段，并且所述引导RNA不包含且不结合tracrRNA；优选地，所述引导RNA的重复区段包含SEQ ID NO.22至29任一项所示的核苷酸序列或与SEQ ID NO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列。

12.一种核酸，其包含编码如权利要求1至7任一项所述的基因编辑融合蛋白或权利要求10所述的融合多肽的多核苷酸；优选地，所述多核苷酸被密码子优化以在原核或真核细胞中表达；优选地，所述多核苷酸包含或为如SEQ ID NO.68至74任一个所示的核苷酸序列。

13.根据权利要求12所述的核酸，其包含引导RNA或编码所述引导RNA的核苷酸序列，所述引导RNA包含重复区段，包含SEQ ID NO.22至29任一项所示的核苷酸序列或与SEQ IDNO.22至29任一项所示的核苷酸序列相比具有1至10个核苷酸替换、缺失和/或插入的核苷酸序列；优选地，其中所述引导RNA的重复区段为SEQ ID NO.22至29任一项所示的核苷酸序列；优选地，所述引导RNA不包含且不结合tracrRNA；优选地，所述核酸是DNA或mRNA。

14.一种载体，其包含权利要求12和/或13所述的核酸；优选地，所述载体是质粒或病毒载体；优选地，所述病毒载体是腺相关病毒载体、腺病毒载体、逆转录病毒载体、慢病毒载体或单纯疱疹病毒载体。

15.一种递送系统，包含权利要求1至7任一项所述的基因编辑融合蛋白、权利要求8或9所述的基因编辑系统、权利要求10所述的融合多肽、权利要求11所述的复合物、权利要求12或13所述的核酸、权利要求14所述的载体；优选地，所述递送系统包括脂质体、纳米颗粒或外泌体。

16.一种细胞，其包含权利要求1至7任一项所述的基因编辑融合蛋白、权利要求8或9所述的基因编辑系统、权利要求10所述的融合多肽、权利要求11所述的复合物、权利要求12或13所述的核酸、权利要求14所述的载体、或权利要求15所述的递送系统；优选地，所述细胞是真核细胞；更优选地，所述细胞是人细胞。

17.一种组合物或试剂盒，其包含权利要求1至7任一项所述的基因编辑融合蛋白、权利要求8或9所述的基因编辑系统、权利要求10所述的融合多肽、权利要求11所述的复合物、权利要求12或13所述的核酸、权利要求14所述的载体、权利要求15所述的递送系统或权利要求16所述的细胞；以及药学上可接受的载体。

18.一种切割靶核酸的方法，所述方法包括使靶核酸与权利要求8或9所述的基因编辑系统、权利要求11所述的复合物、权利要求14所述的载体、或权利要求15所述的递送系统接触，所述接触导致所述靶核酸被切割。