[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115216459B - 新型crispr相关转座酶及其用途 - Google Patents

新型crispr相关转座酶及其用途 Download PDF

Info

Publication number
CN115216459B
CN115216459B CN202210458124.9A CN202210458124A CN115216459B CN 115216459 B CN115216459 B CN 115216459B CN 202210458124 A CN202210458124 A CN 202210458124A CN 115216459 B CN115216459 B CN 115216459B
Authority
CN
China
Prior art keywords
crispr
nucleic acid
sequence
cell
transposase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210458124.9A
Other languages
English (en)
Other versions
CN115216459A (zh
Inventor
J·M·奇拓尔
E·纳吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Monsanto Technology LLC
Original Assignee
Monsanto Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Monsanto Technology LLC filed Critical Monsanto Technology LLC
Priority to CN202210458124.9A priority Critical patent/CN115216459B/zh
Publication of CN115216459A publication Critical patent/CN115216459A/zh
Application granted granted Critical
Publication of CN115216459B publication Critical patent/CN115216459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)

Abstract

本文提供用于修饰靶标DNA序列的系统、方法和组合物。更特定来说,提供用于用CRISPR相关转座酶编辑真核细胞中的基因组DNA的系统、方法和组合物。也提供编码一种或多种CRISPR相关转座酶的载体和载体系统以及用于设计和使用此类载体的方法。也提供用于鉴定和验证新型CRISPR相关转座酶的方法。

Description

新型CRISPR相关转座酶及其用途
本申请是申请日为2016年12月29日、申请号为“201680079306.8”、 发明名称为“新型CRISPR相关转座酶及其用途”的发明专利申请的分 案申请。
相关申请的交叉引用以及序列表的并入
本申请要求2015年12月29日提交的题为NOVEL RNA-GUIDED DNA NUCLEASES ANDUSES THEREOF的美国临时专利申请号62/272,441的优先权,所述美国临时专利申请整体并入。大小是723,030字节(在MS Windows操作系统中测量)并且于2015年12月16日创建并于2015年12 月29日与美国临时专利申请号62/272,441一起提交的文件 “61701-0000-US_ST25.txt”中含有的序列表以引用的方式整体并入本文。序 列表的计算机可读形式通过电子提交来与本申请一起提交,并且以引用 的方式整体并入本申请中。序列表含于名为61701-0000-WO_ST25.txt的文件中,所述文件大小是4,394,235字节(在MS Windows操作系统中测量), 并且于2016年12月29日创建。
背景
CRISPR(成簇规律间隔短回文重复序列)是见于细菌和古细菌的基因 组中的含有多个短正向重复序列的基因座。CRISPR RNA(crRNA)与 CRISPR相关(Cas)效应蛋白缔合以形成识别外来核酸的CRISPR-Cas系 统。CRISPR系统是细菌和古细菌的适应性免疫系统的一部分,通过以 序列依赖性方式裂解外来DNA来保护它们对抗侵袭性核酸诸如病毒。 免疫性通过在CRISPR基因座的近端在两个邻近重复序列之间整合侵袭性DNA的称为间隔子的短片段来获得。CRISPR阵列在后续与侵袭性核 酸相遇期间被转录,并且被加工成长度是约40nt的小干扰CRISPR RNA(crRNA),其与反式活化CRISPR RNA(tracrRNA)缔合以将CRISPR相关核酸酶引导至侵袭性核酸。CRISPR/Cas9效应物复合物裂解侵袭性DNA中称为原间隔子的同源性双链DNA序列。裂解的先决条件是在靶 标DNA的下游存在保守原间隔子邻近基序(PAM),对于Cas9,所述基序 通常具有序列5′-NGG-3′,但较不常见地具有序列NAG。特异性由 crRNA中的“种子序列”提供,所述种子序列位于PAM上游约12个碱 基,必须能够与靶标序列杂交。Cpf1,一种V型Cas效应蛋白,以与Cas9 类似的方式起作用,但Cpf1不需要tracrRNA。
将CRISPR-Cas系统分成两个类别:1类CRISPR系统,再分成I、III 和IV型,并且1类系统利用多个Cas蛋白与crRNA一起形成复合物; 以及2类CRISPR系统,再分成II和V型,利用单一Cas蛋白与crRNA 一起形成能够进行序列特异性基因组修饰的复合物。
概述
若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座 酶的多核苷酸的异源性启动子的重组核酸,其中所述CRISPR相关转座 酶包含选自由SEQ ID NO:124-246和275-287组成的组的氨基酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转 座酶的多核苷酸的异源性启动子的重组核酸,其中所述CRISPR相关转座酶与包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR 相关转座酶具有至少80%、至少85%、至少90%、至少95%、至少 96%、至少97%、至少98%或至少99%的序列同源性或同一性。在一些 实施方案中,提供一种包含重组核酸的载体,所述重组核酸包含可操作 地连接于编码具有选自由SEQ ID NO:124-246和275-286组成的组的氨基 酸序列的CRISPR相关转座酶的异源性启动子的多核苷酸。在一些实施方案中,提供一种包含重组核酸的载体,所述重组核酸包含可操作地连 接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其中所述 CRISPR相关转座酶与包含选自SEQ ID NO:124-246和275-287的氨基酸 序列的CRISPR相关转座酶具有至少80%、至少85%、至少90%、至少 95%、至少96%、至少97%、至少98%或至少99%的序列同源性或同一 性。
若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座 酶的多核苷酸的异源性启动子的重组核酸,其中所述多核苷酸包含选自 由SEQ ID NO:1-123和604-627组成的组的核酸序列或其片段。若干实施 方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸 的异源性启动子的重组核酸,其中所述多核苷酸包含选自由SEQID NO: 2020-2699组成的组的核酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编码CRISPR相关转座酶的多核苷酸的异源性启动子的 重组核酸,其中所述多核苷酸包含选自由SEQ ID NO:2700-3379组成的 组的核酸序列或其片段。若干实施方案涉及一种包含可操作地连接于编 码CRISPR相关转座酶的多核苷酸的异源性启动子的重组核酸,其中所 述多核苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的序列至 少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少 98%或至少99%同一的序列。若干实施方案涉及一种包含重组核酸的载 体,所述重组核酸包含可操作地连接于编码CRISPR相关转座酶的异源 性启动子的多核苷酸,其中所述多核苷酸包含选自SEQ ID NO:1-123、604-627和2020-3379的序列。在一些实施方案中,载体包含重组核酸,所述重组核酸包含异可操作地连接于编码CRISPR相关转座酶的异源性 启动子的多核苷酸,其中所述多核苷酸包含与选自SEQ ID NO:1-123、 604-627和2020-3379的序列具有至少80%、至少85%、至少90%、至少 95%、至少96%、至少97%、至少98%或至少99%同一性的序列。
若干实施方案涉及一种包含重组核酸的细胞,所述重组核酸包含可 操作地连接于编码CRISPR相关转座酶的异源性启动子的多核苷酸,其 中所述CRISPR相关转座酶包含选自由SEQ ID NO:124-246和275-287组 成的组的氨基酸序列或其片段。若干实施方案涉及一种包含重组核酸的 细胞,所述重组核酸包含可操作地连接于编码CRISPR相关转座酶的异 源性启动子的多核苷酸,其中所述CRISPR相关转座酶与包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR相关转座酶具有至少 80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98% 或至少99%的序列同源性或同一性。在一些实施方案中,重组核酸包含 与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同源性的核酸序列。在一些实施方案中,重组核 酸在细胞中短暂表达。在一些实施方案中,将重组核酸整合至细胞的基因组中。在一些实施方案中,将重组核酸整合至细胞的B染色体中。在 一些实施方案中,细胞是原核细胞。在一些实施方案中,细胞是真核细 胞。在一些实施方案中,真核细胞是植物细胞。在一些实施方案中,真 核细胞是藻类细胞。在一些实施方案中,真核细胞是哺乳动物细胞。
在一个方面,本公开提供一种用于对靶标核酸序列进行序列特异性 修饰的系统,其包含(a)引导RNA或编码引导RNA的DNA分子,其中所 述引导RNA对靶标核酸序列具有特异性,和(b)编码CRISPR相关转座酶 的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQID NO:124-246 和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同源性的氨基酸序列。
在一个方面,本公开提供一种用于修饰细胞中的靶标核酸序列的方 法,其包括向所述细胞提供CRISPR相关转座酶或编码所述CRISPR相 关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少 91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少 97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方 案中,CRISPR相关转座酶由与选自SEQ ID NO:1-123、604-627和 2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、 至少96%、至少97%、至少98%、至少99%或100%同源性的核酸序列编码。
在一个方面,本公开提供一种用于对细胞中的靶标核酸序列进行序 列特异性修饰的方法,其包括向细胞提供(a)对细胞中的靶标核酸序列具 有特异性的引导RNA,和(b)CRISPR相关转座酶或编码所述CRISPR相 关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少 97%、至少98%、至少99%或100%同源性的氨基酸序列,其中所述靶标核酸序列被修饰。在一些实施方案中,编码CRISPR相关转座酶的多核 苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有 至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至 少98%、至少99%或100%同源性的核酸序列。
在一方面,本公开提供一种含有靶标核酸序列的真核细胞,所述靶 标核酸序列已通过用于对细胞中的靶标核酸序列进行序列特异性修饰的 方法来加以序列特异性修饰,所述方法包括向细胞提供(a)对细胞中的靶 标核酸序列具有特异性的引导RNA,和(b)CRISPR相关转座酶或编码所 述CRISPR相关转座酶的多核苷酸,所述CRISPR相关转座酶包含与选 自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少 90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少 96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列,其中所述靶标核酸序列被修饰。在一些实施方案中,编码CRISPR相关转 座酶的多核苷酸包含与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少80%、至少85%、至少90%、至少95%、至少96%、至 少97%、至少98%、至少99%或100%同源性的核酸序列。
在一方面,本公开提供一种选择性调节真核细胞中的至少一个靶标 DNA的转录的方法,其包括使所述真核细胞与以下各物接触:(a)引导 RNA或编码引导RNA的DNA,其中所述引导RNA进一步包含:(i)包含 互补于所述靶标DNA的核苷酸序列的第一区段;和(ii)与CRISPR相关转 座酶相互作用的第二区段;和(b)编码所述CRISPR相关转座酶的多核苷 酸,其中所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和 275-287组成的组的序列具有至少85%、至少90%、至少91%、至少 92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同源性的氨基酸序列,其中组分(a)和(b)位于同一或不同载体上,其中所述引导RNA和所述CRISPR相关转座酶在所述真 核细胞中形成复合物,并且其中所述复合物选择性调节所述靶标DNA 的转录。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸包含 与选自SEQ ID NO:1-123、604-627和2020-3379的核酸序列具有至少 80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同源性的核酸序列。
若干实施方案涉及一种从细菌基因组鉴定CRISPR相关转座酶的方 法。在一些实施方案中,基于它在细菌基因组内与CRISPR基因座的关 联来鉴定编码CRISPR相关转座酶的多核苷酸。在某些方面,编码 CRISPR相关转座酶的多核苷酸进一步通过在细菌基因组内与Cas1、 Cas2、或Cas1和Cas2而非Cas5或Cas3的关联来鉴定。在一些实施方案中,编码CRISPR相关转座酶的多核苷酸与CRISPR基因座位于同一操 纵子中。在其他实施方案中,编码CRISPR相关转座酶的多核苷酸位于CRISPR基因座的2.5千碱基内。在一些实施方案中,编码CRISPR相关 转座酶的多核苷酸通过与包含表1中标识的序列簇的CRISPR相关转座酶具有至少85%、至少86%、至少87%、至少88%、至少89%、至少 90%、至少95%、至少96%、至少97%、至少98%或至少99%同一性来鉴 定。在一些实施方案中,细菌基因组选自由以下组成的组:赖氨酸芽孢 杆菌属某种(Lysinibacillus sp.)、短芽孢杆菌属某种(Brevibacillus sp.)、鞘氨 醇杆菌属某种(Sphingobium sp.)、水杆菌属某种(Undibacterium sp.)、芽孢 杆菌属某种(Bacillus sp.)、金黄杆菌属某种(Chryseobacterium sp.)、鞘氨醇 单胞菌属某种(Sphingomonas sp.)、类芽孢杆菌属某种(Paenibacillus sp.)、 链霉菌属某种(Streptomyces sp.)、寡养单胞菌属某种(Stenotrophomonas sp.) 和双头菌属某种(Labrys sp.)。在一些实施方案中,细菌基因组选自由以下组成的组:侧孢短芽孢杆菌(Brevibacillus laterosporus);苏云金芽孢杆 菌(Bacillus thuringiensis);韦氏芽孢杆菌(Bacillus weihenstephanensis)、巨大 芽孢杆菌(Bacillus megaterium)、粪肠球菌(Enterococcus faecalis);短短芽孢杆菌(Brevibacillus brevis);迟钝水杆菌(Undibacterium pigrum);玫瑰色新鞘 氨醇杆菌(Novosphingobium rosa);嗜甲氨基双头菌(Lybrys methylaminiphilius);类短短芽孢杆菌(Brevibacillus parabrevis);解硫胺素类芽孢杆菌(Paenibacillusthiaminolyticus);缓病类芽孢杆菌(Paenibacillus lentimorbus);和土地类芽孢杆菌(Paenibacillus terrae)。
若干实施方案涉及一种包含CRISPR相关转座酶的核酸靶向系统, 所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组 成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少 93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99% 或100%同源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一 步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶 向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含 Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性失活。 在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域的 CRISPR相关转座酶。
若干实施方案涉及一种使在所选基因组基因座处的重组增强的方 法,其包括向植物细胞提供至少一种在第一基因组基因座中引入基因组 修饰,由此诱导所述第一基因组基因座与第二基因组基因座之间的重组 的核酸靶向系统,其中所述至少一种核酸靶向系统不在所述第二基因组 基因座处引入基因组修饰,以及选择至少一个包含所述第一基因组基因座与所述第二基因组基因座之间的重组事件的植物细胞。若干实施方案 涉及一种使在所选基因组基因座处的重组增强的方法,其包括向植物细 胞提供至少一种在第一基因组基因座和第二基因组基因座处引入基因组修饰,由此诱导所述第一基因组基因座与所述第二基因组基因座之间的 重组的核酸靶向系统,以及选择至少一个包含所述第一基因组基因座与 所述第二基因组基因座之间的重组事件的植物细胞。若干实施方案涉及 一种使在所选基因组基因座处的重组增强的方法,其包括向细胞提供在 第一基因组基因座处引入基因组修饰的第一核酸靶向系统和在第二基因 组基因座处引入基因组修饰的第二核酸靶向系统,由此诱导所述第一基因组基因座与所述第二基因组基因座之间的重组,以及选择至少一个包 含所述第一基因组基因座与所述第二基因组基因座之间的重组事件的子 代。在一些实施方案中,第一基因组基因座和第二基因组基因座呈顺 式。在一些实施方案中,第一基因组基因座和第二基因组基因座呈反 式。在一些实施方案中,第一基因组基因座和第二基因组基因座是同源 物。在一些实施方案中,第一基因组基因座和第二基因组基因座是旁系同源物。在一些实施方案中,第一基因组基因座和第二基因组基因座是 部分同源物。在一些实施方案中,第一基因组基因座和第二基因组基因 座是相同的。在一些实施方案中,第一基因组基因座和第二基因组基因 座在同源染色体上。在一些实施方案中,第一基因组基因座和第二基因 组基因座在非同源染色体上。在一些实施方案中,第一基因组基因座和 第二基因组基因座在部分同源染色体上。在一些实施方案中,第一基因组基因座和第二基因组基因座共有至少80%、至少81%、至少82%、至 少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少 89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少 95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。在一些实施方案中,第一基因组基因座和第二基因组基因座位于同源染 色体上。在一些实施方案中,第一基因组基因座和第二基因组基因座位 于非同源染色体上。在一些实施方案中,基因组修饰是双链断裂 (DSB)。在一些实施方案中,基因组修饰是单链断裂。在一些实施方案中,基因组修饰发生在减数分裂开始时。在一些实施方案中,重组是不 对称的。在一些实施方案中,重组是对称的。在一些实施方案中,第一 靶标序列和/或第二靶标序列是基因序列。在一些实施方案中,第一靶 标序列和/或第二靶标序列在基因间区域内。在一些实施方案中,第一 靶标序列在与含有第二靶标序列的基因组基因座的至少约100bp、至少 约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350 bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少 约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组基因座中。在一些实施方案中,第一靶标序列在与含有第二靶标序列的 基因组基因座的至少约100bp、至少约150bp、至少约200bp、至少约 250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、 至少约500bp、至少约600bp、至少约700bp、至少约800bp、至少约 900bp或至少约1000bp同源的基因组基因座中,其中含有所述第一靶 标序列的所述基因组基因座和含有所述第二靶标序列的所述基因组基因座在基因组中的相应位置中。在一些实施方案中,第一靶标序列在与含 有第二靶标序列的基因组基因座的至少约100bp、至少约150bp、至少 约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400 bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少 约800bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中 含有所述第一靶标序列的所述基因组基因座和含有所述第二靶标序列的 所述基因组基因座不在基因组中的相应位置中。在一些实施方案中,第 一靶标序列与第二靶标序列具有至少80%、至少81%、至少82%、至少 83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少 89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少 95%、至少96%、至少97%、至少98%、至少99%或100%序列同一性。 在一些实施方案中,第一基因组基因座和第二基因组基因座中的一者或多者包含一个或多个独立选自由以下组成的组的基因组区域:基因、一系列串联重复基因、增强子、抑制子、启动子、终止序列、剪接受体序 列、剪接供体序列、内含子、外显子、siRNA和数量性状基因座 (QTL)。在一些实施方案中,包含第一基因组基因座与第二基因组基因 座之间的重组事件的一个植物细胞的子代展现对一种或多种选自以下的 疾病的抗性:炭疽秆腐病(Anthracnose Stalk Rot)(禾生刺盘孢 (Colletotrichumgraminicola))、镰刀菌穗腐病(Fusarium Ear Rot)(轮枝样镰刀菌(Fusariumverticillioides))、镰刀菌秆腐病(Fusarium Stalk Rot)(镰刀菌属某 些种(Fusariumspp.))、赤霉菌穗腐病(Gibberella Ear Rot)(串珠赤霉菌 (Gibberellamoniliformis))、赤霉菌秆腐病(Gibberella Stalk Rot)(玉米赤霉菌 (Gibberellazeae))、戈斯氏枯萎病和叶枯病(Goss's Wilt and Leaf Blight)(密歇根棒形杆菌(Clavibacter michiganensis))、灰色叶斑病(Gray Leaf Spot)(玉蜀 黍尾孢菌(Cercospora zeae-maydis)、玉米尾孢菌(C.zeina))、北方玉米叶枯 病(Northern CornLeaf Blight)(土耳其凸脐孢菌(Exserohilum turcicum))、猝死 综合征(Sudden deathsyndrome)(腐皮镰刀菌大豆专化型(Fusarium solani f.sp.glycines))、亚洲大豆锈病(Asian soybean rust)(豆薯层锈菌(Phakopsora pachyrhizi))、疫霉根茎腐病(Phytophthora root and stem rot)(大豆疫霉 (Phytophthora sojae))、根结线虫病(Root-knot Nematode)(根结线虫属某些种(Meloidogyne spp.))、大豆胞囊线虫病(Soybean Cyst Nematode)(大豆异 皮线虫(Heterodera glycines))、肾形线虫病(Reniform nematode)(肾形肾状线 虫(Rotylenchulus reniformis))、根结线虫病(南方根结线虫(Meloidogyne incognita))、镰刀菌枯萎病(Fusarium wilt)(尖孢镰刀菌萎蔫专化型(Fusarium oxysporurn f.sp.vasinfectum))、轮枝孢菌枯萎病(Verticillium wilt)(大丽轮枝 孢菌(Verticillium dahlia))、镰刀菌头枯病(Fusarium head blight)(禾谷镰刀菌 (Fusarium graminearum))、镰刀菌苗枯病(Fusarium seedling blight)(镰刀菌属某些种、颖枯壳针孢(Septoria nodorum))、镰刀菌叶疱病(Fusarium Leaf Blotch)(雪腐明梭孢(Monographella nivalis))和茎锈病(Stem Rust)(禾柄锈菌 (Pucciniagraminis))。在一些实施方案中,植物是玉米植物。在一些实施 方案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植 物。在一些实施方案中,植物是卡诺拉油菜(canola)植物。在一些实施方 案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少 91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少 97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方 案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在 一些实施方案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案 中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶 向系统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶 的核酸酶活性失活。在一些实施方案中,核酸靶向系统包含具有异源性 功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据 以上提及的方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种使目标基因组基因座渗入所选种质中的方 法,其包括产生包含含有所述目标基因组基因座的第一亲本基因组和含 有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在 所述第一亲本基因组中在邻近于所述目标基因组基因座的靶标序列处引 入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组的第一核酸靶向系统,以及选择至少一个包含至少一个包含所 述所选种质和所述目标基因组基因座的重组染色体的子代。若干实施方 案涉及一种使目标基因组基因座渗入所选种质中的方法,其包括产生包 含含有所述目标基因组基因座的第一亲本基因组和含有所述所选种质的 第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因 组中在邻近于所述目标基因组基因座的靶标序列处引入基因组修饰,以及在所述第二亲本基因组中在靶标位点处引入基因组修饰,由此诱导所 述第一亲本基因组与所述第二亲本基因组之间的重组的第一核酸靶向系 统,以及选择至少一个包含至少一个包含所述所选种质和所述目标基因 组基因座的重组染色体的子代。若干实施方案涉及一种使目标基因组基 因座渗入所选种质中的方法,其包括产生包含含有所述目标基因组基因 座的第一亲本基因组和含有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因组中在邻近于所述目标基 因组基因座的靶标序列处引入基因组修饰的第一核酸靶向系统,以及在 所述第一亲本基因组中在邻近于所述基因组基因座的第二靶标序列处引 入基因组修饰的第二核酸靶向系统,其中所述第二靶标序列与所述第一 核酸靶向系统的所述靶标序列处于所述目标基因组基因座的对侧,由此 诱导所述第一亲本基因组与所述第二亲本基因组之间的重组,以及选择至少一个包含至少一个包含所述所选种质和所述目标基因组基因座的重 组染色体的植物细胞。若干实施方案涉及一种使目标基因组基因座渗入 所选种质中的方法,其包括产生包含含有所述目标基因组基因座的第一 亲本基因组和含有所述所选种质的第二亲本基因组的植物细胞,向所述植物细胞提供在所述第一亲本基因组中在邻近于所述目标基因组基因座 的靶标序列处引入基因组修饰,以及在所述第二亲本基因组中在靶标位点处引入基因组修饰的第一核酸靶向系统,以及进一步向所述植物细胞 中引入在所述第一亲本基因组中在邻近于所述基因组基因座的第二靶标 序列处引入基因组修饰的第二核酸靶向系统,其中所述第二靶标序列与 所述第一核酸靶向系统的所述靶标序列处于所述目标基因组基因座的对 侧,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组, 以及选择至少一个包含至少一个包含所述所选种质和所述目标基因组基因座的重组染色体的植物细胞。在一些实施方案中,第二核酸靶向系统 在第二亲本基因组中在靶标序列处引入基因组修饰。在一些实施方案 中,重组是不对称的。在一些实施方案中,重组是对称的。在一些实施 方案中,目标基因组基因座包含一个或多个独立选自由以下组成的组的 基因组区域:基因、一系列串联重复基因、多基因家族、增强子、抑制 子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA、编码非编码RNA的序列、微小RNA、转基因和数量性状基 因座(QTL)。在一些实施方案中,基因组修饰是双链断裂(DSB)。在一些 实施方案中,基因组修饰是单链断裂。在一些实施方案中,基因组修饰 是重组酶介导的DNA交换反应。在一些实施方案中,基因组修饰是转 座酶介导的DNA交换反应。在一些实施方案中,基因组修饰发生在减 数分裂开始时。在一些实施方案中,靶标序列是基因序列。在一些实施 方案中,靶标序列在基因间区域内。在一些实施方案中,靶标序列在第 一亲本基因组的与第二亲本基因组的基因组基因座的至少约100bp、至 少约150bp、至少约200bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少 约700bp、至少约800bp、至少约900bp或至少约1000bp同源的基因组 基因座中。在一些实施方案中,靶标序列在第一亲本基因组的与第二亲 本基因组的基因组基因座的至少约100bp、至少约150bp、至少约200 bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800 bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中第一亲本基因组的基因组基因座和第二亲本基因组的基因组基因座位于相应 位置中。在一些实施方案中,靶标序列在第一亲本基因组的与第二亲本 基因组的基因组基因座的至少约100bp、至少约150bp、至少约200 bp、至少约250bp、至少约300bp、至少约350bp、至少约400bp、至少 约450bp、至少约500bp、至少约600bp、至少约700bp、至少约800 bp、至少约900bp或至少约1000bp同源的基因组基因座中,其中第一亲本基因组的基因组基因座和第二亲本基因组的基因组基因座不位于相 应位置中,从而导致不对称重组。在一些实施方案中,第一亲本基因组 和第二亲本基因组不是性相容的。在一些实施方案中,第一亲本基因组 和第二亲本基因组来自不同物种。在一些实施方案中,第一亲本基因组 来自普通小麦(Triticum aestivum)(小麦(wheat)),并且第二亲本基因组选自 卵穗山羊草(Aegilops ovate)、两芒山羊草(Ae.biuncialis)、三芒山羊草(Ae. triuncialis)、方穗山羊草(Ae.quarrosa)、黑麦(Secale cereal)、野生二粒小麦 (Triticumdicoccoides)、二粒小麦(Triticum dicoccum)和杜伦小麦(Triticum durum)。在一些实施方案中,第一亲本基因组选自卵穗山羊草、两芒山 羊草、三芒山羊草、方穗山羊草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦,并且第二亲本基因组是普通小麦(小麦)。在一些实施方案中, 第一亲本基因组来自陆地棉(Gossypium hirsutum)(棉花(cotton)),并且第 二亲本基因组选自斯特提棉(G.sturtii)、戴维森棉(G.davidsonii)、树棉(G. arboretum)和雷蒙德棉(G.raimondii)。在一些实施方案中,第一亲本基因 组选自斯特提棉、戴维森棉、树棉和雷蒙德棉,并且第二亲本基因组来自陆地棉(棉花)。在一些实施方案中,第一亲本基因组和/或第二亲本基 因组是单倍体。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是二倍体。在一些实施方案中,目标基因组基因座是Rp1疾病抗性 基因座。在一些实施方案中,目标基因组基因座是Rpp1疾病抗性基因 座。在一些实施方案中,目标基因组基因座是Rps1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rhg1疾病抗性基因座。在一 些实施方案中,目标基因组基因座是Rgh4疾病抗性基因座。在一些实 施方案中,植物是玉米植物。在一些实施方案中,植物是大豆植物。在 一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植物。在一些实施方案中,植物是 卡诺拉油菜植物。在一些实施方案中,核酸靶向系统包含CRISPR相关 转座酶,其包含与选自由SEQ ID NO:124-246和275-287组成的组的序列 具有至少85%、至少90%、至少91%、至少92%、至少93%、至少 94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同 源性的氨基酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方案中,核酸靶向系统进一 步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳 离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实 施方案中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案 中,核酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方法产生的植物、植物 细胞或植物种子。
若干实施方案涉及一种移除连锁累赘的方法,其包括产生包含第一 亲本基因组和第二亲本基因组的植物细胞,其中所述第一亲本基因组包 含顺式连接于不合需要的基因组基因座的目标基因组基因座,向所述细 胞提供在所述目标基因组基因座与所述不合需要的基因组基因座之间引 入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组以及解除所述目标基因组基因座和所述不合需要的基因座的连 接的第一核酸靶向系统,以及选择至少一个包含所述目标基因组基因座 的子代。若干实施方案涉及一种移除连锁累赘的方法,其包括产生包含 第一亲本基因组和第二亲本基因组的植物细胞,其中所述第一亲本基因 组包含顺式连接于不合需要的基因组基因座的目标基因组基因座,向所 述细胞提供在所述目标基因组基因座与所述不合需要的基因组基因座之间引入第一基因组修饰,以及在所述不合需要的基因组基因座的与所述 第一基因组修饰相对一侧引入第二基因组修饰,由此诱导所述第一亲本 基因组与所述第二亲本基因组之间的重组以及移除所述不合需要的基因 座,同时维持所述第一亲本基因组的种质在所述第二基因组修饰的远端 的第一核酸靶向系统,以及选择至少一个包含所述目标基因组基因座的 子代。在一些实施方案中,第二核酸靶向系统在第二亲本基因组中在靶标序列处引入基因组修饰。在一些实施方案中,重组是不对称的。在一 些实施方案中,重组是对称的。在一些实施方案中,目标基因组基因座 包含一个或多个独立选自由以下组成的组的基因组区域:基因、一系列 串联重复基因、多基因家族、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA、编码非编码 RNA的序列、微小RNA、转基因和数量性状基因座(QTL)。在一些实施 方案中,基因组修饰是双链断裂(DSB)。在一些实施方案中,基因组修饰是单链断裂。在一些实施方案中,基因组修饰是重组酶介导的DNA 交换反应。在一些实施方案中,基因组修饰是转座酶介导的DNA交换 反应。在一些实施方案中,基因组修饰发生在减数分裂开始时。在一些 实施方案中,第一亲本基因组和第二亲本基因组不是性相容的。在一些 实施方案中,第一亲本基因组和第二亲本基因组来自不同物种。在一些 实施方案中,第一亲本基因组来自普通小麦(小麦),并且第二亲本基因 组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野 生二粒小麦、二粒小麦和杜伦小麦。在一些实施方案中,第一亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊草、黑麦、野 生二粒小麦、二粒小麦和杜伦小麦,并且第二亲本基因组是普通小麦 (小麦)。在一些实施方案中,第一亲本基因组来自陆地棉(棉花),并且 第二亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉。在一些实 施方案中,第一亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉,并且第二亲本基因组来自陆地棉(棉花)。在一些实施方案中,第一 亲本基因组和/或第二亲本基因组是单倍体。在一些实施方案中,第一 亲本基因组和/或第二亲本基因组是二倍体。在一些实施方案中,目标基因组基因座是Rp1疾病抗性基因座。在一些实施方案中,目标基因组 基因座是Rpp1疾病抗性基因座。在一些实施方案中,目标基因组基因 座是Rps1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rhg1疾病抗性基因座。在一些实施方案中,目标基因组基因座是Rhg4 疾病抗性基因座。在一些实施方案中,植物是玉米植物。在一些实施方 案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实施方案中,植物是高粱植物。 在一些实施方案中,植物是卡诺拉油菜植物。在一些实施方案中,核酸 靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO:124-246 和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少 92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核酸 靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方 案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一 步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活 性失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构 域的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的 方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种使处于相斥的基因组基因座相引的方法,其 包括产生包含含有第一基因组基因座的第一亲本基因组和含有第二基因 组基因座的第二亲本基因组的植物细胞,其中所述第一基因组基因座和 所述第二遗传基因座处于相斥,向所述细胞提供邻近于所述第一基因组 基因座引入基因组修饰,由此诱导所述第一亲本基因组与所述第二亲本基因组之间的重组的第一核酸靶向系统,以及选择至少一个在同一染色 体上包含所述第一基因组基因座和所述第二基因组基因座的植物细胞。 在一些实施方案中,第一基因组基因座和第二基因组基因座位于同源染 色体。在一些实施方案中,第一亲本基因组和第二亲本基因组不是性相 容的。在一些实施方案中,第一亲本基因组和第二亲本基因组来自不同 物种。在一些实施方案中,第一目标基因组基因座和/或第二目标基因 组基因座包含一个或多个独立选自由以下组成的组的基因组区域:基 因、一系列串联重复基因、增强子、抑制子、启动子、终止序列、剪接受体序列、剪接供体序列、内含子、外显子、siRNA和数量性状基因座 (QTL)。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是单 倍体。在一些实施方案中,第一亲本基因组和/或第二亲本基因组是二 倍体。在一些实施方案中,第一亲本基因组来自普通小麦(小麦),并且 第二亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊 草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦。在一些实施方案中, 第一亲本基因组选自卵穗山羊草、两芒山羊草、三芒山羊草、方穗山羊 草、黑麦、野生二粒小麦、二粒小麦和杜伦小麦,并且第二亲本基因组 是普通小麦(小麦)。在一些实施方案中,第一亲本基因组来自陆地棉(棉 花),并且第二亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德 棉。在一些实施方案中,第一亲本基因组选自斯特提棉、戴维森棉、树棉和雷蒙德棉,并且第二亲本基因组来自陆地棉(棉花)。在一些实施方 案中,目标基因组基因座是Rp1疾病抗性基因座。在一些实施方案中, 第一目标基因组基因座和/或第二目标基因组基因座是Rpp1疾病抗性基 因座。在一些实施方案中,第一目标基因组基因座和/或第二目标基因 组基因座是Rps1疾病抗性基因座。在一些实施方案中,第一目标基因组基因座和/或第二目标基因组基因座是Rhg1疾病抗性基因座。在一些 实施方案中,第一目标基因组基因座和/或第二目标基因组基因座是 Rhg4疾病抗性基因座。在一些实施方案中,第一目标基因组基因座是 Rhg1,并且第二目标基因组基因座是Rhg4。在一些实施方案中,植物是玉米植物。在一些实施方案中,植物是大豆植物。在一些实施方案中,植物是棉花植物。在一些实施方案中,植物是小麦植物。在一些实 施方案中,植物是高粱植物。在一些实施方案中,植物是卡诺拉油菜植 物。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包 含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少 85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少 95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基 酸序列。在一些实施方案中,核酸靶向系统进一步包含能够与靶标序列 杂交的引导RNA。在一些实施方案中,核酸靶向系统进一步包含 tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一步包含Mg2+。在一些实施方案 中,使CRISPR相关转座酶的核酸酶活性失活。在一些实施方案中,核 酸靶向系统包含具有异源性功能性结构域的CRISPR相关转座酶。若干 实施方案涉及一种通过根据以上提及的方法产生的植物、植物细胞或植物种子。
若干实施方案涉及一种产生新的系列的串联重复基因的方法,其包 括使细胞与裂解第一系列的串联重复基因中的至少一个靶标序列的核酸 靶向系统接触,由此诱导与第二系列的串联重复基因的同源性序列的不 对称重组,以及选择至少一个含有新的系列的串联重复基因的子代。在 一些实施方案中,第一系列的串联重复基因和第二系列的串联重复基因是相同的。在其他实施方案中,第一系列的串联重复基因和第二系列的 串联重复基因是不同的。在一些实施方案中,视重组位点而定,不对称 重组产生两个新的系列的串联重复基因。在一些实施方案中,不对称重 组导致至少一个串联重复基因的缺失。在一些实施方案中,细胞是植物 细胞。在另一实施方案中,植物细胞从选自近交植物或杂交植物的植物 获得。在其他实施方案中,细胞是哺乳动物细胞。在一些实施方案中,核酸靶向系统包含CRISPR相关转座酶,其包含与选自由SEQ ID NO: 124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、 至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至 少98%、至少99%或100%同源性的氨基酸序列。在一些实施方案中,核 酸靶向系统进一步包含能够与靶标序列杂交的引导RNA。在一些实施方 案中,核酸靶向系统进一步包含tracrRNA。在一些实施方案中,核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系统进一 步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核酸酶活性 失活。在一些实施方案中,核酸靶向系统包含具有异源性功能性结构域 的CRISPR相关转座酶。若干实施方案涉及一种通过根据以上提及的方 法产生的植物、植物细胞或植物种子。
附图简述
图1显示CRISPR相关转座酶蛋白质序列SEQ ID NO:228-232的多重 序列比对。
图2显示3个CRISPR间隔子序列和5个细菌噬菌体序列的多重序 列比对。3个间隔子(间隔子1:SEQ ID NO:2004,间隔子2:SEQ ID NO: 2005,间隔子3:SEQ ID NO:2006)来自与第1蛋白质簇中的转座酶相关的CRISPR区域。5个噬菌体序列(KJ920400.1:SEQ ID NO:2007, HE614281.1:SEQ ID NO:2008,HE614282.1:SEQ ID NO:2009, KJ024807.1:SEQ IDNO:2010,NC_029008.1:SEQ ID NO:2011)是间隔子 序列相对于噬菌体和病毒基因组序列的数据集进行blast搜索的命中 物。矩形框中的保守“TCA”基序是转座酶的推定5’-PAM。
图3显示来自转座酶相关CRISPR区域(SEQ ID NO:662)的CRISPR 重复序列1(SEQID NO:2012)和CRISPR重复序列2(SEQ ID NO:2013)的 预测茎-环二级结构。重复序列的结构表明单独重复序列足以形成有效 引导RNA。
图4显示CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304) 的预测蛋白质结构域结构的图解。预测了7个Puf(Pumilio家族RNA结 合重复序列)结构域,并且标记为Puf-1至Puf-7。也预测蛋白质含有 IS605_ORFB结构域(氨基酸221-336)和Zn_带结构域(氨基酸350-416)。隔 裂RuvC I、II和III区域中的保守RuvC催化位点分别由D233、E354和D408指示。
图5显示CRISPR相关转座酶SEQ ID NO:136的具有以下结构域注 释的氨基酸序列:对7个Puf结构域Puf-1至Puf-7加下划线并标记;2个pfam结构域IS605_ORFB和Zn_带区域分别用方括号[]和[[]]圈起;并 且保守RuvC催化位点D233、E354和D408由箭号指出。
图6显示来自与CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)相关的CRISPR区域(SEQ ID NO:662)的5个CRISPR重复序列 (SEQ ID NO:2012-2016)的多重序列比对。对与共有Puf结合基序 (5’-UGUANAUA-3’)一致的保守核苷酸加下划线,并且以粗体显示。
图7显示用以筛选核酸酶活性的基于大肠杆菌的蓝白选择测定的图 解。使用具有卡那霉素(kan)选择标记的pUC19(pUC)载体产生的细菌表达质粒用于克隆编码推定转座酶和相关引导RNA的目标区域(ROI)。也 产生报道子质粒,其含有编码由可变序列侧接的来自CRISPR区域的间 隔子的靶标序列(由NNN间隔子NNN指示)、lacZ报道子基因、氯霉素选 择盒(chlor)和低拷贝数细菌启动子(p15a)。将两种质粒共转化至大肠杆菌 中,并且存在白色菌落指示由转座酶进行的切割。对从白色菌落回收的 质粒的序列分析用于确认核酸酶活性。
图8显示用以验证CRISPR相关转座酶的核酸酶活性的分支杆菌切 割测定的图解。用于图7的大肠杆菌蓝白选择的相同表达质粒和报道子 质粒用于共转化分支杆菌。归因于分支杆菌中的内源性质粒修复,对 LacZ报道子质粒中的双链断裂的修复在修复位点处产生插入和缺失(插 入缺失)。LacZ载体中存在插入缺失指示核酸酶活性。针对间隔子盒设计的PCR和/或测序引物用于检测回收报道子质粒中的插入缺失。
图9显示体外切割测定的图解。将包含CRISPR相关转座酶的区域 克隆至表达载体中并在大肠杆菌中表达转座酶,并且在体外使纯化蛋白 质与DNA靶标一起孵育以达成切割(NNN间隔子NNN)。所得DNA(a)通 过凝胶电泳来分析片段长度,以及(b)进行序列分析。
图10显示用于真核细胞的切割测定的图解。将CRISPR相关转座酶 和相关引导RNA克隆至载体中以有助于在真核细胞中表达。将表达载 体、双链寡聚物(ds寡聚物)和(任选)含有靶标序列的质粒DNA共转化至真核细胞中。用标准分子生物学测定(PCR((TM))、限制片段大 小分析或测序)评估对(a)染色体DNA,或(b)引入的质粒模板的核酸酶活 性。
图11显示用于验证CRISPR相关转座酶活性的原核生物蓝白选择测 定设计的图解。顶行显示用于CRISPR相关转座酶(RGEN)表达的载体的 图解。底行显示含有推定靶标序列(NNN间隔子NNN间隔子NNN)和 LacZ标记的载体的图解。左侧顶部和底部配对是缺乏靶标序列的对 照。中间顶部和底部配对是缺乏CRISPR相关转座酶(RGEN)的对照。右侧顶部和底部配对是用含有CRISPR相关转座酶(RGEN)和靶标序列的相 应载体进行的测试测定。
图12显示使用Alpha Screen(Perkin Elmer)技术进行的引导RNA结合 测定的图解。这个测定系统使用供体珠粒和受体珠粒,其在紧密邻近时 发射可检测荧光信号。使用体外转录制备推定引导RNA(gRNA)。使这些引导RNA序列通过接头序列(SEQ ID NO:3382)连接于侧接序列(侧接物 1:SEQ ID NO:3380;侧接物2:SEQ ID NO:3381)。核苷酸序列(侧接物 2)结合连接有Alpha链霉亲和素供体珠粒的寡聚物。在大肠杆菌中表达具 有His标签的CRISPR相关转座酶。这个His标签(在图中表示为6-His_ 标签)充当Alpha受体珠粒的结合位点。当CRISPR相关转座酶结合推定引导RNA时,产生可检测荧光信号。
详细描述
除非另外定义,否则本文所用的所有技术和科学术语都具有与由本 公开所属领域中的普通技术人员通常理解相同的含义。当以单数形式提 供术语时,本发明者也预期通过那个术语的复数形式来描述的本公开的 各个方面。当以引用的方式并入本文的参考文献中使用的术语和定义存在分歧时,本申请中使用的术语将具有本文给出的定义。使用的其他技 术术语具有它们的在它们所用于的领域中的普通含义,如由各种领域特 异性词典所例示,所述词典例如“The American Heritage?Science Dictionary”(AmericanDictionaries的编者,2011,Houghton Mifflin Harcourt,Boston and NewYork)、“McGraw-Hill Dictionary of Scientific and Technical Terms”(第6版,2002,McGraw-Hill,New York)或“Oxford Dictionary of Biology”(第6版,2008,OxfordUniversity Press,Oxford and New York)。本发明者不意图限于某一作用机理或模式。对其的提及仅出于说明目的而 提供。
除非另外指示,否则本公开的实施采用生物化学、化学、分子生物 学、微生物学、细胞生物学、基因组学、植物育种和生物技术的常规技 术,所述技术属于本领域的技能。参见Green和Sambrook,MOLECULAR CLONING:A LABORATORY MANUAL,第4版(2012);CURRENTPROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel等人编,(1987)); 丛书METHODS INENZYMOLOGY(Academic Press,Inc.):PCR 2:APRACTICAL APPROACH(M.J.MacPherson,B.D.Hames和G.R.Taylor编 (1995));Harlow和Lane编(1988)ANTIBODIES,A LABORATORYMANUAL;ANIMAL CELL CULTURE(R.I.Freshney编(1987)); RECOMBINANT PROTEINPURIFICATION:PRINCIPLES AND METHODS,18-1142-75,GE Healthcare Life Sciences;C.N.Stewart,A.Touraev,V. Citovsky,T.Tzfira编(2011)PLANT TRANSFORMATIONTECHNOLOGIES(Wiley-Blackwell);以及R.H.Smith(2013)PLANT TISSUE CULTURE.TECHNIQUES AND EXPERIMENTS(Academic Press,Inc.)。
本文引用的任何参考文献都以引用的方式整体并入本文。
如本文所用,除非上下文另外明确规定,否则单数形式“一个(种) (a/an)”和“所述(该)(the)”包括复数个(种)指示物。举例来说,术语“一个 (种)化合物”或“至少一个(种)化合物”可包括复数个(种)化合物,包括其 混合物。因此,举例来说,提及“植物”、“这个(种)植物”或“一个(种)植 物”也包括复数个(种)植物;此外,视情形而定,使用术语“植物”也可包 括那个植物的在遗传上类似或相同的子代;使用术语“一个(种)核酸”任 选包括实际上那个核酸分子的许多拷贝。
如本文所用,术语“约”指示数值包括用于测定数值的方法的固有误 差偏差或存在于实验之间的偏差。
如本文所用,术语“CRISPR相关酶”是指在它的天然情形下(例如在 细菌基因组中)与CRISPR基因座相关的基因组修饰酶。在一些实施方案 中,CRISPR相关酶是CRISPR相关转座酶。
如本文所用,“编码”是指多核苷酸(DNA或RNA)编码多肽的氨基 酸,或DNA编码RNA的核苷酸。如本文所用,“编码序列”和“编码区” 可互换使用,并且是指编码多肽的多核苷酸。编码区的边界通常由在它 的5’末端的翻译起始密码子和在它的3’末端的翻译终止密码子确定。
如本文所用,“内源性”分子是通常在特定发育阶段在特定环境条件 下存在于特定细胞中的分子。
如本文所用,“表达盒”是指可或可不可操作地连接于一种或多种表 达元件的多核苷酸序列,所述表达元件诸如增强子、启动子、前导序 列、内含子、5’非翻译区(UTR)、3’UTR或转录终止序列。在一些实施 方案中,表达盒至少包含能够使可操作地连接的第二多核苷酸序列的转录起始的第一多核苷酸序列,以及任选包含可操作地连接于所述第二多核苷酸序列的转录终止序列。
如本文所用,术语“基因”或“基因的”意指基因组序列的对应于遗传 单位的可定位区域。基因可包括调控区(诸如启动子、增强子)、5’非翻 译区、内含子区域、外显子区域、3’非翻译区、转录区以及可以天然基 因或转基因形式存在于植物或哺乳动物基因组中的其他功能性序列区域。视情况而定,术语“靶标基因”可指被靶向以达成结合和/或裂解的基因的全长核苷酸序列,或被靶向以达成结合和/或裂解的基因的一部 分的核苷酸序列。靶标基因可为内源性基因或转基因。
如本文所用,术语“基因组基因座”是指染色体上的特定位置。基因 组基因座可包含在基因组区域中的单一核苷酸、少许核苷酸、许多核苷 酸、基因、基因的一部分、基因簇、多基因家族或基因阵列。
如本文所用,术语“同源性重组”是指在由两个基因组基因座或由供 体DNA和靶标位点共有的保守区域处的核苷酸序列的交换。同源性重 组包括对称同源性重组和不对称同源性重组。不对称同源性重组也可被 称为不等重组。
如本文所用,术语“同一性”在关于核酸使用时描述两个或更多个核 苷酸序列之间的类似性程度。两个序列之间的“序列同一性”的百分比可 通过以下方式来确定:历经比较窗比较两个最优对准序列,以使所述比 较窗中的序列的部分相较于参照序列(其不包含添加或缺失)可包含添加 或缺失(空位)以达成两个序列的最优比对。通过以下方式来计算百分比:确定同一核酸碱基或氨基酸残基存在于两个序列中所处的位置的数 目以产生匹配位置的数目,用匹配位置的数目除以比较窗中的位置总 数,以及用100乘以结果以产生序列同一性百分比。相较于参照序列在 每个位置都同一的序列被称为与所述参照序列同一,并且反之亦然。可 使用任何适合计算机程序来对两个或更多个序列进行比对。举例来说, 一种广泛使用和接受的用于进行序列比对的计算机程序是CLUSTALW v1.6(Thompson等(1994)Nucl.Acids Res.,22:4673-4680)。
如本文所用,“非编码序列”可编码功能性RNA(例如转运RNA、核 糖体RNA、微小RNA、Piwi相互作用RNA)、启动子、内含子、mRNA 的非翻译区(例如5’非翻译区或3’非翻译区)、假基因、重复序列或可转 座元件。非编码序列不编码功能性多肽。
如本文所用,术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用, 并且是指呈线性或环状构象的脱氧核糖核苷酸(DNA)、核糖核苷酸(RNA) 及其功能性类似物,诸如互补性DNA(cDNA)。本文提供的核酸分子可 为单链或双链。核酸分子包含核苷酸碱基腺嘌呤(A)、鸟嘌呤(G)、胸腺 嘧啶(T)、胞嘧啶(C)。在RNA分子中,尿嘧啶(U)替代胸腺嘧啶。本文也 提供天然核苷酸碱基的类似物,以及在碱基、糖和/或磷酸部分中加以 修饰的核苷酸碱基。符号“N”可用于表示任何核苷酸碱基(例如A、G、 C、T或U)。如本文所用,关于核酸分子或核苷酸碱基的“互补”是指A 互补于T(或U),以及G互补于C。两个互补性核酸分子能够在适当条件 下彼此杂交。在本公开的一方面,如果两个核酸序列彼此具有至少 70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少 96%、至少97%、至少98%、至少99%或100%序列同一性,那么它们是 同源的。
如本文所用,“可操作地连接”意指可操作地连接的核酸序列展现它 们的所需功能。举例来说,在本公开的一方面,提供的DNA启动子序 列可使可操作地连接的DNA序列向RNA的转录起始。本文提供的核酸 序列可在物理连接或可操作地连接的核酸序列的上游或下游。在一方 面,本文提供的第一核酸分子物理连接于且可操作地连接于本文提供的 第二核酸分子。在另一方面,本文提供的第一核酸分子既不物理连接于 也不可操作地连接于本文提供的第二核酸分子。如本文所用,“上游”意 指核酸序列位于连接的核酸序列的5’末端之前。如本文所用,“下游”意 指核酸序列位于连接的核酸序列的3’末端之后。
如本文所用,术语“植物”是指植物界的任何光合、真核、单细胞或 多细胞生物体,并且包括完整植物或源于植物的细胞或组织培养物,包 括以下中的任一者:完整植物、其植物组分或器官(例如叶、茎、根 等)、植物组织、种子、植物细胞、原生质体和/或子代。子代植物可来 自任何子代,例如F1、F2、F3、F4、F5、F6、F7等。“植物细胞”是植物的生物细胞,其取自植物或通过培养来从取自植物的细胞获得。术语 植物涵盖单子叶植物和双子叶植物。本文所述的方法、系统和组合物跨 越广泛范围的植物是适用的。本文公开的方法、系统和组合物可用于其 中的适合植物包括但不限于谷物和牧草(例如苜蓿、稻米、玉米、小 麦、大麦、燕麦、高粱、珍珠粟、指形粟(finger millet)、冷季牧草和百喜 草)、油籽作物(例如大豆、油籽芸苔(包括卡诺拉油菜和油籽油菜)、向 日葵、花生、亚麻、芝麻和红花)、豆类谷物和牧草(例如菜豆、豇豆、 豌豆、蚕豆、扁豆、宽叶菜豆、亚洲菜豆、木豆、野豌豆、鹰嘴豆、羽扇豆、苜蓿和三叶草)、温带水果和坚果(例如苹果、梨、桃子、李子、 浆果作物、樱桃、葡萄、橄榄、杏仁和胡桃)、热带和亚热带水果和坚 果(例如柑桔,包括酸橙、橙和葡萄柚;香蕉和大蕉、菠萝、番木瓜、芒果、鳄梨、猕猴桃、西番莲果(passionfruit)和柿子)、蔬菜作物(例如茄 科植物,包括番茄、茄子和胡椒;蔬菜芸苔;萝卜、胡萝卜、葫芦、 葱、芦笋和叶用蔬菜)、甘蔗、块茎(例如甜菜、欧洲萝卜(parsnip)、马铃 薯、芜菁、甜薯)以及纤维作物(甘蔗、糖用甜菜、甜叶菊、马铃薯、甜薯、木薯和棉花)、种植作物、观赏植物和草皮草(烟草、咖啡、可可、茶、橡胶树、药用植物、观赏植物和草皮草)以及森林树种。
如本文所用,“植物基因组”是指植物细胞的核基因组、线粒体基因 组或质体(例如叶绿体)基因组。在一些实施方案中,植物基因组可包含 由雄性贡献的亲本基因组和由雌性贡献的亲本基因组。在一些实施方案 中,植物基因组可包含仅一个亲本基因组。
如本文所用,“多核苷酸”是指含有多个核苷酸的核酸分子,并且通 常是指“寡核苷酸”(长度是18-25个核苷酸的多核苷酸分子)与具有26个 或更多个核苷酸的多核苷酸两者。本公开的各个方面包括组合物,其包 括具有18-25个核苷酸的长度的寡核苷酸(例如18聚体、19聚体、20聚 体、21聚体、22聚体、23聚体、24聚体或25聚体)、或具有26个或更 多个核苷酸的长度的中等长度多核苷酸(例如具有26、27、28、29、30、 31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、 47、48、49、50、51、52、53、54、55、56、57、58、59、60、约65、约70、约75、约80、约85、约90、约95、约100、约110、约120、约 130、约140、约150、约160、约170、约180、约190、约200、约210、 约220、约230、约240、约250、约260、约270、约280、约290或约300 个核苷酸的多核苷酸)、或具有大于约300个核苷酸的长度的长多核苷酸 (例如具有长度是约300个至约400个之间的核苷酸、约400个至约500 个之间的核苷酸、约500个至约600个之间的核苷酸、约600个至约700 个之间的核苷酸、约700个至约800个之间的核苷酸、约800个至约900 个之间的核苷酸、约900个至约1000个之间的核苷酸、约300个至约500 个之间的核苷酸、约300个至约600个之间的核苷酸、约300个至约700 个之间的核苷酸、约300个至约800个之间的核苷酸、约300个至约900 个之间的核苷酸、或约1000个核苷酸,或甚至长度是大于约1000个核 苷酸,例如多达靶标基因的整个长度(包括所述靶标基因的编码部分或非编码部分、或编码部分与非编码部分两者)的多核苷酸)。当多核苷酸 是双链时,它的长度可类似地用碱基对来描述。
如本文所用,术语“多肽”、“肽”和“蛋白质”可互换用于指代氨基酸 残基的聚合物。所述术语也适用于其中一个或多个氨基酸是相应天然存 在的氨基酸的化学类似物或经修饰衍生物的氨基酸聚合物。
如本文所用,“原生质体”是指以下植物细胞:已使用例如机械或酶 促手段来将它的保护性细胞壁完全或部分移除,从而产生活体植物的完整生物化学感受态单位,其可使它们的细胞壁重新形成,进行增殖,以 及在适当生长条件下再生生长成完整植物。
如本文所用,“启动子”是指位于基因的开放阅读框(或蛋白质编码区) 的翻译起始密码子的上游或5',并且涉及于识别和结合RNA聚合酶I、 II或III以及其他蛋白质(反式作用性转录因子)以使转录起始的核酸序 列。在本文所述的一些实施方案中,启动子是植物启动子。“植物启动 子”是在植物细胞中具有功能性的天然或非天然启动子。组成型启动子 在整个植物发育中在植物的大多数或所有组织中具有功能性。组织、器 官或细胞特异性启动子分别仅或主要在特定组织、器官或细胞类型中表 达。并非在给定组织、植物部分或细胞类型中“特异性”表达,相较于植物的其他部分,启动子可显示在植物的一种细胞类型、组织或植物部分 中的“增强”表达,即较高水平的表达。在时间上调控的启动子仅或主要 在植物发育的某些时期期间或在一天的某些时间具有功能性,如例如在 与昼夜节律相关的基因的情况下。诱导型启动子响应于存在例如由化合 物(化学诱导剂)达成的内源性或外源性刺激,或响应于环境、激素、化 学和/或发育信号而使可操作地连接的DNA序列选择性表达。诱导型启 动子或调控启动子包括例如由光、热、应激、洪涝或干旱、植物激素、创伤或化学物质诸如乙醇、茉莉酮酸酯(jasmonate)、水杨酸或安全剂调 控的启动子。在一方面,本文提供的启动子是组成型启动子。在另一方 面,本文提供的启动子是可调控启动子。在一方面,本文提供的启动子 位于目标序列内。在另一方面,本文提供的启动子不位于目标序列内。 在植物细胞中具有活性的许多启动子已描述于文献中。所述启动子将包括但不限于在根癌土壤杆菌(Agrobacterium tumefaciens)的Ti质粒上携带的 胭脂碱(nopaline)合成酶(NOS)(Ebert等,1987)和章鱼碱(octopine)合成酶 (OCS)启动子、花椰菜花叶病毒启动子诸如花椰菜花叶病毒(CaMV)19S (Lawton等,Plant Molecular Biology(1987)9:315-324)和35S启动子(Odell等, Nature(1985)313:810-812)、玄参花叶病毒(FMV)35S启动子(美国专利号 6,051,753;5,378,619)以及增强CaMV35S启动子(e35S)。可适用的额外启 动子是蔗糖合成酶启动子(Yang和Russell,Proceedings of the NationalAcademy of Sciences,USA(1990)87:4144-4148)、R基因复合物启动子 (Chandler等,Plant Cell(1989)1:1175-1183)以及叶绿素a/b结合蛋白基因启 动子、PC1SV(美国专利号5,850,019)和AGRtu.nos(GenBank登录号 V00087;Depicker等,Journal of Molecularand Applied Genetics(1982)1: 561-573;Bevan等,1983)启动子。响应于环境、激素、化学和/或发育信 号而得以调控的多种其他植物基因启动子也可用于使异源性基因在植物 细胞中表达,所述启动子包括例如由(1)热(Callis等,Plant Physiology,(1988)88:965-968)、(2)光(例如豌豆RbcS-3A启动子,Kuhlemeier等,Plant Cell, (1989)1:471-478;玉米RbcS启动子,Schaffner等,Plant Cell(1991)3: 997-1012);(3)激素诸如脱落酸(abscisic acid)(Marcotte等,植物细胞,(1989) 1:969-976),(4)创伤(例如Siebertz等,Plant Cell,(1989)961-968);或其他信 号或化学物质调控的启动子。组织特异性启动子也是已知的。在一些实 施方案中,启动子能够导致足以导致产生有效量的目标基因产物的表 达。描述所述启动子的实例包括不限于美国专利号6,437,217(玉米RS81 启动子)、美国专利号5,641,876(稻米肌动蛋白(actin)启动子)、美国专利 号6,426,446(玉米RS324启动子)、美国专利号6,429,362(玉米PR-1启动 子)、美国专利号6,232,526(玉米A3启动子)、美国专利号6,177,611(组成型玉米启动子)、美国专利号5,322,938、5,352,605、5,359,142和5,530,196 (35S启动子)、美国专利号6,433,252(玉米L3油脂蛋白(oleosin)启动子)、美国专利号6,429,357(稻米肌动蛋白2启动子以及稻米肌动蛋白2内含 子)、美国专利号5,837,848(根特异性启动子)、美国专利号6,294,714(光 诱导型启动子)、美国专利号6,140,078(盐诱导型启动子)、美国专利号 6,252,138(病原体诱导型启动子)、美国专利号6,175,060(磷缺乏诱导型启 动子)、美国专利号6,635,806(γ-薏苡辛(gamma-coixin)启动子)和美国专利 申请序列号09/757,089(玉米叶绿体醛缩酶启动子)。在一些实施方案 中,可构建启动子杂合物以使转录活性增强(美国专利号5,106,739)。在 一些实施方案中,可构建启动子杂合物以使所需转录活性、转录诱导 性、转录组织特异性和/或转录发育特异性组合。在植物中起作用的启 动子包括但不限于诱导型启动子、病毒性启动子、合成启动子、组成型启动子、在时间上调控的启动子、在空间上调控的启动子和在空间-时 间上调控的启动子。组织增强、组织特异性或发育调控的其他启动子在 本领域中也是已知的,并且被设想在本公开的实施中具有效用。如果需 要,那么用于本公开的提供的核酸分子和转化载体中的启动子可被修饰 以影响它们的控制特征。启动子可借助于用操纵子区域进行连接、随机或控制诱变等来获得。此外,启动子可被改变以含有多个“增强子序列” 来有助于提高基因表达。
如本文所用,“重组核酸”是指可与见于天然系统中的内源性核酸区 分的具有编码序列和/或非编码序列的核酸分子(DNA或RNA)。在一些 方面,本文提供的重组核酸用于本文提供的任何组合物、系统或方法 中。在一些方面,重组核酸可编码本文提供的任何CRISPR相关转座酶。在一些方面,重组核酸可包含或编码本文提供的任何引导RNA, 可用于本文提供的任何组合物、系统或方法中。在一些方面,重组核酸 可包含本文提供的任何供体多核苷酸,可用于本文提供的任何组合物、 系统或方法中。在一方面,本文提供的载体包含本文提供的任何重组核 酸。在另一方面,本文提供的细胞包含本文提供的重组核酸。在另一方面,本文提供的细胞包含本文提供的载体。
如本文所用,术语“重组”是指两个DNA分子交换核苷酸序列所采用 的过程。在一些方面,本文提供的组合物、系统或方法促进两个DNA 分子之间的重组。在一些实施方案中,重组发生在两组亲本染色体之间。在一些实施方案中,重组发生在两个同源染色体之间。在一些实施 方案中,重组发生在非同源染色体之间。在一些实施方案中,重组发生 在部分同源染色体之间。在一些实施方案中,重组导致产生新的基因序 列、基因数目、基因排列、等位基因或等位基因组合。用于检测重组的 许多方法在本领域中是已知的,并且包括但不限于1)表型筛选,2)分子 标志物技术诸如通过或Illumina/Infinium技术进行的单核苷酸多 态性-SNP分析,3)DNA印迹,和4)测序。
如本文所用,术语“重组事件”是指在两个DNA分子之间进行重组的 情况。
如本文所用,术语“重组率”是指重组事件将在两个基因组基因座之 间发生的概率。重组率可受许多因素的影响,包括但不限于两个基因组 基因座之间的距离、基因座所存在于其中的染色体区域(例如着丝粒区 域、端粒区域)、转录活性、染色体倒位的存在和其他因素。用于测量 重组的方法包括但不限于在定位群体中进行的连锁分析以及定量技术诸 如定量PCR(qPCR)或微滴数字PCR(ddPCR),如本公开中所述。在一些 方面,本文提供的组合物、系统或方法使重组率增加。如本文所用,术 语“调控元件”意图包括启动子、增强子、内部核糖体进入位点(IRES)和 其他表达控制元件(例如转录终止信号,诸如多聚腺苷酸化信号和多聚尿苷酸序列)。所述调控元件例如描述于Goeddel,GENE EXPRESSIONTECHNOLOGY:METHODS IN ENZYMOLOGY 185,Academic Press,San Diego,Calif.(1990)中。调控元件包括指导核苷酸序列在许多类型的宿主 细胞中进行组成型表达的那些,以及指导核苷酸序列仅在某些宿主细胞 中进行表达的那些(例如组织特异性调控序列)。组织特异性启动子可指导主要在所需目标组织诸如分生组织或特定细胞类型(例如花粉)中进行表达。调控元件也可指导以时间依赖性方式,诸如以细胞周期依赖性或 发育阶段依赖性方式进行表达,所述表达可或可不也具有组织或细胞类 型特异性。术语“调控元件”也涵盖增强子元件,诸如WPRE;CMV增强 子;HTLV-I的LTR中的R-U5'区段(Mol.Cell.Biol.,第8卷(1),第466-472 页,1988);和SV40增强子。
如本文所用,术语“靶标序列”或“靶标位点”是指由如本文所述的 CRISPR相关转座酶修饰的核苷酸序列。靶标序列可为基因序列或非基 因序列。在一些方面,本文提供的靶标序列包含基因区域。在其他方 面,本文提供的靶标序列包含基因间区域。在另一方面,本文提供的靶 标序列包含基因区域与基因间区域两者。在一方面,本文提供的靶标序 列包含编码核酸序列。在另一方面,本文提供的靶标序列包含非编码核酸序列。在一方面,本文提供的靶标序列位于启动子中。在另一方面, 本文提供的靶标序列包含增强子序列。在另一方面,本文提供的靶标序 列包含编码核酸序列与非编码核酸序列两者。在一个方面,本文提供的 靶标序列由双链断裂诱导剂诸如如本文所述的CRISPR相关转座酶裂 解。
新型CRISPR相关转座酶
本公开提供从各种细菌基因组鉴定的新型CRISPR相关转座酶的多 核苷酸序列和氨基酸序列。在一些实施方案中,本文提供的CRISPR相 关转座酶包含选自SEQ ID NO:124-246和275-287的氨基酸序列、其片段、其同源物及其直系同源物。术语“直系同源物”和“同源物”在本领域 中是熟知的。如本文所述的CRISPR相关转座酶的“同源物”是从相同物 种分离的与它是其同源物的蛋白质执行相同或类似功能的蛋白质。同源 性蛋白质可但无需是结构相关的,或是仅部分结构相关的。如本文所述 的CRISPR相关转座酶的“直系同源物”是从不同物种分离的与它是其直 系同源物的蛋白质执行相同或类似功能的蛋白质。直系同源性蛋白质可但无需是结构相关的,或是仅部分结构相关的。同源物和直系同源物可 通过同源性建模或结构BLAST来鉴定(Dey F,Cliff Zhang Q,Petrey D,Honig B.Toward a"structural BLAST":using structural relationships to infer function.ProteinSci.2013年4月;22(4):359-66.doi:10.1002/pro.2225.)。在一些实施方 案中,如本文所述的新型CRISPR相关转座酶的同源物或直系同源物与 包含选自SEQ ID NO:124-246和275-287的氨基酸序列的CRISPR相关转 座酶具有至少80%、至少85%、至少90%、至少95%、至少96%、至少 97%、至少98%或至少99%的序列同源性或同一性。
在一些实施方案中,本文提供的CRISPR相关转座酶与将CRISPR 相关转座酶导向靶标位点的引导RNA形成复合物,在所述靶标位点 处,CRISPR相关转座酶在核酸序列中引入单链断裂或双链断裂(DSB)。所靶向核酸序列可为DNA、RNA或DNA/RNA杂合物。引入的DSB可通 过非同源性末端接合(NHEJ)来修复,从而产生引入导致框移突变的小型 插入或缺失(插入缺失)的较高可能性。或者,当应用同源性依赖性修复 (HDR)路径时,具有所需突变的DNA序列可在具有DSB的区域处被取 代。在一些实施方案中,包含一个或多个转基因的重组核酸被整合在靶 标位点处。
本公开也提供一种包含可操作地连接于编码如本文所述的CRISPR 相关转座酶的多核苷酸的异源性启动子的重组核酸。在一些实施方案 中,本文提供的CRISPR相关转座酶由包含选自SEQ ID NO:1-123、 604-627和2020-3379的序列或其片段的多核苷酸序列编码。在一些实施 方案中,本文提供的CRISPR相关转座酶由多核苷酸序列编码,所述多 核苷酸序列包含与选自SEQ ID NO:1-123、604-627和2020-3379的序列或 其片段具有至少80%同一性、至少81%同一性、至少82%同一性、至少83%同一性、至少84%同一性、至少85%同一性、至少90%同一性、至 少91%同一性、至少92%同一性、至少93%同一性、至少94%同一性、 至少95%同一性、至少96%同一性、至少97%同一性、至少98%同一性 或至少99%同一性的序列。在一个方面,本文提供的重组核酸包含一个 或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或 十个或更多个异源性启动子可操作地连接于一个或多个、两个或更多 个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七 个或更多个、八个或更多个、九个或更多个、或十个或更多个编码 CRISPR相关转座酶的多核苷酸。在一些实施方案中,本文提供的重组核酸编码一个或多个、两个或更多个、三个或更多个、四个或更多个、 五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或 更多个、或十个或更多个引导RNA。如本文所用,术语“引导RNA”是指包含可通过杂交于靶标序列来将CRISPR酶引导至靶标DNA分子的核 苷酸序列的RNA分子。在一个方面,本文提供的引导RNA包含CRISPRRNA(crRNA)。在一个方面,本文提供的引导RNA包含与反式活化 CRISPR RNA(tracrRNA)复合的CRISPR RNA(crRNA)。在另一方面,本文提供的引导RNA包括单链引导RNA。在一方面,本文提供的单链引 导RNA包含crRNA与tracrRNA两者。
在一些实施方案中,本文提供的重组核酸包含编码引导RNA的多 核苷酸。在一方面,本文提供的重组核酸包含一个或多个、两个或更多 个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七 个或更多个、八个或更多个、九个或更多个、或十个或更多个编码一个 或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多 个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个引导RNA的多核苷酸。在一个方面,本文提供的编码引 导RNA的多核苷酸可操作地连接于第二启动子。在一个方面,本文提 供的编码引导RNA的多核苷酸可操作地连接于U6 snRNA启动子。在一个方面,本文提供的编码引导RNA的多核苷酸可操作地连接于如以引 用的方式并入本文的WO20150131101中所述的U6 snRNA启动子。在另 一方面,本文提供的引导RNA是经分离的RNA。在一方面,本文提供 的引导RNA在病毒载体、质粒载体或土壤杆菌属载体中编码。在一方 面,本文提供的引导RNA包含crRNA。在一方面,本文提供的引导 RNA包含tracrRNA。在另一方面,本文提供的引导RNA包括单链引导 RNA。在一方面,本文提供的单链引导RNA包含crRNA与tracrRNA两 者。
在一些实施方案中,本文提供的重组核酸包含一个或多个、两个或 更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多 个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个供 体多核苷酸。如本文所用,“供体多核苷酸”是能够使用如本文所述的 CRISPR相关转座酶或方法来插入受体细胞的基因组中的多核苷酸分 子。在另一方面,本文提供的供体多核苷酸可操作地连接于第二启动子。在另一方面,本文提供的供体多核苷酸包含至少一个启动子。在一 方面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个 或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个转基因。在一方 面,本文提供的供体多核苷酸包含一个或多个、两个或更多个、三个或 更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或十个或更多个编码核酸序列,一 个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多 个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或 十个或更多个非编码核酸序列,或一个或多个、两个或更多个、三个或 更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多 个、八个或更多个、九个或更多个、或十个或更多个编码核酸序列和一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多 个、六个或更多个、七个或更多个、八个或更多个、九个或更多个、或 十个或更多个非编码核酸序列的组合。在一方面,本文提供的供体多核 苷酸包含一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、六个或更多个、七个或更多个、八个或更多个、九个或 更多个、或十个或更多个用于模板化编辑的核酸序列。在一些实施方案中,将包含供体多核苷酸的重组核酸与CRISPR相关转座酶于同一载体 中向细胞提供。在一些实施方案中,将包含供体多核苷酸的重组核酸独 立于CRISPR相关转座酶向细胞提供。在一方面,本文提供的供体多核 苷酸在病毒载体、质粒载体或土壤杆菌属载体中编码。
在一些实施方案中,编码CRISPR相关转座酶的多核苷酸来自选自 由以下组成的组的细菌的基因组:赖氨酸芽孢杆菌属某种、短芽孢杆菌 属某种、鞘氨醇杆菌属某种、水杆菌属某种、芽孢杆菌属某种、金黄杆 菌属某种、鞘氨醇单胞菌属某种、类芽孢杆菌属某种、链霉菌属某种、寡养单胞菌属某种和双头菌属某种。在其他实施方案中,编码CRISPR 相关转座酶的多核苷酸来自选自由以下组成的组的细菌的基因组:侧孢 短芽孢杆菌;苏云金芽孢杆菌;韦氏芽孢杆菌;巨大芽孢杆菌;粪肠球 菌;短短芽孢杆菌;迟钝水杆菌;玫瑰色新鞘氨醇杆菌;嗜甲氨基双头 菌;类短短芽孢杆菌;解硫胺素类芽孢杆菌;缓病类芽孢杆菌;和土地类芽孢杆菌。在某些方面,编码CRISPR相关转座酶的多核苷酸在细菌 基因组内与CRISPR重复基因座关联。在某些方面,编码CRISPR相关 转座酶的多核苷酸进一步通过与Cas1、Cas2、或Cas1和Cas2而非Cas5 或Cas3关联来在细菌基因组中鉴定。在一些实施方案中,编码CRISPR 相关转座酶的多核苷酸与CRISPR基因座位于同一操纵子中。在其他实 施方案中,编码CRISPR相关转座酶的多核苷酸位于CRISPR基因座的 2.5千碱基内。在另一实施方案中,编码CRISPR相关转座酶的多核苷酸 进一步通过存在一个或多个在表5中标识的pfam结构域来鉴定。在一方 面,本文提供的编码CRISPR相关转座酶的多核苷酸的特征在于:来自 赖氨酸芽孢杆菌属某种、短芽孢杆菌属某种、鞘氨醇杆菌属某种、水杆 菌属某种、芽孢杆菌属某种、金黄杆菌属某种、鞘氨醇单胞菌属某种、类芽孢杆菌属某种、链霉菌属某种、寡养单胞菌属某种或双头菌属某种 的基因组;来自苏云金芽孢杆菌、短短芽孢杆菌、侧孢短芽孢杆菌、类 短短芽孢杆菌、韦氏芽孢杆菌、巨大芽孢杆菌、粪肠球菌、嗜甲氨基双 头菌、玫瑰色新鞘氨醇杆菌、解硫胺素类芽孢杆菌、缓病类芽孢杆菌、 土地类芽孢杆菌或迟钝水杆菌的基因组;通过与CRISPR重复基因座的关联而与细菌基因组关联;通过与Cas1蛋白、Cas2蛋白、或Cas1蛋白 和Cas2蛋白而非Cas3蛋白或Cas5蛋白的关联来在细菌基因组中鉴定; 与CRISPR基因座位于同一操纵子中;位于CRISPR基因座的10、25、 50、75、100、150、200、250、500、550、600、650、700、750、800、 850、900、950、1000、1250、1500、1750、2000、2500、3000、4000、 5000、7500或10,000个核苷酸内;是包含编码与选自SEQ ID NO:124-246和275-287的序列具有至少80%、至少85%、至少90%、至少91%、至少 92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同一性的蛋白质的序列的多核苷酸;及其任何组 合。
本文所述的若干实施方案涉及真核细胞例如植物细胞中的靶向基因 组修饰。一些实施方案涉及一种用于裂解包含如本文所述的CRISPR相 关转座酶的靶标DNA的组合物及其用途。在一些实施方案中,CRISPR 相关转座酶选自由SEQ ID NO:124-246和275-287、其同源物及其直系同 源物组成的组。在一些实施方案中,描述一种包含CRISPR相关转座酶和对靶标DNA具有特异性的引导RNA的复合物。在一些实施方案中,复合物进一步包含二价阳离子。在一些实施方案中,CRISPR相关转座 酶在与引导RNA复合时实现对靶标DNA的裂解,由此对靶标DNA进行 修饰。在一些实施方案中,裂解包括由CRISPR相关转座酶在靶标DNA 的位置处裂解一个或两个链。在一些实施方案中,包含CRISPR相关转 座酶和引导RNA的复合物的形成导致在靶标序列中或附近(例如在离靶标序列1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对内) 裂解一个或两个链。在一些实施方案中,裂解导致靶标基因的转录降 低。在一些实施方案中,裂解导致两个基因组基因座之间的重组率增 加。在一些实施方案中,裂解导致一个或更多个转基因的整合。在一些 实施方案中,裂解导致同源转基因序列的整合。在一些实施方案中,裂 解导致在靶标序列处或附近插入或缺失核苷酸。在一些实施方案中,经裂解靶标DNA通过与外源性模板多核苷酸的同源性重组来修复。在一 些实施方案中,模板多核苷酸包含一个或多个外源性转基因。在一些实 施方案中,一个或多个外源性转基因由与裂解位点同源的序列侧接。在 一些实施方案中,模板多核苷酸包含与包含靶标序列的核酸序列的至少 50bp、至少100bp、至少150bp、至少200bp、至少250bp、至少300bp、至少350bp、至少400bp、至少450bp、至少500bp、至少550bp、 至少600bp、至少650bp、至少700bp、至少750bp、至少800bp、至少 850bp、至少900bp、至少950bp或至少1,000bp具有至少85%同一性、 至少90%同一性、至少91%同一性、至少92%同一性、至少93%同一 性、至少94%同一性、至少95%同一性、至少96%同一性、至少97%同 一性、至少98%同一性、至少99%同一性或100%同一性的序列。在一些 实施方案中,相较于靶标序列,模板多核苷酸包含1、2、3、4、5、6、 7、8、9、10个或更多个核苷酸突变。在一些实施方案中,经裂解靶标DNA通过非同源性末端接合(NHEJ)来修复,其中所述修复导致所述靶标 DNA的突变,所述突变包括一个或多个核苷酸的插入、缺失或取代。
若干实施方案涉及一种对真核细胞中的所靶向DNA序列进行修饰 的方法。在一些实施方案中,方法包括使包含与选自由SEQ ID NO: 124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、 至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至 少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶裂解所靶向DNA序列。在一些实施方案中,与引导RNA复合的CRISPR 相关转座酶裂解所靶向DNA序列。在一些实施方案中,方法包括将一 种或多种载体递送至所述真核细胞中,其中所述一种或多种载体驱动以 下中的一者或多者的表达:CRISPR相关转座酶、引导RNA和供体多核 苷酸。
在一方面,本公开提供从细菌基因组鉴定推定CRISPR相关转座酶 的方法。在一些实施方案中,方法包括:(a)鉴定大型蛋白质序列(约 1,000个氨基酸);(b)这些蛋白质序列与Cas1和Cas2而非Cas5或Cas3一 起位于同一操纵子中;和(c)蛋白质在同一操纵子中在CRISPR基因座的<2.5kb内。在一些实施方案中,方法包括:(a)鉴定大型蛋白质序列(约 1,000个氨基酸);(b)这些蛋白质序列包含一个或多个如表5中所述的 pfam结构域;和(c)蛋白质在同一操纵子中在CRISPR基因座的<2.5kb 内。
核酸靶向系统及其组分
本公开提供一种用于对靶标核酸序列进行序列特异性修饰的核酸靶 向系统。如本文所用,术语“核酸靶向系统”是指CRISPR相关转座酶的 表达中涉及或使CRISPR相关转座酶的活性定向的转录物和其他元件, 此可包括编码CRISPR相关转座酶的序列。在一些实施方案中,CRISPR 相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少 94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同 源性的氨基酸序列。在一些实施方案中,核酸靶向系统包含充当核酸靶 向引导RNA的CRISPR RNA(crRNA)序列。在一些实施方案中,crRNA 序列包含如表9中所述的CRISPR重复序列或其一部分。在一些实施方 案中,核酸靶向系统包含(在一些系统而非所有系统中)反式活化 CRISPR RNA(tracrRNA)序列,或来自CRISPR基因座的其他序列和转录物。在一些系统中,不需要tracrRNA序列。在其他系统中,需要 tracrRNA序列。在一些实施方案中,所靶向核酸是DNA或RNA。在其他实施方案中,所靶向核酸是DNA-RNA杂合物或其衍生物。在一些实 施方案中,所靶向核酸位于细胞的核或细胞质中。在一些实施方案中, 核酸靶向系统进一步包含二价阳离子。在一些实施方案中,核酸靶向系 统进一步包含Mg2+。在一些实施方案中,使CRISPR相关转座酶的核 酸酶活性失活。在一些实施方案中,核酸靶向系统进一步包含具有异源 性功能性结构域的CRISPR相关转座酶。在一些实施方案中,核酸靶向 系统在真核细胞中具有功能性。在一些实施方案中,核酸靶向系统在植 物细胞中具有功能性。
在一实施方案中,核酸靶向系统包含编码CRISPR相关转座酶的多 核苷酸。在另一实施方案中,CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少 91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少 97%、至少98%、至少99%或100%同一性的氨基酸序列。在另一实施方 案中,编码CRISPR相关转座酶的多核苷酸包含选自由SEQ ID NO:1-123、604-627和2020-3379组成的组的核苷酸序列。在一些实施方案 中,核酸靶向系统进一步包含引导RNA或编码引导RNA的DNA分子, 其中所述引导RNA包含互补于靶标核酸序列的序列。在一些实施方案中,将引导RNA或编码引导RNA的DNA分子提供在第一核酸分子上, 并且将编码CRISPR相关转座酶的多核苷酸提供在第二核酸分子上。在 其他实施方案中,将引导RNA或编码引导RNA的DNA分子和编码 CRISPR相关转座酶的多核苷酸提供在单一核酸分子上。在一些实施方案中,引导RNA包含表8、9和10中提供的一个或多个crRNA序列的一 部分。在一些实施方案中,引导RNA包含表8中提供的一个或多个crRNA序列的CRISPR重复序列。在一些实施方案中,引导RNA包含如 表9中所述的CRISPR重复序列。在一些实施方案中,引导RNA包含如 表10中所述的CRISPR重复序列。
在一些实施方案中,靶标核酸序列包含编码序列、非编码序列、或 编码序列和非编码序列的组合。在一些实施方案中,靶标核酸序列包含 内源性基因或转基因。
在一些实施方案中,引导RNA包含crRNA和tracrRNA。在一些实施 方案中,引导RNA包括单链引导RNA。在一些实施方案中,引导RNA 包括包含crRNA的单链引导RNA。在一些实施方案中,crRNA包含表9 和10中提供的crRNA序列的一部分。
在一些实施方案中,本文公开的核酸靶向系统进一步包含供体多核 苷酸。在一些实施方案中,供体多核苷酸包含编码序列、非编码序列、 或编码序列和非编码序列的组合。在一些实施方案中,供体多核苷酸包 含启动子。在一些实施方案中,供体多核苷酸包含调控元件。在一些实 施方案中,供体多核苷酸包含一个或多个转基因。
如本文所用,术语“引导RNA”是指与靶标核酸序列具有足够互补性 以与所述靶标核酸序列杂交,以及指导CRISPR相关转座酶以序列特异 性方式结合所述靶标核酸序列的任何多核苷酸序列。在一些实施方案中,在使用适合比对算法加以最优比对时,互补性程度是约或超过约 50%、60%、75%、80%、85%、90%、91%、92%、93%、94%、95%、 96%、97%、98%、99%或更大。最优比对可在使用用于比对序列的任何 适合算法的情况下确定。
在一些实施方案中,引导RNA包含成熟crRNA。在某些实施方案 中,成熟crRNA包含以下、基本上由以下组成或由以下组成:正向重复 序列和引导序列或间隔子序列。正向重复序列和间隔子序列的实例可见 于表9和10中。crRNA序列的实例可见于表8、9和10中。在某些实施 方案中,引导RNA包含以下、基本上由以下组成或由以下组成:连接于引导序列或间隔子序列的正向重复序列。在一些实施方案中,引导RNA序列的长度是是约或超过约5、10、11、12、13、14、15、16、17、 18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、 50、75个或更多个核苷酸。在一些实施方案中,引导RNA序列的长度 是小于约75、50、45、40、35、30、25、20、15、12个或更少个核苷 酸。在一些实施方案中,引导RNA序列的长度是10-30个核苷酸。在一 些实施方案中,引导RNA序列的长度是10-20个核苷酸。可选择引导 RNA序列以靶向任何靶标序列。在一些实施方案中,靶标序列是细胞 的基因组内的序列。在一些实施方案中,靶标序列在靶标基因组中是独特的。
在一些实施方案中,成熟crRNA包含茎环或最优化茎环结构或最优 化二级结构。在一些实施方案中,成熟crRNA在正向重复序列中包含茎 环或最优化茎环结构,其中所述茎环或最优化茎环结构对于裂解活性是重要的。在某些实施方案中,成熟crRNA包含单一茎环。在某些实施方 案中,正向重复序列包含单一茎环。在某些实施方案中,核酸靶向系统的裂解活性通过引入影响茎环RNA双链体结构的突变来改变。在一些 实施方案中,可引入维持茎环的RNA双链体的突变,借此核酸靶向系 统的裂解活性得以维持。在其他实施方案中,可引入破坏茎环的RNA 双链体结构的突变,借此核酸靶向系统的裂解活性得以完全消除。
引导RNA序列指导核酸靶向系统以序列特异性方式结合靶标核酸 序列的能力可通过任何适合测定来评估。举例来说,可诸如通过以下方 式来向具有相应靶标核酸序列的宿主细胞提供核酸靶向系统的足以形成 核酸靶向复合物的包括CRISPR相关转座酶和待测试的引导序列的组 分:用编码所述核酸靶向复合物的所述组分的载体进行转染,随后评估所述靶标核酸序列内的优先靶向(例如裂解)。类似地,可通过以下方式 来在体外评估对靶标核酸序列的裂解:提供所述靶标核酸序列、核酸靶向系统的包括CRISPR相关转座酶和/或待测试的引导序列的组分、和不 同于所述测试引导序列的对照引导序列,以及在测试引导序列反应与对 照引导序列反应之间比较在靶标序列处的结合或裂解率。其他测定是可 能的,并且将为本领域技术人员所想到。可选择引导序列,以及因此可选择核酸靶向引导RNA以靶向任何靶标核酸序列。靶标序列可为 DNA。靶标序列可为任何RNA序列。在一些实施方案中,靶标序列可 为选自由以下组成的组的RNA分子内的序列:信使RNA(mRNA)、前 mRNA、核糖体RNA(rRNA)、转运RNA(tRNA)、微小RNA(miRNA)、小 干扰RNA(siRNA)、小核RNA(snRNA)、小核仁RNA(snoRNA)、双链 RNA(dsRNA)、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和小细胞 质RNA(scRNA)。在一些实施方案中,靶标序列可为选自由mRNA、前 mRNA和rRNA组成的组的RNA分子内的序列。在一些实施方案中,靶 标序列可为选自由ncRNA和lncRNA组成的组的RNA分子内的序列。在 一些实施方案中,靶标序列可为mRNA分子或前mRNA分子内的序列。
如本文所用,术语“tracrRNA”包括与crRNA序列具有足够互补性以 进行杂交的任何多核苷酸序列。在一些实施方案中,tracrRNA不为核酸 靶向系统的裂解活性所需。在其他实施方案中,tracrRNA为核酸靶向系 统的裂解活性所需。
在一些实施方案中,本文公开的核酸靶向系统的一个或多个组分在 载体中表达或递送。如本文所用,术语“载体”是指能够运送它已与其连 接的另一核酸的核酸分子。载体包括但不限于单链、双链或部分双链核 酸分子;包含一个或多个游离末端,不包含游离末端(例如环状)的核酸 分子;包含DNA、RNA或两者的核酸分子;以及本领域中已知的其他种类的多核苷酸。一种类型的载体是“质粒”,其是指可诸如通过标准分 子克隆技术来向其中插入额外DNA区段的环状双链DNA环。另一类型 的载体是土壤杆菌属载体。另一类型的载体是病毒载体,其中病毒源性 DNA或RNA序列存在于载体中以包装至病毒(例如逆转录病毒、复制缺陷性逆转录病毒、烟草花叶病毒(Tobacco mosaic virus,TMV)、马铃薯X 病毒(PVX)和豇豆花叶病毒(Cowpea mosaic virus,CPMV)、烟草花叶病毒 (tobamovirus)、双粒病毒(Gemini virus)、腺病毒、复制缺陷性腺病毒和腺 相关病毒)中。病毒载体也包括由病毒携带的用于转染至宿主细胞中的 多核苷酸。在一些实施方案中,病毒载体可使用土壤杆菌属来递送至植物中。某些载体能够在它们被引入其中的宿主细胞中自主复制。其他载 体可在引入宿主细胞中后整合至所述宿主细胞的基因组中,并且由此与 宿主基因组一起复制。此外,某些载体能够指导它们所可操作地连接的 基因的表达。所述载体在本文中被称为“表达载体”。用于以及导致在真 核细胞中进行表达的载体可在本文中称为“真核表达载体”。在重组DNA 技术中具有效用的常见表达载体常常呈质粒形式。本领域技术人员应了解,表达载体的设计可取决于诸如对待转化的宿主细胞的选择、所需表达水平等的因素。可将载体引入宿主细胞中以由此产生由如本文所述的 核酸编码的转录物、蛋白质或肽,包括融合蛋白或肽(例如成簇规律间 隔短回文重复序列(CRISPR)转录物、蛋白质、酶、其突变形式、其融合 蛋白等)。
重组表达载体可包含呈适于在宿主细胞中表达核酸的形式的本公开 核酸,此意指重组表达载体包括一种或多种可基于待用于表达的宿主细 胞加以选择的调控元件,所述调控元件可操作地连接于待表达的核酸序 列。
如本文所用,术语“模板核酸”或“供体多核苷酸”可互换使用,并且 是指可与CRISPR相关转座酶或其直系同源物或同源物联合用于改变靶 标序列的结构的核酸序列,所述CRISPR相关转座酶包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至 少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列。在一些实施方 案中,模板核酸或供体多核苷酸包含一个或多个、两个或更多个、三个 或更多个、四个或更多个、五个或更多个转基因。在一实施方案中,靶 标序列被修饰以通常在一个或多个裂解位点处或附近具有模板核酸的序列的一些或全部。在一实施方案中,模板核酸是单链。在一替代性实施 方案中,模板核酸是双链。在一实施方案中,模板核酸是DNA,例如 双链DNA。在一替代性实施方案中,模板核酸是单链DNA。
在一实施方案中,模板核酸通过参与同源性重组来改变靶标序列的 结构。在一实施方案中,模板核酸改变靶标位置的序列。在一实施方案 中,模板核酸导致经修饰或非天然存在碱基并入靶标核酸中。
模板序列可经受断裂介导或催化的与靶标序列的重组。在一实施方 案中,模板核酸可包括对应于靶标序列上的通过核酸靶向系统介导的裂 解事件来裂解的位点的序列。在一实施方案中,模板核酸可包括对应于 两个位点的序列,第一位点在靶标序列上,在第一核酸靶向系统介导的 事件中被裂解,并且第二位点在靶标序列上,在第二核酸靶向系统介导的事件中被裂解。
在某些实施方案中,模板核酸可包括导致所翻译序列的编码序列中 的改变的序列,例如导致在蛋白质产物中一个氨基酸取代另一氨基酸的 序列,例如将突变等位基因转变成野生型等位基因,将野生型等位基因 转变成突变等位基因,和/或引入终止密码子,插入氨基酸残基,使氨基酸残基缺失,或进行无义突变。在某些实施方案中,模板核酸可包括导致非编码序列中的改变的序列,所述改变例如外显子中或5'或3'非翻 译区或非转录区中的改变。所述改变包括调控元件例如启动子、增强子 中的改变,以及顺式作用性或反式作用性控制元件中的改变。
与靶标基因中的靶标序列具有同源性的模板核酸可用于改变靶标基 因的结构。模板序列可用于改变非所要结构,例如非所要或突变核苷 酸。模板核酸可包括当整合时导致以下结果的序列:使正性调控元件的 活性降低;使正性调控元件的活性增加;使负性调控元件的活性降低; 使负性调控元件的活性增加;使基因的表达降低;使基因的表达增加;使对除草剂的抗性增加;使对疾病的抗性增加;使对昆虫或线虫有害生 物的抗性增加;使对非生物应激(例如干旱、氮缺乏)的抗性增加;使对 病毒进入的抗性增加;修正突变或改变非所要氨基酸残基;赋予、增 加、消除或降低基因产物的生物性质,例如使酶的酶促活性增加,或使 基因产物与另一分子相互作用的能力增加。
在一些实施方案中,模板核酸可包括导致以下结果的序列:靶标序 列的1、2、3、4、5、6、7、8、9、10、11、12个或更多个核苷酸发生 序列变化。在一实施方案中,模板核酸的长度可为20+/-10、30+/-10、 40+/-10、50+/-10、60+/-10、70+/-10、80+/-10、90+/-10、100+/-10、 110+/-10、120+/-10、130+/-10、140+/-10、150+/-10、160+/-10、170+/-10、180+/-10、190+/-10、200+/-10、210+/-10或220+/-10个核苷酸。在一实施方案中,模板核酸的长度可为30+/-20、40+/-20、50+/-20、60+/-20、 70+/-20、80+/-20、90+/-20、100+/-20、110+/-20、120+/-20、130+/-20、 140+/-20、150+/-20、160+/-20、170+/-20、180+/-20、190+/-20、200+/-20、210+/-20或220+/-20个核苷酸。在一实施方案中,模板核酸的长度是10 至1,000、20至900、30至800、40至700、50至600、50至500、50至 400、50至300、50至200、或50至100个核苷酸。
在一些实施方案中,供体核酸包含以下组分:[5'同源臂]-[目标序 列]-[3'同源臂]。同源臂提供向染色体中的重组。在一些实施方案中,目 标序列将非所需组成部分例如突变或特征替代为目标序列。在一些实施 方案中,目标序列包含一个或多个、两个或更多个、三个或更多个、四个或更多个、或五个或更多个转基因。在一实施方案中,同源臂侧接于最远端裂解位点。在一实施方案中,5'同源臂的3'末端是紧接于目标序 列的5'末端的位置。在一实施方案中,5'同源臂可从目标序列的5'末端 延伸至少10、20、30、40、50、100、200、300、400、500、600、700、 800、900、1000、1500或2000个5'核苷酸。在一实施方案中,3'同源臂的 5'末端是紧接于目标序列的3'末端的位置。在一实施方案中,3'同源臂 可从目标序列的3'末端延伸至少10、20、30、40、50、100、200、300、 400、500、600、700、800、900、1000、1500或2000个3'核苷酸。
在某些实施方案中,可使一个或两个同源臂缩短以避免包括某些序 列重复组成部分。举例来说,可使5'同源臂缩短以避免序列重复组成部 分。在其他实施方案中,可使3'同源臂缩短以避免序列重复组成部分。 在一些实施方案中,可使5'同源臂与3'同源臂两者均缩短以避免包括某些序列重复组成部分。
在某些实施方案中,供体核酸可被设计以用作单链寡核苷酸。当使 用单链寡核苷酸时,5'同源臂和3'同源臂的长度可在多达约200个碱基 的范围内,例如长度是至少25、50、75、100、125、150、175或200个 碱基。
在某些实施方案中,核酸靶向系统的组分可进一步包含至少一个或 多个核定位信号(NLS)、核输出信号(NES)、功能性结构域、柔性接头、 突变、缺失、改变或截短。可使NLS、NES或功能性结构域中的一者或 多者有条件地活化或失活。
在一些实施方案中,如本文所述的核酸靶向系统在20℃、21℃、 22℃、23℃、24℃、24℃、25℃、26℃、27℃、28℃、29℃、30℃、 31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、 41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃或50℃下具有 功能性。
在某些实施方案中,核酸靶向系统的一个或多个组分被包含在一个 或多个载体上以向真核细胞递送。在一些实施方案中,一个或多个载体 编码以下中的一者或多者:(i)一种或多种CRISPR相关转座酶,更特定来说,一种或多种包含与选自由SEQ ID NO:124-246和275-287组成的组 的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100% 同源性的氨基酸序列的CRISPR相关转座酶;(ii)能够杂交于细胞中的第 一靶标序列的第一引导RNA;和(iii)能够杂交于所述细胞中的第二靶标 序列的第二引导RNA。不希望受特定理论束缚,第一引导RNA将第一 CRISPR相关转座酶导向细胞中的第一靶标序列;第二引导RNA将第二 CRISPR相关转座酶导向细胞中的第二靶标序列。各种编码序列 (CRISPR相关转座酶、引导RNA)可被包括在单一载体上或在多个载体 上。举例来说,有可能在一个载体上编码CRISPR相关转座酶,并且在 另一载体上编码各种RNA序列,或在一个载体上编码CRISPR相关转座 酶和各种引导RNA,并且在额外载体上编码供体核酸,或采用任何其 他排列。在一方面,系统使用总计一种、两种、三种、四种、五种或更 多种不同载体。当使用多个载体时,有可能以不等数目来递送它们。
在某些实施方案中,编码引导RNA的重组核酸可以阵列形式设 计,以使多个引导RNA序列可被同时释放。在一些实施方案中,一个 或多个引导RNA的表达由U6驱动。在一些实施方案中,CRISPR相关 转座酶与多个引导RNA复合以介导在多个靶标序列处的基因组编辑。 一些实施方案涉及表达1个直至4个或更多个不同引导序列的单一或串 联阵列形式;例如多达约20或约30个引导序列。各个别引导序列可靶 向不同靶标序列。此可从例如一个嵌合pol3转录物来加工。可使用Pol3 启动子,诸如U6或H1启动子。Pol2启动子诸如遍及本文提及的那些。反向末端重复(iTR)序列可侧接于Pol3启动子-gRNA-Pol2启动子-Cas。
在另一实施方案中,创建将短暂表达gRNA和/或CRISPR相关转座 酶的构建体,并且将其引入细胞中。在另一实施方案中,载体将产生足 量的gRNA和/或CRISPR相关转座酶以使一个或多个所需游离型或基因组靶标位点由如本文所述的核酸靶向系统有效修饰。举例来说,本公开 涵盖制备可被轰击、电穿孔、化学转染或通过一些其他手段来跨越植物 细胞膜加以输送的载体。这种载体可具有若干适用性质。举例来说,在 一个实施方案中,载体可在细菌宿主中复制以使载体可以足量产生和纯 化以进行短暂表达。在另一实施方案中,载体可编码药物抗性基因以允 许在宿主中选择载体,或载体也可包含表达盒以提供gRNA和/或 CRISPR相关转座酶在植物中的表达。在另一实施方案中,表达盒可含有启动子区域、5’非翻译区、用以辅助表达的任选内含子、用以允许轻 易引入编码gRNA和/或CRISPR相关转座酶的序列的多克隆位点、和 3’UTR。在特定实施方案中,表达盒中的启动子将为来自玉蜀黍属玉米 的U6启动子。在其他实施方案中,启动子将为来自玉蜀黍属玉米的嵌 合U6启动子。在一些实施方案中,可有益的是在表达盒的一个末端或各个末端包括独特限制位点以允许产生和分离线性表达盒,其可于是不 含其他载体元件。在某些实施方案中,非翻译前导序列区域可为植物源 性非翻译区。当将表达盒转化或转染至单子叶植物细胞中时,涵盖使用 可源于植物的内含子。
在一些实施方案中,如本文所述的重组核酸可包含多个具有不同序 列的U6启动子。具有多个具有不同序列的U6启动子的效用在于使通常 与序列重复相关的载体稳定性方面的问题最小化。此外,染色体中的高 度重复区域可导致遗传不稳定性和沉默。因此,在核酸靶向系统中使用 多个U6启动子的另一效用在于促进多个gRNA盒在同一转化构建体中的载体堆积,其中不同gRNA转录物水平将被最大化以高效靶向单一靶标位点。嵌合U6启动子可导致表达水平改进或另外改变的新的功能性 形式。
在若干实施方案中,表达载体包含至少一个编码如本文所述的核酸 靶向系统的一个或多个组分的表达盒,其可包含启动子。在某些实施方 案中,启动子是组成型启动子、组织特异性启动子、发育调控启动子或 细胞周期调控启动子。某些涵盖启动子包括仅在种系或生殖细胞中表达 的启动子以及其他启动子。所述发育调控启动子具有使核酸靶向系统的表达仅限于其中DNA在后代中遗传的那些细胞的优势。因此,核酸靶 向系统介导的遗传修饰(即染色体或游离型dsDNA裂解)仅限于将它们的 基因组从一代传递至下一代中涉及的细胞。如果核酸靶向系统的广泛表 达具有遗传毒性或具有其他非所要影响,那么这可能是适用的。所述启 动子的实例包括编码DNA连接酶、重组酶、复制酶等的基因的启动 子。
在一些实施方案中,可将本文所述的重组核酸分子并入任何适合植 物转化质粒或载体中。在一些实施方案中,植物转化质粒或载体含有可 选择或可筛选标记和如所述的相关调控元件,以及一个或多个由结构基 因编码的核酸。
诱导型核酸靶向系统
在一个方面,本公开提供一种非天然存在或工程化的核酸靶向系 统,其可包含至少一个开关,其中所述核酸靶向系统的活性通过与至少 一种关于所述开关的诱导能量来源接触来控制。在本公开的一实施方案 中,可使关于至少一个开关或核酸靶向系统的活性的控制活化、增强、 终止或阻遏。与至少一种诱导能量来源的接触可导致第一作用和第二作用。第一作用可为以下中的一者或多者:核输入、核输出、次级组分 (诸如效应物分子)的募集、构象变化(蛋白质、DNA或RNA的构象变 化)、裂解、释放运载物(诸如笼蔽分子或辅因子)、缔合或解离。第二作 用可为以下中的一者或多者:关于至少一个开关或核酸靶向系统的活性 的控制的活化、增强、终止或阻遏。在一个实施方案中,第一作用和第 二作用可以级联形式发生。
如本申请中详述的控制的各个方面涉及至少一个或多个开关。如本 文所用的术语“开关”是指以配合方式起实现变化的作用的系统或一组组 分,所述变化涵盖生物功能的所有方面,诸如对那个功能的活化、阻 遏、增强或终止。在一个方面,术语开关涵盖基因开关,其包含基因调 控蛋白的基本组分和这些蛋白识别的特定DNA序列。在一个方面,开关涉及用于基因调控中的诱导型和阻遏型系统。一般来说,除非存在允 许基因表达的某一分子(称为诱导剂),否则诱导型系统可为关闭的。分 子被称为“诱导表达”。这发生所采用的方式取决于控制机理以及细胞类型差异。除在抑制基因表达的某一分子(称为辅阻遏物)存在下之外,阻 遏型系统是开启的。分子被称为“阻遏表达”。这发生所采用的方式取决 于控制机理以及细胞类型差异。如本文所用的术语“诱导型”可涵盖开关 的所有方面,而不管涉及的分子机理如何。
在本公开的另一方面,核酸靶向系统可进一步包含至少一个或多个 核定位信号(NLS)、核输出信号(NES)、功能性结构域、柔性接头、突 变、缺失、改变或截短。可使NLS、NES或功能性结构域中的一者或多 者有条件地活化或失活。在另一实施方案中,突变可为以下中的一者或 多者:转录因子同源区中的突变、DNA结合结构域中的突变(诸如使碱性螺旋环螺旋的碱性残基突变)、内源性NLS中的突变或内源性NES中 的突变。本公开包括诱导能量来源可为热、超声、电磁能量或化学能量 来源。
在一些实施方案中,诱导能量来源可为抗生素、小分子、激素、激 素衍生物、类固醇或类固醇衍生物。在一些实施方案中,诱导能量来源 可为脱落酸(ABA)、水杨酸、多西环素(doxycycline,DOX)、枯茗酸 (cumate)、雷帕霉素(rapamycin)、4-羟基他莫昔芬(4-hydroxytamoxifen, 4OHT)、雌激素或蜕皮酮(ecdysone)。本公开规定至少一个开关可选自由以下组成的组:基于抗生素的诱导型系统、基于电磁能量的诱导型系 统、基于小分子的诱导型系统、基于核受体的诱导型系统和基于激素的 诱导型系统。
本发明核酸靶向系统可被设计来以在时间上和在空间上精确的方式 调节或改变个别内源性基因的表达。核酸靶向系统可被设计来结合目标 基因的启动子序列以改变基因表达。
由本公开涵盖的另一系统是基于亚细胞定位变化的化学诱导型系 统。诱导型核酸靶向系统可被工程化来靶向目标基因组基因座,其中将 CRISPR相关转座酶分成进一步连接于化学或能量敏感性蛋白质的不同 部分的两个融合构建体。在结合化学物质或能量转移至化学或能量敏感 性蛋白质后,这个化学或能量敏感性蛋白质将导致CRISPR相关转座酶 的任一半部的亚细胞定位发生变化。融合构建体从其中它的活性由于缺乏经重构核酸靶向系统的底物而被螯合的一个亚细胞区室或细胞器向其 中存在所述底物的另一亚细胞区室或细胞器中的这个运输将使组分集合 并重构功能活性,以及接着与它的所需底物(即哺乳动物核中的基因组 DNA)接触并导致靶标基因表达的活化或阻遏。
涵盖其他诱导型系统,诸如但不限于通过重金属、类固醇激素、热 激和已开发的其他试剂达成调控。
在特定实施方案中,将本文所述的核酸靶向系统置于通行码杀灭开 关的控制下,这是一种当细胞的状况被改变时高效杀灭宿主细胞的机 理。在一些实施方案中,这通过引入需要存在IPTG来开启的杂合LacI-GalR家族转录因子(Chan等2015Nature NatureChemical Biology doi:10.1038/nchembio.1979)来确保,此可用于驱动编码对于细胞存活至关 重要的酶的基因。通过使对不同化学物质敏感的不同转录因子组合,可产生“密码”。这个系统可用于在空间上和在时间上控制核酸靶向系统诱 导的遗传修饰的程度,此可在包括治疗应用的不同领域中具有重要性, 并且也可在避免含转基因生物体从它们的预定环境“逃脱”方面具有重要 性。
自失活系统
在一些实施方案中,一旦细胞的基因组中的基因的所有拷贝都已被 编辑,在那个细胞中继续核酸靶向系统表达即不再必要。在一些实施方案中,在非意图基因组位点处存在脱靶作用等的情况下,持续表达将不 合需要。在一些实施方案中,核酸靶向系统的组分的时间限制表达将为 适用的。诱导型表达提供一种途径,另一途径可为依赖于在载体自身内 使用非编码引导靶标序列的自失活核酸靶向系统。因此,在表达开始之 后,核酸靶向系统将导致它的自身破坏,但在破坏完全之前,它将有时 间来编辑靶标基因的基因组拷贝。在一些实施方案中,自失活核酸靶向系统包括靶向CRISPR相关转座酶的编码序列,或靶向一个或多个互补 于以下中的一者或多者中存在的独特序列的非编码引导靶标序列的额外RNA(即引导RNA):(a)在驱动非编码RNA组成部分的表达的启动子 内,(b)在驱动CRISPR相关转座酶的表达的启动子内,(c)在CRISPR相 关转座酶编码序列中的ATG翻译起始密码子的100bp内,(d)在病毒递 送载体的反向末端重复序列(iTR)内。
在一些实施方案中,一个或多个引导RNA可通过载体来递送,所 述载体例如单独载体或编码CRISPR相关转座酶的同一载体。当由单独 载体提供时,以CRISPR相关转座酶表达为目标的引导RNA可依序或同 时施用。当依序施用时,以CRISPR相关转座酶表达为目标的引导RNA 可在意图进行基因编辑或基因组工程化的引导RNA之后递送。这个时 期可为数分钟的时期(例如5分钟、10分钟、20分钟、30分钟、45分 钟、60分钟)。这个时期可为数小时的时期(例如2小时、4小时、6小 时、8小时、12小时、24小时)。这个时期可为数天的时期(例如2天、3 天、4天、7天)。这个时期可为数周的时期(例如2周、3周、4周)。这 个时期可为数月的时期(例如2个月、4个月、8个月、12个月)。这个时 期可为数年的时期(2年、3年、4年)。在一些实施方案中,CRISPR相关 转座酶与能够杂交于第一靶标诸如基因组基因座或目标基因座的第一引 导RNA缔合,并且执行核酸靶向系统的所需一种或多种功能(例如基因 工程化);并且随后,CRISPR相关转座酶可接着与能够杂交于编码 CRISPR相关转座酶的至少一部分的序列的第二引导RNA缔合。当引导 RNA靶向编码CRISPR相关转座酶的表达的序列时,转座酶变得受妨 碍,并且系统变得自失活。在一些实施方案中,通过例如粒子轰击、脂 质体转染、纳米粒子、微囊泡来施加的以CRISPR相关转座酶表达为目 标的引导RNA可依序或同时施用。类似地,自失活可用于使一个或多个用于靶向一个或多个靶标的引导RNA失活。
在一些方面,提供单一引导RNA,其能够杂交于在起始密码子的下 游的序列,由此在一段时期之后,存在CRISPR相关转座酶表达丧失。 在一些方面,提供一个或多个引导RNA,其能够杂交于编码核酸靶向 系统的一个或多个组分的多核苷酸的一个或多个编码区或非编码区,借 此在一段时期之后,存在核酸靶向系统的一个或多个组分或在一些情况下所有组分的失活。在一些方面,并且不受限制地,细胞可包含多种 CRISPR相关酶,其中第一CRISPR相关酶靶向一个或多个待编辑的基 因组基因座,并且第二CRISPR相关酶靶向编码核酸靶向系统的一个或 多个组分的多核苷酸。在一些实施方案中,第一CRISPR相关酶和第二CRISPR相关酶独立地选自由Cas9、Cpf1、Ncc1和CRISPR相关转座酶 组成的组。
对CRISPR相关转座酶的修饰
在一实施方案中,编码本文公开的CRISPR相关转座酶或其直系同 源物或同源物的一个或多个核酸分子可针对在真核细胞中表达加以密码 子优化。在一些实施方案中,编码本文公开的CRISPR相关转座酶或其直系同源物或同源物的一个或多个核酸分子可针对在植物细胞中表达加 以密码子优化。编码CRISPR相关转座酶的一个或多个密码子优化核酸 分子的实例提供于表12中。在一些实施方案中,核酸分子可包含一个 或多个选自SEQID NO:2020-2699的序列。在一些实施方案中,核酸分子可包含一个或多个选自SEQ ID NO:2700-3379的序列。一个或多个核 酸分子可为工程化的或非天然存在的。术语“非天然存在”或“工程化”可 互换使用,并且指示涉及人工。所述术语在涉及核酸分子或多肽时意指核酸分子或多肽至少大致上不含至少一种它们在自然界中与其天然相伴 以及如它们在自然界中与其一起所见的其他组分。本文所述的核酸靶向系统是非天然存在的。
在一些实施方案中,本文公开的CRISPR相关转座酶或其直系同源 物或同源物可包含一个或多个突变(因此,编码所述CRISPR相关转座酶的一个或多个核酸分子可具有一个或多个突变)。突变可为人工引入突 变,并且可能包括但不限于催化结构域中的一个或多个突变。关于 CRISPR相关转座酶的催化结构域的实例可包括但不限于RuvC I、RuvC II、RuvC III和IS605_ORFB结构域。
在一些实施方案中,本文公开的CRISPR相关转座酶或其直系同源 物或同源物可用作融合于或可操作地连接于功能性结构域的通用核酸结 合蛋白。功能性结构域的实例可包括但不限于PvuII、MutH、TevI、 FokI、AlwI、MlyI、SbfI、SdaI、StsI、CleDORF、Clo051、Pept071、重组 酶、转座酶、甲基酶、翻译起始子、翻译活化子、翻译阻遏物、核酸酶 (特别是核糖核酸酶)、剪接体、珠粒、光诱导型/控制型结构域或化学诱 导型/控制型结构域。FokI核酸酶结构域需要二聚化来使DNA裂解,因 此,具有Fok1功能性结构域的CRISPR相关转座酶为结合裂解位点的相 对DNA链所需。
在一些实施方案中,未修饰CRISPR相关转座酶可具有裂解活性。
在一些实施方案中,CRISPR相关转座酶在靶标序列的位置处或在靶标 序列附近,诸如在靶标序列内和/或在靶标序列的互补序列内或在与靶 标序列相关的序列处,指导对一个或两个核酸(DNA或RNA)链的裂解。
在一些实施方案中,CRISPR相关转座酶可在离靶标序列的首个或末个 核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、 200、500个或更多个碱基对内指导对一个或两个DNA或RNA链的裂 解。在一些实施方案中,裂解可为交错的,即产生粘性末端。在一些实施方案中,裂解是交错切割,伴有5'突出部分。在一些实施方案中,裂 解是交错切割,伴有具有1至5个核苷酸、4或5个核苷酸的5'突出部 分。在一些实施方案中,载体编码可关于相应野生型酶加以突变的 CRISPR相关转座酶,以致突变CRISPR相关转座酶缺乏裂解含有靶标序列的靶标多核苷酸的一个或两个DNA或RNA链的能力。作为另一实 例,可使CRISPR相关转座酶的两个或更多个催化结构域(例如RuvC I、RuvC II、RuvC III或IS605_ORFB结构域)突变以产生实质上缺乏全部 DNA裂解活性的突变CRISPR相关转座酶。在一些实施方案中,当突变 CRISPR相关转座酶的裂解活性是酶的非突变形式的核酸裂解活性的约 至多25%、10%、5%、1%、0.1%、0.01%或更小时,CRISPR相关转座酶 可被视为实质上缺乏全部裂解活性;实例可为当相较于非突变CRISPR相关转座酶,突变CRISPR相关转座酶的核酸裂解活性可忽略时。
靶标序列
如本文所用,术语“靶标多核苷酸”或“靶标序列”是指存在于多核苷 酸中的由CRISPR相关转座酶所针对的核苷酸序列。在一些实施方案 中,靶标多核苷酸或靶标序列在基因中。在这个情形下,术语“基因”意 指基因组序列的对应于遗传单位的可定位区域,其包括调控区(诸如启 动子、增强子)、5’非翻译区、内含子区域、3’非翻译区、转录区以及可以天然基因或转基因形式存在于植物基因组中的其他功能性序列区域。视情况而定,术语靶标序列或靶标基因可指被靶向以达成抑制的基因或 基因产物的全长核苷酸序列,或被靶向以达成抑制的基因或基因产物的 一部分的核苷酸序列。
如本文所述的核酸靶向系统的靶标多核苷酸可为对于原核或真核细 胞来说是内源性或外源性的任何多核苷酸。举例来说,靶标多核苷酸可 为存在于真核细胞的核中的多核苷酸。靶标多核苷酸可为编码基因产物 (例如蛋白质)的序列,或非编码序列(例如调控多核苷酸或垃圾DNA), 或两者组合。
靶标多核苷酸的实例包括与信号传导生物化学路径相关的序列,例 如信号传导生物化学路径相关基因或多核苷酸。靶标多核苷酸的实例包 括编码提供对除草剂的耐受性的蛋白质的基因,所述除草剂诸如5-烯醇 丙酮酰基莽草酸-3-磷酸合成酶(EPSPS)、草甘膦(glyphosate)氧化还原酶 (GOX)、草甘膦脱羧酶、草甘膦-N-乙酰基转移酶(GAT)、麦草畏(dicamba) 单加氧酶、膦丝菌素(phosphinothricin)乙酰基转移酶、2,2-二氯丙酸脱卤 素酶、乙酰羟酸合成酶、乙酰乳酸合成酶(ALS)、卤代芳基腈水解酶、 乙酰基-辅酶A羧化酶、二氢蝶呤(dihydropteroate)合成酶、八氢番茄红素 (phytoene)去饱和酶、原卟啉原(Protoporphyrinogen)氧化酶(PPO)、原卟啉 (protoporphyrin)IX加氧酶、羟基苯基丙酮酸二加氧酶、对氨基苯甲酸合成酶、谷氨酰胺合成酶、纤维素合成酶、β-微管蛋白、4-羟基苯基丙酮 酸二加氧酶(HPPD)和丝氨酸羟甲基转移酶。靶标多核苷酸的实例包括与 疾病抗性基因座相关的多核苷酸。如本文所用,术语“疾病抗性基因座”是指植物中与疾病或病原体抗性相关的基因组区域。疾病抗性基因座可 包含编码一种或多种对植物赋予对至少一种疾病或病原体的抗性的蛋白 质的一个或多个基因、基因家族、基因阵列或QTL。在一个实施方案 中,疾病抗性基因座包含一个或多个NBS-LRR疾病抗性基因,也被称 为NB-LRR基因、R基因、LRR基因。在另一实施方案中,疾病抗性基因座包含一个或多个PRR疾病抗性基因。疾病抗性基因座可涵盖已知 会赋予病原体抗性的特定基因、基因簇、基因阵列和/或基因家族,例 如Rp1或Rpp1或Rps1。在另一实施方案中,疾病抗性基因座包括Rgh1 基因座。在另一实施方案中,疾病抗性基因座包括Rgh4基因座。或 者,疾病抗性基因座可涵盖然而赋予疾病抗性的实际基因/要素组成是 未知的基因组区域。靶标多核苷酸的实例包括编码品质性状的多核苷 酸,诸如棕色中脉(bmr)基因、蜡质(waxy)基因、白色(white)基因、 Fad2、Fad3。
在不希望受理论束缚下,据信靶标序列应与PAM(原间隔子邻近基 序)相关联;所述PAM即由CRISPR相关转座酶识别的短序列。视所用 CRISPR相关转座酶而定,PAM的确切序列和长度要求有差异,但PAM 通常是邻近于靶标序列的2-5个碱基对。在一些实施方案中,PAM在靶 标序列的5’。在一些实施方案中,PAM在靶标序列的3’。PAM序列的 实例在以下实施例2中给出,并且熟练人士将能够鉴定供与给定 CRISPR相关转座酶一起使用的其他PAM序列。此外,对PAM相互作 用(PI)结构域的工程化可允许对PAM特异性编程,改进靶标位点识别保 真度,以及增加CRISPR相关转座酶的多用性。
CRISPR相关转座酶的用途
在一方面,本公开提供一种用于对细胞中的靶标核酸序列进行序列 特异性修饰的方法,其包括向细胞提供一种或多种CRISPR相关转座 酶。在一些实施方案中,一种或多种CRISPR相关转座酶通过在细胞中 表达编码一种或多种CRISPR相关转座酶的重组DNA分子来提供。在一些实施方案中,一种或多种CRISPR相关转座酶通过使细胞与包含一种 或多种CRISPR相关转座酶或编码一种或多种CRISPR相关转座酶的重 组DNA分子的组合物接触来提供。在一些实施方案中,一种或多种 CRISPR相关转座酶通过使细胞与包含一种或多种编码一种或多种 CRISPR相关转座酶的RNA分子的组合物接触来提供。在一些实施方案 中,方法进一步包括向细胞提供能够杂交于靶标核酸序列的引导 RNA。在一些实施方案中,引导RNA通过在细胞中表达编码引导RNA 的重组DNA分子来提供。在一些实施方案中,引导RNA通过使细胞与 包含引导RNA或编码引导RNA的重组DNA分子的组合物接触来提供。 在一些实施方案中,使引导RNA与CRISPR相关转座酶复合,并且向细 胞提供。用于向植物细胞提供RNA的方法和组合物在本领域中是已知 的。参见例如PCTUS2016035500、PCTUS2016035435和WO2011112570, 其以引用的方式并入本文。
在一方面,本公开提供一种如本文讨论的方法,其中细胞是真核细 胞。在一方面,本公开提供一种如本文讨论的方法,其中细胞是哺乳动 物细胞。在一方面,本公开提供一种如本文讨论的方法,其中细胞是非 人真核生物细胞。在一方面,本公开提供一种如本文讨论的方法,其中 非人真核生物细胞是非人哺乳动物细胞。在一方面,本公开提供一种如本文讨论的方法,其中非人哺乳动物细胞可为灵长类动物、牛科动物、 羊科动物、猪科动物、犬科动物、啮齿动物、兔科动物细胞,诸如猴、 母牛、绵羊、猪、狗、兔、大鼠或小鼠细胞。在一方面,本公开提供一 种如本文讨论的方法,其中细胞可为非哺乳动物真核细胞,诸如家禽 (例如鸡)、有脊椎鱼(例如鲑鱼、罗非鱼)或甲壳类动物(例如蚝、蛤、龙虾、小虾)细胞。
在一方面,本公开提供一种如本文讨论的方法,其中真核细胞是植 物细胞。植物细胞可来自单子叶植物或双子叶植物或作物或谷物植物, 诸如木薯、玉米、高粱、苜蓿、棉花、大豆、卡诺拉油菜、小麦、燕麦 或稻米。植物细胞也可来自藻类、树木或生产植物、果实或蔬菜(例如 树木,诸如柑桔树,例如橙树、葡萄柚树或柠檬树;桃子树或油桃树;苹果树或梨树;坚果树,诸如杏仁树或胡桃树或阿月浑子(pistachio)树; 茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia) 植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、鳄梨、番木瓜、木 薯、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、莴苣、菠 菜、草莓、马铃薯、南瓜小果(squash)、甜瓜、蓝莓、树莓、黑莓、葡萄、咖啡、可可等)。
在另一方面,本公开提供一种离体或在体内对细胞汇集物中的基因 组中的基因进行功能性筛选的方法,其包括施用或表达包含多种引导 RNA的文库,并且其中筛选进一步包括使用如本文所述的CRISPR相关 转座酶。在一些实施方案中,CRISPR相关转座酶被修饰以包含异源性 功能性结构域。在一方面,本公开提供一种用于筛选基因组的方法,其 包括在体内向细胞施用或在细胞中表达文库。在一方面,本公开提供一种如本文讨论的方法,其进一步包括向细胞施用或在细胞中表达活化 剂。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连接 于如本文所述的CRISPR相关转座酶。在一方面,本公开提供一种如本 文讨论的方法,其中使活化剂连接于CRISPR相关转座酶的N末端或C 末端。在一方面,本公开提供一种如本文讨论的方法,其中使活化剂连 接于gRNA环。在一方面,本公开提供一种如本文讨论的方法,其进一 步包括向细胞施用或在细胞中表达阻遏物。在一方面,本公开提供一种如本文讨论的方法,其中筛选包括实现和检测基因活化、基因抑制、或 所靶向基因座中的裂解。
在一方面,本公开提供高效中靶活性,并且使脱靶活性最小化。在 一方面,本公开提供由如本文所述的CRISPR相关转座酶达成的高效中 靶裂解,并且使由所述CRISPR相关转座酶达成的脱靶裂解最小化。在 一方面,本公开提供CRISPR相关转座酶在基因座处的引导RNA特异性结合,而无DNA裂解。在一方面,本公开提供CRISPR相关转座酶在基 因组基因座处高效的由引导RNA指导的中靶结合,并且使所述CRISPR 相关转座酶的脱靶结合最小化。因此,在一方面,本公开提供靶标特异 性基因调控。在一方面,本公开提供使用一种或多种CRISPR相关转座 酶达成的对多个靶标的正交活化和/或抑制和/或裂解。
在一方面,本公开提供一种如本文讨论的方法,其包括递送一种或 多种CRISPR相关转座酶或编码一种或多种CRISPR相关转座酶的核酸 分子,其中所述一个或多个核酸分子可操作地连接于一个或多个调控序 列,并且在体内表达。在一方面,本公开提供一种如本文讨论的方法, 其中一种或多种CRISPR相关转座酶在细胞中的表达是通过以下来达成:慢病毒、腺病毒、AAV、双粒病毒、烟草脆裂病毒(Tobacco Rattle Virus,TRV)、马铃薯X病毒(PVX)、中国番茄黄化曲叶病毒(TYLCCV)、 菜豆金黄花叶病毒(Begomovirus)、大麦条纹花叶病毒(BSMV)、建兰花叶 病毒(CymMV)、水稻东格鲁杆状病毒(Rice tungro bacilliformvirus, RTBV)、花椰菜花叶病毒(CaMV)、芜菁黄化花叶病毒(TYMV)、卷心菜 曲叶病毒(CbLCV)、苹果潜伏性球状病毒(ALSV)、黄瓜花叶病毒 (CMV)、棉花皱叶病毒(CLCrV)、非洲木薯花叶病毒(ACMV)、豌豆早褐 病毒(PEBV)、甜菜曲顶病毒(BCTV)或土壤杆菌属。在一方面,本公开 提供一种如本文讨论的方法,其中一种或多种CRISPR相关转座酶的递 送是通过粒子、纳米粒子、脂质或细胞渗透肽(CPP)来达成。
在一方面,本公开提供一种包含CRISPR相关转座酶和引导RNA (gRNA)的核酸靶向系统,所述引导RNA包含能够杂交于细胞中的目标 基因组基因座中的靶标序列的引导序列,其中所述gRNA结合所述 CRISPR相关转座酶。
在一个方面,本公开提供一种用于改变或更改基因产物的表达的方 法。方法可包括向细胞中引入和表达编码CRISPR相关转座酶的DNA分 子,借此所述CRISPR相关转座酶裂解所述细胞的基因组中的产物靶标 序列,借此基因产物的表达得以改变。本公开进一步包括CRISPR相关 转座酶针对在真核细胞中表达加以密码子优化。在一实施方案中,真核 细胞是植物细胞。在本公开的另一实施方案中,基因产物的表达被降 低。
在一方面,本公开提供经改变细胞和那些细胞的子代,以及由所述 细胞制备的产物。本公开的CRISPR相关转座酶和核酸靶向系统用于产 生包含经修饰靶标基因座的细胞。在一些实施方案中,方法可包括使核 酸靶向复合物结合靶标DNA或RNA以实现对所述靶标DNA或RNA的 裂解,由此修饰所述靶标DNA或RNA,其中所述核酸靶向复合物包含 CRISPR相关转座酶。在一个方面,本公开提供一种修复细胞中的遗传 基因座的方法。在另一方面,本公开提供一种改变真核细胞中的DNA 或RNA的表达的方法。在一些实施方案中,方法包括使核酸靶向复合 物结合DNA或RNA,以使所述结合导致所述DNA或RNA的表达增加 或降低;其中所述核酸靶向复合物包含CRISPR相关转座酶。类似考虑 事项和条件如上适用于对靶标DNA或RNA进行修饰的方法。实际上,这些取样、培养和再引入选项跨越本公开的各个方面都适用。在一方 面,本公开提供对真核细胞中的靶标DNA或RNA进行修饰的方法,所 述方法可为体内、离体或体外方法。在一些实施方案中,方法包括从植 物对细胞或细胞群体取样,以及对所述一个或多个细胞进行修饰。培养 可离体发生在任何阶段。所述细胞可为不限于植物细胞、动物细胞、酵 母细胞、任何生物体的特定细胞类型,包括原生质体、体细胞、生殖细胞、单倍体细胞、干细胞、免疫细胞、T细胞、B细胞、树突细胞、心 血管细胞、上皮细胞、干细胞等。细胞可根据本公开加以修饰以例如以视用途而定可增加或降低的控制量产生基因产物,和/或加以突变。在 某些实施方案中,细胞的遗传基因座被修复。一个或多个细胞可甚至被 再引入非人动物或植物中。对于再引入的细胞,可优选的是细胞是干细 胞。
在一方面,本公开提供短暂包含核酸靶向系统或其组分的细胞。举 例来说,向细胞短暂提供CRISPR相关转座酶以及任选短暂提供引导 RNA,并且使遗传基因座改变,继之以核酸靶向系统的一个或多个组分 的量的下降。随后,已获得CRISPR相关转座酶介导的遗传改变的细 胞、细胞的子代和包含细胞的生物体包含减少量的一个或多个核酸靶向系统组分,或不再含有或包含一个或多个核酸靶向系统组分。
基因编辑或改变靶标基因座
在一些实施方案中,一个链中的双链断裂或单链断裂足够接近于靶 标序列以致发生模板修复。在一实施方案中,距离不超过10、20、50、 100、150、200、250、300、350或400个核苷酸。在不希望受特定理论束 缚下,据信断裂应足够接近于靶标序列以致断裂处于在末端切除期间经 受核酸外切酶介导的移除的区域内。
在一实施方案中,包含与选自由SEQ ID NO:124-246和275-287组成 的组的序列具有至少85%、至少90%、至少91%、至少92%、至少 93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99% 或100%同源性的氨基酸序列的CRISPR相关转座酶或其直系同源物或同 源物诱导双链断裂以达成诱导HDR介导的修复的目的,其中裂解位点 在远离靶标序列0-200bp(例如0至175、0至150、0至125、0至100、0 至75、0至50、0至25、25至200、25至175、25至150、25至125、25 至100、25至75、25至50、50至200、50至175、50至150、50至125、 50至100、50至75、75至200、75至175、75至150、75至125、75至100 bp)之间。在一实施方案中,裂解位点在远离靶标序列0-100bp(例如0 至75、0至50、0至25、25至100、25至75、25至50、50至100、50至 75或75至100bp)之间。
在一些实施方案中,同源臂延伸至少远至其中可发生末端切除的区 域,例如以允许经切除单链突出部分发现供体模板内的互补性区域。在 一些实施方案中,总长度受限于诸如质粒大小或病毒包装限度的参数。 同源臂长度的实例包括至少10、15、20、25、30、35、40、45、50、 55、60、65、70、75、80、85、90、95、100、150、200、250、300、 350、400、450、500、550、600、650、700、750、800、850、900、950或 1000个核苷酸。
如本文所用的靶标序列是指由包含与选自由SEQ ID NO:124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、至少 92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少 98%、至少99%或100%同源性的氨基酸序列的CRISPR相关转座酶或其 直系同源物或同源物修饰的核酸序列。在一些实施方案中,CRISPR相 关转座酶由引导RNA导向靶标序列。靶标序列可通过由CRISPR相关转座酶达成的裂解以及对所述靶标序列的修复来修饰。在一实施方案中, 对靶标序列的修复可导致添加或缺失一个或多个核苷酸。在一些实施方 案中,靶标序列可包含一个或多个通过模板核酸的并入来改变的核苷 酸。
在某些实施方案中,CRISPR相关转座酶诱导的非同源性末端接合 (NHEJ)可用于进行靶标基因特异性敲除。CRISPR相关转座酶诱导的 NHEJ也可用于移除(例如缺失)目标基因中的序列。通常,NHEJ通过将 两个末端接合在一起来修复DNA中的双链断裂;然而,通常,仅当完 全如同它们由双链断裂所形成的那样的两个可相容末端被完美连接时, 原始序列才被恢复。双链断裂的DNA末端经常是酶促加工的对象,从而导致在末端再接合之前在一个或两个链处添加或移除核苷酸。这导致 在DNA序列中在NHEJ修复的位点处存在插入和/或缺失(插入缺失)突 变。这些突变的三分之二通常改变阅读框,因此,产生非功能性蛋白 质。另外,维持阅读框,但插入或缺失大量序列的突变可破坏蛋白质的 功能性。这依赖于基因座,因为相比于蛋白质的非关键区域中的突变, 关键功能性结构域中的突变的可耐受性可能较小。由NHEJ产生的插入缺失突变在自然界中不可预测;然而,在给定断裂位点处,某些插入缺 失序列占优势,并且在群体中过度表现,这可能归因于具有微同源性的 小区域。缺失的长度可广泛变化;最通常在1-50bp范围内,但它们可 易于大于50bp,例如它们可易于达到大于约100-200bp。插入倾向于较 短,并且常常紧靠在断裂位点周围包括序列的短重复。然而,有可能获 得大型插入,并且在这些情况下,插入序列已常常被追溯至基因组的其 他区域或细胞中存在的质粒DNA。
因为NHEJ是一种诱变过程,所以它也可用于使小序列基序缺失, 只要不需要产生特定最终序列即可。如果以在短靶标序列附近的双链断 裂为目标,那么由NHEJ修复引起的缺失突变常常跨越并且因此移除非所要核苷酸。对于缺失较大DNA区段,引入两个双链断裂(在序列的每 侧上各一个)可导致在末端之间的NHEJ,伴有对整个间插序列的移除。这两种途径均可用于使特定DNA序列缺失;然而,NHEJ的易出错性质 可还在修复位点处产生插入缺失突变。
双链裂解CRISPR相关转座酶与单链裂解CRISPR相关转座酶两者 或其直系同源物或同源物可在本文所述的方法和组合物中用于产生 NHEJ介导的插入缺失。靶向某一基因,例如编码区,例如目标基因的 早期编码区的NHEJ介导的插入缺失可用于敲除目标基因(即消除目标基 因的表达)。举例来说,目标基因的早期编码区包括紧接在转录起始位点之后,在编码序列的第一外显子内,或在转录起始位点的500bp内 (例如小于500、450、400、350、300、250、200、150、100或50bp)的序 列。
全基因组敲除筛选
本文所述的CRISPR相关转座酶和核酸靶向系统可用于进行功能性 基因组筛选。在一些实施方案中,基因组筛选可利用基于引导RNA的 全基因组文库。所述筛选和文库可提供确定在特定生物过程中,基因的功能,涉及的细胞路径基因,以及任何基因表达改变可如何产生结果。 在一些实施方案中,CRISPR相关转座酶包含与选自由SEQ ID NO: 124-246和275-287组成的组的序列具有至少85%、至少90%、至少91%、 至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同源性的氨基酸序列或其直系同源物或同源 物。
在一些实施方案中,全基因组文库可包含如本文所述的多种引导 RNA,其包含能够靶向真核细胞的群体中的多个基因组基因座中的多个 靶标序列的引导序列。细胞群体可为植物细胞的群体。基因组基因座中 的靶标序列可为非编码序列。非编码序列可为内含子、调控序列、剪接 位点、3'UTR、5'UTR或多聚腺苷酸化信号。一种或多种基因产物的基 因功能可通过所述靶向来改变。靶向可导致基因功能敲除。对基因产物 的靶向可包括超过一个引导RNA。基因产物可由2、3、4、5、6、7、 8、9或10个引导RNA靶向。靶向可关于约100个或更多个序列。靶向可关于约1000个或更多个序列。靶向可关于约20,000个或更多个序列。 靶向可关于整个基因组。靶向可关于集中在相关或合乎需要路径上的一 组靶标序列。路径可为免疫路径。路径可为细胞分裂路径。
本公开的一个方面包括一种可包含多种引导RNA的全基因组文 库,所述引导RNA可包含能够靶向多个基因组基因座中的多个靶标序 列的引导序列,其中所述靶向导致基因功能敲除。这个文库可潜在包含 靶向生物体的基因组中的各个和每个基因的引导RNA。在一些实施方案中,生物体是植物。
在本公开的一些实施方案中,生物体是真核生物(包括哺乳动物, 包括人)或非人真核生物或非人动物或非人哺乳动物。在一些实施方案 中,生物体是非人动物,并且可为节肢动物例如昆虫,或可为线虫。在 本公开的一些方法中,生物体是植物。在本公开的一些方法中,生物体 或受试者是藻类,包括微藻,或是真菌。
功能性改变和筛选
在另一方面,本公开提供一种对基因进行功能性评估和筛选的方 法。若干实施方案涉及本公开的CRISPR相关转座酶用以精确递送功能 性结构域,活化或阻遏基因,或通过精确改变特定目标基因座上的甲基 化位点来改变表观遗传状态的用途,其通过提供包含与选自由SEQ ID NO:124-246和275-297组成的组的序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少 97%、至少98%、至少99%或100%同源性的氨基酸序列的CRISPR相关 转座酶来达成,其中所述CRISPR相关转座酶被修饰以包含异源性功能 性结构域。在一方面,本公开提供一种如本文讨论的方法,其进一步包 括向宿主施用或在宿主中表达活化剂。在一方面,本公开提供一种如本 文讨论的方法,其中使活化剂连接于CRISPR相关转座酶。在一方面, 本公开提供一种如本文讨论的方法,其中使活化剂连接于CRISPR相关转座酶的N末端或C末端。在一方面,本公开提供一种如本文讨论的方 法,其中筛选包括实现和检测基因活化、基因抑制、或基因座中的裂 解。
在一方面,本公开提供一种如本文讨论的方法,其中宿主是真核细 胞。在一方面,本公开提供一种如本文讨论的方法,其中宿主是哺乳动物细胞。在一方面,本公开提供一种如本文讨论的方法,其中宿主是非 人真核生物。在一方面,本公开提供一种如本文讨论的方法,其中非人 真核生物是植物。
使用核酸靶向系统来修饰细胞或生物体的方法
在一些实施方案中,本公开包括一种对细胞或生物体进行修饰的方 法。细胞可为原核细胞或真核细胞。细胞可为哺乳动物细胞。哺乳动物 细胞可为非人灵长类动物、牛科动物、猪科动物、啮齿动物或小鼠细 胞。细胞可为非哺乳动物真核细胞,诸如家禽、鱼或小虾细胞。细胞也 可为植物细胞。植物细胞可来自作物植物,诸如木薯、大豆、玉米、棉花、苜蓿、卡诺拉油菜、高粱、小麦或稻米。植物细胞也可来自藻类、 树木或蔬菜。通过本公开引入细胞中的修饰可使得细胞和细胞的子代得 以改变以达成生物产品的生产改进,所述产品诸如抗体、油、纤维、淀 粉、酒精或其他所需细胞输出物。通过本公开引入细胞中的修饰可使得 细胞和细胞的子代包括使产生的生物产品变化的改变。
核酸靶向系统可包含一种或多种不同载体。在本公开的一方面, CRISPR相关转座酶针对在所需细胞类型优先是真核细胞优选是植物细 胞中表达加以密码子优化。
核酸靶向系统及其组分的递送
通过本公开和本领域中的知识,核酸靶向系统,具体来说是本文所 述的新型系统,或其组分或其核酸分子(包括例如HDR模板)或编码或提 供其组分的核酸分子可通过本文一般以及详细描述的递送系统来递送。
CRISPR相关转座酶例如由选自SEQ ID NO:1-123、604-627和 2020-3379的多核苷酸序列编码的那些,和/或任何本发明RNA例如引导 RNA,可使用任何适合载体例如质粒或病毒载体来递送,诸如根癌土壤 杆菌的Ti质粒、双粒病毒、烟草脆裂病毒(TRV)、马铃薯X病毒(PVX)、 中国番茄黄化曲叶病毒(TYLCCV)、菜豆金黄花叶病毒、大麦条纹花叶病毒(BSMV)、建兰花叶病毒(CymMV)、水稻东格鲁杆状病毒(RTBV)、 花椰菜花叶病毒(CaMV)、芜菁黄化花叶病毒(TYMV)、卷心菜曲叶病毒 (CbLCV)、苹果潜伏性球状病毒(ALSV)、黄瓜花叶病毒(CMV)、棉花皱 叶病毒(CLCrV)、非洲木薯花叶病毒(ACMV)、豌豆早褐病毒(PEBV)、甜菜曲顶病毒(BCTV)、腺相关病毒(AAV)、慢病毒、腺病毒或其他病毒载 体类型或其组合。编码CRISPR相关转座酶的多核苷酸可被包装至一种 或多种载体例如质粒或病毒载体中。在一些实施方案中,通过例如粒子 轰击、土壤杆菌属感染或其他递送方法来将载体例如质粒或病毒载体递 送至目标组织中。所述递送可通过单次剂量或多次剂量来达成。本领域技术人员了解本文待递送的实际剂量可视多种因素而定极大变化,所述 因素诸如载体选择、靶标细胞、生物体、或组织、待处理的受试者的总 体状况、所寻求的转化/修饰程度、施用途径、施用模式、所寻求的转 化/修饰类型等。
这种剂量可进一步含有例如载体(水、盐水、乙醇、甘油、乳糖、 蔗糖、磷酸钙、明胶、右旋糖酐、琼脂、果胶、花生油、芝麻油等)、 稀释剂、药学上可接受的载体(例如磷酸盐缓冲盐水)、药学上可接受的 赋形剂和/或本领域中已知的其他化合物。剂量可进一步含有一种或多 种药学上可接受的盐,诸如像矿物酸盐,诸如盐酸盐、氢溴酸盐、磷酸 盐、硫酸盐等;以及有机酸的盐,诸如乙酸盐、丙酸盐、丙二酸盐、苯甲酸盐等。另外,本文中也可存在辅助物质,诸如湿润剂或乳化剂、 pH缓冲物质、凝胶或胶凝物质、调味剂、着色剂、微球体、聚合物、 混悬剂等。此外,也可存在一种或多种其他常规药物成分,诸如防腐 剂、保湿剂、混悬剂、表面活性剂、抗氧化剂、防结块剂、填充剂、螯 合剂、包覆剂、化学稳定剂等,尤其是如果剂型是可复原形式。适合成分包括微晶纤维素、羧甲基纤维素钠、聚山梨醇酯80、苯基乙醇、氯 丁醇、山梨酸钾、山梨酸、二氧化硫、没食子酸丙酯(propyl gallate)、对 羟基苯甲酸酯、乙基香兰素(ethyl vanillin)、甘油、苯酚、对氯酚、明 胶、白蛋白及其组合。对药学上可接受的赋形剂的彻底讨论可在以引用 的方式并入本文的REMINGTON'SPHARMACEUTICAL SCIENCES(Mack Pub.Co.,N.J.1991)中获得。
在本文中的一实施方案中,递送是通过质粒来达成。在所述质粒组 合物的情况下,剂量应是质粒的足以引发响应的量。举例来说,质粒组 合物中的质粒DNA的适合量可为约0.1至约2mg,或约1μg至约10μg。 本公开的质粒将通常包含以下中的一者或多者:(i)启动子;(ii)可操作地 连接于所述启动子的编码CRISPR相关转座酶的序列;(iii)可选择标记; (iv)复制起点;和(v)在(ii)的下游且可操作地连接于(ii)的转录终止子。质 粒也可编码引导RNA和/或tracrRNA,但这些中的一者或多者可改为在 不同载体上编码。
在一些实施方案中,本公开的RNA分子于脂质体或脂质转染制剂 等中递送,并且可通过为本领域技术人员熟知的方法制备。所述方法例 如描述于以引用的方式并入本文的美国专利号5,593,972、5,589,466、 5,580,859和9,121,022中。特定旨在增强和改进siRNA向哺乳动物细胞中 的递送的递送系统已被开发(参见例如Shen等FEBS Let.2003,539:111-114;Xia等,Nat.Biotech.2002,20:1006-1010;Reich等,Mol.Vision. 2003,9:210-216;Sorensen等,J.Mol.Biol.2003,327:761-766;Lewis等,Nat. Gen.2002,32:107-108以及Simeoni等,NAR 2003,31,11:2717-2724),并且 可应用于本公开。
在一些实施方案中,RNA递送是体内递送。有可能使用脂质体或纳 米粒子将编码CRISPR相关转座酶的RNA分子和引导RNA递送至细胞 中。因此,CRISPR相关转座酶的递送和/或本公开的RNA的递送可以 RNA形式,并且通过微囊泡、脂质体或一种或多种粒子来达成。举例来说,可将编码CRISPR相关转座酶的mRNA包装至脂质体粒子中以进 行体内递送。脂质体转染试剂诸如来自Life Technologies的转脂胺和其他在售试剂可将RNA分子有效递送至肝中。
递送RNA的手段也包括通过粒子(Cho,S.,Goldberg,M.,Son,S.,Xu, Q.,Yang,F.,Mei,Y.,Bogatyrev,S.,Langer,R.和Anderson,D.,Lipid-like nanoparticles for smallinterfering RNA delivery to endothelial cells,Advanced Functional Materials,19:3112-3118,2010)或外体((Schroeder,A.,Levins,C.,Cortez,C.,Langer,R.和Anderson,D.,Lipid-based nanotherapeutics for siRNA delivery,Journal ofInternal Medicine,267:9-21,2010,PMID:20059641)来递送 RNA。实际上,已显示外体特别适用于递送作为与CRISPR系统具有一 些相似的系统的siRNA。举例来说,El-AndaloussiS等人("Exosome-mediated delivery of siRNA in vitro and in vivo."NatProtoc.2012年 12月;7(12):2112-26.doi:10.1038/nprot.2012.131.2012年11月15日电子出版) 描述外体如何是有前景的用于跨越不同生物屏障进行药物递送的工具, 以及如何可被利用来在体外和在体内递送siRNA。
若干实施方案涉及使NHEJ或HR效率增强。NHEJ效率可通过共同 表达末端加工酶诸如Trex2来增强(Dumitrache等Genetics.2011年8月; 188(4):787-797)。优选的是HR效率通过短暂抑制NHEJ机构诸如Ku70和 Ku86来增加。HR效率也可通过共同表达原核或真核同源性重组酶诸如 RecBCD、RecA来增加。
粒子递送系统和/或制剂
已知若干类型的粒子递送系统和/或制剂适用于不同范围的应用 中。一般来说,粒子定义为就它的输送和性质而言表现为整体单位的小 物体。粒子进一步根据直径加以分类。粗粒子涵盖在2,500与10,000纳 米之间的范围。精细粒子的尺寸在100与2,500纳米之间。超细粒子或纳 米粒子的尺寸通常在1与100纳米之间。100nm界限的基础是以下事实:将粒子与大块物质相区分的新型性质通常在不足100nm的临界长 度尺度下显现。
如本文所用,粒子递送系统/制剂定义为包括本公开的粒子的任何 生物递送系统/制剂。本公开的粒子是具有小于100微米(μm)的最大尺寸 (例如直径)的任何实体。在一些实施方案中,本发明粒子具有小于10 μm的最大尺寸。在一些实施方案中,本发明粒子具有小于2000纳米(nm) 的最大尺寸。在一些实施方案中,本发明粒子具有小于1000纳米(nm)的 最大尺寸。在一些实施方案中,本发明粒子具有小于900nm、800nm、 700nm、600nm、500nm、400nm、300nm、200nm或100nm的最大尺寸。通常,本发明粒子具有500nm或更小的最大尺寸(例如直径)。在一 些实施方案中,本发明粒子具有250nm或更小的最大尺寸(例如直径)。 在一些实施方案中,本发明粒子具有200nm或更小的最大尺寸(例如直 径)。在一些实施方案中,本发明粒子具有150nm或更小的最大尺寸(例 如直径)。在一些实施方案中,本发明粒子具有100nm或更小的最大尺 寸(例如直径)。例如具有50nm或更小的最大尺寸的较小粒子用于本公 开的一些实施方案中。在一些实施方案中,本发明粒子具有在25nm与 200nm之间的范围内的最大尺寸。
在本公开的范围内的粒子递送系统可以任何形式提供,包括但不限 于固体、半固体、乳液或胶体粒子。因此,任何本文所述的递送系统, 包括但不限于例如基于脂质的系统、脂质体、胶束、微囊泡、外体或基 因枪,都可作为在本公开的范围内的粒子递送系统提供。
本公开涉及核酸靶向系统的通过至少一种纳米粒子复合物来递送的 至少一个组分,例如CRISPR相关转座酶、gRNA。在一些方面,本公 开提供包括将一种或多种多核苷酸,诸如一种或多种如本文所述的载 体、一种或多种其转录物和/或一种或多种从其转录的蛋白质递送至宿 主细胞中的方法。在一些方面,本公开进一步提供通过所述方法产生的细胞,以及包含所述细胞或由所述细胞产生的植物。在一些实施方案 中,将与引导RNA组合(并且任选与引导RNA复合)的CRISPR相关转座 酶递送至细胞中。常规基于病毒和非病毒的基因转移方法可用于在植物 细胞或靶标组织中引入核酸。所述方法可用于向所培养的细胞或宿主生 物体中的细胞施用编码核酸靶向系统的组分的核酸。非病毒载体递送系 统包括DNA质粒、RNA(例如本文所述的载体的转录物)、裸核酸和与 递送载体诸如脂质体复合的核酸。病毒载体递送系统包括DNA和RNA 病毒,在递送至细胞中之后,其具有游离或整合的基因组。
在一些实施方案中,一种或多种本文所述的载体用于产生非人转基 因动物或转基因植物。在一些实施方案中,转基因动物是哺乳动物,诸 如小鼠、大鼠或兔。用于产生转基因动物和植物的方法在本领域中是已 知的,并且通常以诸如本文所述的细胞转染方法开始。在一个方面,本 公开提供对真核细胞中的靶标多核苷酸进行修饰的方法。在一些实施方案中,方法包括使CRISPR相关转座酶实现对所述靶标多核苷酸的裂 解,由此修饰靶标多核苷酸。
在植物中使用核酸靶向系统
本文公开的核酸靶向系统可与作物基因组学中的新近进步联合使 用。本文所述的系统可用于进行高效和有成本效益的植物基因或基因组 询问或编辑或操作。核酸靶向系统可关于植物用于定点整合(SDI)或基 因编辑(GE)或任何近反向育种或反向育种技术中。利用本文所述的核酸靶向系统的各个方面可类似于CRISPR-Cas(例如CRISPR-Cas9)系统在植 物中的使用,并且提及亚利桑那大学(University of Arizona)网站 “CRISPR-PLANT”(http://www.genome.arizona.edu/crispr/)(由宾夕法尼亚州立大学(PennState)和AGI支持)。
用于使用如本文所述的核酸靶向系统进行基因组编辑的方法可用于 对基本上任何植物赋予所需性状。可使用本公开的核酸构建体和以上提 及的各种转化方法来工程化广泛多种植物和植物细胞系统以获得本文所 述的所需生理和农艺学特征。
在一些实施方案中,引入编码核酸靶向系统的组分的多核苷酸以达 成稳定整合至植物细胞的基因组中。在这些实施方案中,对转化载体或 表达系统的设计可视何时、何地以及在什么条件下表达引导RNA和/或 CRISPR相关转座酶而调整。
在一些实施方案中,在植物、植物组织或植物细胞中短暂表达编码 核酸靶向系统的组分的多核苷酸。在这些实施方案中,核酸靶向系统可 确保仅当CRISPR相关转座酶存在于细胞中时对靶标基因进行修饰,以 使基因组修饰可进一步得以控制。因为CRISPR相关转座酶的表达是短 暂的,所以从所述植物细胞再生的植物通常不含有外来DNA。在特定 实施方案中,CRISPR相关转座酶由植物细胞稳定表达,并且短暂表达引导RNA。在特定实施方案中,CRISPR相关转座酶由植物细胞稳定表 达,并且引导RNA通过任何本文所述的方法来直接向植物细胞提供。
编码核酸靶向系统的组分的一个或多个DNA构建体以及当适用时 模板序列可通过多种常规技术来引入植物、植物部分或植物细胞中。
在特定实施方案中,核酸靶向系统组分可使用植物病毒载体来引入 植物细胞中。在一些实施方案中,病毒载体是来自DNA病毒的载体。 举例来说,双粒病毒(例如卷心菜曲叶病毒、菜豆黄矮病毒、小麦矮缩 病毒、番茄曲叶病毒、玉米条纹毒病、烟草曲叶病毒或番茄金色花叶病 毒)或纳米病毒(例如蚕豆坏死黄化病毒)。在一些实施方案中,病毒载体 是来自RNA病毒的载体。举例来说,烟草脆裂病毒(tobravirus)(例如烟 草脆裂病毒(tobaccorattle virus)、烟草花叶病毒)、马铃薯x病毒(potexvirus) (例如马铃薯X病毒(potatovirus X))、或大麦病毒(hordeivirus)(例如大麦条 纹花叶病毒)。植物病毒的复制基因组是非整合型载体。
本文所述的方法通常导致产生相较于野生型植物,包含一种或多种 合乎需要的性状的植物。在一些实施方案中,所得植物、植物细胞或植 物部分是包含并入植物的全部或部分细胞的基因组中的外源性DNA序 列的转基因植物。在其他实施方案中,获得非转基因遗传修饰植物、植物部分或细胞,因为无外源性DNA序列并入植物的任何植物细胞的基因组中。在所述实施方案中,植物是非转基因的。当仅确保对内源性基 因的修饰并且不在植物基因组中引入或维持外来基因时;所得遗传修饰 植物不含有非天然基因。
在一些实施方案中,使核酸靶向系统靶向叶绿体。在一些实施方案 中,靶向可通过存在N末端延伸部分称为叶绿体转运肽(CTP)或质体转 运肽来实现。
参考文献
Bland C,et al.CRISPR Recognition Tool(CRT):a tool for automaticdetection of clustered regularly interspaced palindromic repeats.BMCBioinformatics.2007Jun 18;8(1):209.
Chen and Zhao,Nucleic Acids Research,200533:e154.
Edgar RC.Search and clustering orders of magnitude faster thanBLAST.Bioinformatics. 2010Oct 1;26(19):2460-1.
Eddy,S.R.,HMMER3 beta test:User’s Guide,Version3.0b3;November2009,atthe web site hmmer.org.
Geissmann,Q.PLoS One8,2013.
Guo et al.,J.Mol Biol.2010400(1):96-107.
Kapitonov et al.ISC,a Novel Group of Bacterial and Archaeal DNATransposons That Encode Cas9 Homologs.,J Bacteriol.2016Mar1;198(5):797-807.
Karvelis et al.Genome Biology(2015)16:253.
Kleinstiver,et al.,Nature 2015523:481-485.
Shmakov et al.Molecular Cell(2015)60:1-13.
Wang et al.(Restriction-ligation-free(RLF)cloning:a high-throughputcloning method by in vivo homologous recombination of PCRproducts.2015Genet.Mol.Res.,14,12306-12315.
Yin,P.et al.Structural basis for the modular recognition of single-stranded RNA by PPR proteins.2013Nature 504,168-171.
Zetsche et al.Cell,2015163:759-771.
Zhang and Muench et al.A Nucleolar PUF RNA-binding Protein withSpecificity for a Unique RNA Sequence.J Biol Chem.2015Dec 11;290(50):30108-18.
Zhu et al.Journal of Genetics and Genomics 43(2016)25-36.
以下实施例尽管指示本发明的实施方案,但仅出于说明目的而提 供,并且不应用于限制本发明。
实施例
实施例1:鉴定编码CRISPR相关转座酶的细菌序列。
许多编码转座酶的序列基于它们与CRISPR(重复元件)基因座的紧密 邻近性而加以鉴定。编码转座酶的多核苷酸序列通过生物信息学搜索来 自以下的细菌基因组加以鉴定:赖氨酸芽孢杆菌属某种、短芽孢杆菌属 某种、鞘氨醇杆菌属某种、水杆菌属某种、芽孢杆菌属某种、金黄杆菌 属某种、鞘氨醇单胞菌属某种、双头菌属某种、侧孢短芽孢杆菌、苏云金芽孢杆菌、韦氏芽孢杆菌、巨大芽孢杆菌、粪肠球菌、短短芽孢杆 菌、迟钝水杆菌、玫瑰色新鞘氨醇杆菌、嗜甲氨基双头菌、类短短芽孢 杆菌、类芽孢杆菌属某种、解硫胺素类芽孢杆菌、缓病类芽孢杆菌、土 地类芽孢杆菌、链霉菌属某种和寡养单胞菌属某种。
完成了使用CRISPR识别工具v1.1对15980个细菌基因组的CRISPR 序列的搜索(Bland,2007;网址:room220.com/crt)。由这个搜索,鉴定 20467个CRISPR基因座,其中在注释为推定转座酶的编码区的2kb内鉴 定622个CRISPR基因座。通过排除与已知Cas蛋白相关;在编码区内 出现;或来源于不合需要的细菌菌株的基因座来将CRISPR基因座进一步优先考虑以及缩窄为521个独特基因座。优先考虑导致鉴定123种具 有至少300个氨基酸(由核苷酸序列SEQ ID NO:1–123编码)的独特 CRISPR相关转座酶蛋白(SEQ ID NO:124–246)。
使用USEARCH工具在50%序列同一性截断值下(Edgar,2010)将转座 酶蛋白质序列(SEQ ID NO:124–246)进行比对,并且鉴定12个序列比对 簇,如表1中所示。从12个序列比对簇,选择23个转座酶蛋白以代表 蛋白质多样性,并且相应相关CRISPR阵列多核苷酸序列提供于表2 中。
可将各簇中的转座酶蛋白质序列比对以进一步显示它们之间的序列 类似性,并且关于第4簇(SEQ ID NO:228–231)的一个实例提供于图1 中。第4簇中蛋白质序列之间的序列同一性百分数呈现于表3中。表中 的各单元格显示相应行中的转座酶蛋白(查询序列)相较于相应列中的转 座酶蛋白(主题序列)的除以查询序列的总长度的同一性百分比,并且括 号中的数字是在查询序列与主题序列之间同一的残基的总数。如可由表 3和图1所见,第4簇中的这些转座酶的蛋白质序列之间的同一性百分 比在约86%至约98%同一性的范围内。
表1.在123个转座酶之中鉴定的序列簇。
表2.被选择来代表跨越12个簇的蛋白质多样性的转座酶和相关 CRISPR阵列。
表3.簇ID 4中的各转座酶蛋白的蛋白质序列的同一性百分比比 较。
由如本文所述的多核苷酸序列编码的转座酶蛋白质序列也可被设计 或选择来具有一个或多个已知在化学上和/或在结构上具有保守性的氨 基酸取代(例如用具有类似化学或物理性质诸如疏水性、极性、电荷、 位阻效应、酸/碱化学性质、类似侧链基团诸如羟基、巯基、氨基等的 另一氨基酸替代一个氨基酸)以避免或最小化对蛋白质的可能影响它的 功能的结构变化。保守性氨基酸取代的实例呈现于表4中。由如本文所述的多核苷酸序列编码的转座酶蛋白质序列可包括由于涉及一个或多个 氨基酸的一个或多个缺失和/或插入而与具有SEQ ID NO:124-246或类似 序列的CRISPR相关转座酶的那些蛋白质序列有一个或多个氨基酸差异 的蛋白质,并且也可基于已知转座酶蛋白质序列以及它们的保守氨基酸 残基和结构域加以设计或选择。氨基酸突变可以单一氨基酸取代形式或 与一种或多种其他突变诸如一种或多种其他氨基酸取代、缺失或添加组合在蛋白质中产生。突变可通过为本领域技术人员所知的任何方法来产 生。
表4:氨基酸取代。
额外CRISPR相关转座酶通过使用与以上所述相同的生物信息学程 序来进一步鉴定,其中对搜索准则进行以下变化。在初始搜索参数中, 选择是300个氨基酸或更长且在CRISPR基因座的2kb内的转座酶。在 这轮中,如果它们在CRISPR基因座的2.2kb内,那么选择额外转座 酶,而无论蛋白质长度如何。鉴定总计13个额外转座酶蛋白质,即 SEQ ID NO:275-287。
实施例2:对所鉴定CRISPR相关转座酶的序列分析
所鉴定的136个编码CRISPR相关转座酶的序列的Pfam注释呈现于 表5中。关于各蛋白质,指示结构域ID(例如PUF、OrfB_IS605或 OrfB_Zn_带),接着依次是结构域E值、pfam结构域坐标(起点和终点)和 端点坐标符号。对于各对查询物和靶标端点坐标,端点坐标符号具有以 下含义:在内部结束的比对两端由“..”表示;比对两端与查询物的末端 齐平并且靶标由“[]”表示;其中仅左端或右端是齐平/全长分别由“[.”或 “.]”表示(Eddy,2009;网站hmmer.org)。
表5.转座酶(SEQ ID NO:124-246、275-287)的Pfam注释。
蛋白质分簇
使用USEARCH工具在50%序列同一性截断值下(Edgar,2010)将 CRISPR相关转座酶蛋白质序列(SEQ ID NO:124-246、275-287)进行比 对,并且鉴定13个序列比对簇,如表6中所示。大多数所鉴定转座酶属 于第1簇,并且表5中的Pfam注释指示第1簇成员蛋白质包含 OrfB_IS605、OrfB_Zn_带和Puf结构域。
表6.对于SEQ ID NO:124-246、275-287鉴定的蛋白质序列比对簇。
编码转座酶的多核苷酸序列
对于转座酶蛋白SEQ ID NO:124-246、275-287,也鉴定了相应多核 苷酸编码区,参见表7。单一蛋白质序列可由一个或多个不同核苷酸序 列编码,因为序列从不同细菌物种或菌株鉴定。举例来说,对于蛋白质 SEQ ID NO:127,相应DNA序列是SEQ ID NO:4、288、289、290和291。
表7.蛋白质序列SEQ ID NO:124-246、275-287以及相应编码区的相 应DNA序列。
与转座酶相关的CRISPR序列
鉴定与转座酶相关的CRISPR序列,参见表8。各CRISPR序列包括 基因组序列的从CRISPR区域的上游5’末端与下游3’末端两者延伸的50 个核苷酸(例外之处是SEQ ID NO:816,其在5’末端不含有额外50个核苷 酸)。对于一些转座酶,鉴定了多个相关CRISPR序列,例如多核苷酸序 列(SEQ ID NO:559,其编码蛋白质序列SEQ ID NO:201)与两个CRISPR 序列–SEQ ID NO:987和988相关。另外,单一CRISPR序列可与两个或 更多个转座酶蛋白编码区相关,例如多核苷酸序列SEQ ID NO:98和 SEQ ID NO:16与同一CRISPR序列SEQ ID NO:679相关。这也对于以下 各对多核苷酸观察到:SEQ ID NO:99和9均与CRISPR序列SEQ IDNO: 647相关,SEQ ID NO:100和301均与CRISPR序列SEQ ID NO:647相 关,SEQ ID NO:595和11均与CRISPR序列SEQ ID NO:653相关,SEQ ID NO:596和302均与CRISPR序列SEQ IDNO:651相关,并且SEQ ID NO:597和303均与CRISPR序列SEQ ID NO:654相关。
表8.与转座酶(SEQ ID NO:124-246、275-287)相关的CRISPR序列。
CRIPSR重复序列和间隔子在各CRISPR序列内的坐标
使用生物信息学分析鉴定重复序列和间隔子在各CRIPSR序列内的 位置。对于关于各转座酶加以选择的代表性CRISPR序列,使用 CRISPR识别工具(Bland,2007)鉴定CRISPR区域的重复序列和间隔子序 列,接着手动检查序列以调整重复序列和间隔子序列。关于各转座酶 (SEQ ID NO:124-246、275-287)加以选择的代表性CRISPR序列的经整理 重复序列和间隔子序列坐标提供于表9中。
表9.关于各转座酶(SEQ ID NO:124-246、275-287)的代表性CRISPR 序列加以鉴定的重复序列和间隔子坐标。
预测转座酶的PAM基序和引导RNA
表9中所列的经整理间隔子序列用于针对噬菌体和病毒基因组序列 的数据集进行的blast搜索中。病毒基因组数据集从ENA(欧洲核苷酸档案库(European NucleotideArchive))下载。噬菌体基因组数据集从ENA、 NCBI(美国国家生物技术信息中心(NationalCenter for Biotechnology Information))和Actinobacteriophage(网页phagesdb.org)数据库下载。选择在 从查询间隔子序列的5’起点或3’末端开始的20bp内是100%同一的命中物,并且使用clustalw与间隔子序列比对。作为一实例,搜索与第1簇 蛋白质相关的间隔子序列(间隔子1,SEQ ID NO:2004;间隔子2,SEQ ID NO:2005,间隔子3,SEQ ID NO:2006),并且与噬菌体序列匹配物(KJ920400_1,SEQ ID NO:2007;HE614281_1 SEQ ID NO:2009;KJ024807_1,SEQ ID NO:2010;NC_029008.1_1,SEQ ID NO:2011)比对,如图2中所示。这个比对表明核苷酸三联体5’-TCA-3’的PAM基序存在 于间隔子的5’末端。另外,核苷酸三联体5’-TTA-3’的PAM基序可能是 第1簇蛋白质的替代性5’PAM;预测核苷酸三联体5’-CCT-3’的PAM基 序是第3簇蛋白质的5’PAM,并且预测核苷酸三联体5’-CCA-3’或 5’-CCT-3’或5’-ACA-3’的PAM基序是第11簇的5’PAM。
对于至少一个与各转座酶相关的经整理重复序列,进行分析以预测 二级结构。所有预测结构都显示在茎的长度方面具有差异的茎环结构, 其中大多数重复序列具有≥5bp的茎长度。作为一实例,图3显示与转座酶(PRT:SEQ ID NO:136;DNA:SEQ ID NO:304)相关的第一和第二 重复序列(SEQ ID NO:2012和2013)的预测二级结构。CRISPR重复序列 的预测二级结构说明重复序列能够形成发夹环结构,从而表明单独重复 序列足以形成有效引导RNA。
转座酶的引导RNA序列可被设计来包含至少一个相关重复序列(R) 和至少一个相关间隔子序列(S),包括但不限于各种组合和各种定向, 诸如R+S、R+S的反义序列、S+R、以及S+R的反义序列。举例来说, 在表10中,一对重复序列和间隔子序列被选作各转座酶的代表,并且 构建并列出潜在引导RNA序列。引导RNA序列也可基于重复序列和间隔子序列的片段来产生。引导RNA序列可被设计来包含至少20个来自 间隔子序列的核苷酸。本领域技术人员将能够使用关于本文公开的转座 酶加以鉴定的CRISPR重复序列和间隔子来设计各种引导RNA。
表10.关于转座酶预测的引导RNA序列。
蛋白质结构域分析
第1簇成员(104个独特蛋白质),包括CRISPR相关转座酶SEQ ID NO:136(DNA:SEQID NO:304),全都具有中心OrfB_IS605(插入元件 605)和C末端OrfB_Zn_带结构域。此外,大多数成员(102个独特蛋白质) 也包含Puf结构域。插入元件(IS)605或TnpB含有隔裂RuvC核酸内切酶 结构域,并且被视为是Cpf1和C2C1蛋白的祖先(Kapitonov,2016)。RuvC 结构域提供这些酶的核酸内切酶活性。含有Zn带结构域的蛋白质被认 为会结合DNA。基于与文献中所述的隔裂RuvC区域的序列比对来分析 CRISPR相关转座酶中RuvC催化结构域的存在。使用CRISPR相关转座 酶SEQ ID NO:136(DNA:SEQ ID NO:304)作为一实例,鉴定了具有保守催化“D”氨基酸(位置233和408)的RuvC I和RuvC III区域以及具有保守 “E”氨基酸(位置354)的RuvC II区域,并且这三个保守残基在图4中指 示。
已报道真核RNA结合蛋白中的Puf结构域(Pumilio家族RNA结合重 复序列)。它们通常但不始终以8个串联重复出现,并且结合至序列特异性8bp RNA结合基序。各Puf结构域与在它之前的短螺旋形成螺旋发 夹(Yin,2013)。各结构域结合至共有结合位点–5’-UGUANAUA-3’中的8个 核苷酸中的一者(Zhang和Muench,2015)。除Pfam分析之外,蛋白质结构 预测软件PSIPRED用于预测螺旋结构以及鉴定额外Puf结构域。对于 CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304),鉴定了七个推定Puf结构域,并且将它们的结构域结构相对于OrfB_IS605和 OrfB_Zn_带结构域以及RuvC活性位点概述于图4中。这个CRISPR相关 转座酶的结构域注释和序列进一步描述于图5中,其中对各Puf结构域 序列加下划线,并且两个Pfam结构域-IS605和Zn带分别用方括号[]和双 方括号[[]]圈起。
因为已知Puf结构域会结合高度保守的共有RNA序列 (5’-UGUANAUA-3’),所以搜索与转座酶(SEQ ID NO:124-246、275-287)相 关的CRISPR重复序列中共有Puf结合基序的存在。如图6中对于 CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)所描绘,在 相关CRISPR重复序列之间进行的序列比对显示与Puf结合基序类似的 高度保守基序。在CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)的情况下观察的共有Puf基序在根据第1簇中的其他成员的重复 序列之间也高度保守。所鉴定的蛋白质结构域结构和推定Puf结合基序 表明CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)是具有 RNA和DNA结合活性的核酸酶。
实施例3
进行高通量测定以确定所鉴定CRISPR相关转座酶是否(a)具有RNA 引导的DNA核酸酶活性,以及(b)鉴定相关PAM基序。这个测定通常可 适用于RNA引导的核酸内切酶(RNA-Guided EndoNuclease,RGEN)蛋白, 其是指(1)包括内切核苷酸活性,以及(2)与能够将RGEN引导至特定 DNA靶标位点以达成酶促活性的非编码RNA物质相关的DNA修饰酶。 除核酸内切酶活性之外,这些酶中的许多可具有其他功能,其包括但不 限于转座酶、拓扑异构酶、重组酶和解离酶。
将包括编码由SEQ ID NO:124-246、275-287表示的CRISPR相关转座 酶和在它的天然基因组环境中相关的RNA物质的DNA序列在内的细菌 基因组目标区域(ROI)克隆至细菌表达质粒中。也构造各RGEN系统的 另一LacZ报道子质粒,其包括在与各个转座酶相关的CRISPR阵列中鉴 定的一个或多个间隔子序列。各LacZ报道子质粒中的一个或多个间隔 子序列在两端由12个核苷酸的随机化序列侧接。LacZ报道子质粒含有低拷贝复制起点和不同于编码CRISPR相关转座酶的质粒的可选择标记 的可选择标记以允许选择共转化体。
将ROI表达质粒和LacZ报道子质粒共转化至大肠杆菌(E.coli)中。 在表达ROI元件(CRISPR相关转座酶和相关引导RNA)后,以及当LacZ 报道子质粒的可变区包括在CRISPR相关转座酶的间隔子的5’或3’的功 能性PAM时,DNA核酸酶活性将在报道子质粒中引入双链断裂(DSB), 从而导致细胞内LacZ报道子质粒拷贝数的降低。报道子质粒的降低通过所得细菌菌落的表型变化来检测。具体来说,在无核酸酶活性的正常 菌落的情况下,菌落是深蓝色的且较大。相比之下,在具有CRISPR相 关转座酶对报道子质粒有活性的菌落的情况下,菌落较小且在颜色方面 是淡蓝色或白色。这个测定设计说明于图7中。这个测定鉴定CRISPR 相关转座酶系统,其中初始核酸内切酶裂解不继之以断裂末端的后续再 连接,因此线性化报道子质粒由细菌内源性核酸酶消除。对于具有额外功能诸如转座酶活性的RNA引导的核酸酶(RGEN),额外突变可在报道 子质粒再连接之前引入,因此,可选择标记和报道子基因可不受影响。 在这些后述情况下,对从存活菌落回收的报道子质粒的高通量测序将揭 示额外突变。
断裂质粒DNA由大肠杆菌中的宿主源性内源性核酸酶消除,此有助于 上述蓝白选择,并且说明于图7中。然而,另一组原核生物,即分支杆菌属 某些种,携带称为非同源性末端接合的不同DNA修复机理,其将以易出错 方式使经切割质粒愈合(图8)。这个机理可用于通过以下方式来鉴定有效 CRISPR相关转座酶系统:通过PCR扩增来检测在靶标位点处的短寡核苷酸 整合或点突变和/或对用表达质粒和报道子质粒共转化的存活分支杆菌菌落的回收报道子质粒测序。这个测定用作蓝白选择测定的替代方案。
实施例4
用包含异源性启动子可操作地连接于编码选自SEQ ID NO: 124–246、275-287的CRISPR相关转座酶中的一者的序列以及编码RNA 引导物的序列的表达载体转化真核细胞,所述RNA引导物包含靶向所 述真核细胞的内源性基因组序列的序列。与引导RNA复合的CRISPR相 关转座酶在靶标位点处裂解基因组DNA,并且通过不当修复来产生插 入缺失突变。通过测序来检测突变。
实施例5
用包含异源性启动子可操作地连接于编码选自SEQ ID NO:124– 246、275-287的CRISPR相关转座酶的序列以及编码RNA引导物的序列 的表达载体转化真核细胞,所述RNA引导物包含靶向所述细胞的内源 性序列的序列。进一步向细胞提供包含外源性转基因或用于模板化编辑 的序列的供体多核苷酸。与引导RNA复合的CRISPR相关转座酶在靶标 位点处裂解基因组DNA,并且供体多核苷酸通过非同源性末端接合或同源性重组来并入。通过对跨越染色体-寡聚物接合部的扩增子测序来 检测整合(例如图10)。
实施例6:体外切割测定
将编码由SEQ ID NO:124-246和275-287编码的CRISPR相关转座酶 蛋白中的一者的序列克隆至细菌表达质粒中,将所述表达质粒转化至大 肠杆菌中,收集细菌,制备细菌裂解物,并且从所述细菌裂解物纯化 酶。将包括与转座酶相关的CRISPR组分的相应基因组目标区域(ROI)克 隆至高拷贝质粒中,将所述质粒转化至大肠杆菌中,并且通过对细菌裂解物进行RNA测序来鉴定在ROI构建体上编码的与目标转座酶相关的 RNA组分。合成这些RNA组分,并且在体外使转座酶蛋白和合成RNA 组分组合,将所得转座酶/RNA复合物添加至携带间隔子序列的合成 DNA片段中,如图9中所示。收集DNA片段以进行测序来确定切割。
实施例7:确定和验证RNA引导的DNA核酸酶的PAM基序
将包括编码由SEQ ID NO:124-246和275-287表示的CRISPR相关转 座酶以及在它的天然基因组环境中与目标转座酶相关的相关CRISPR RNA组分的DNA序列中的一者的细菌基因组目标区域(ROI)克隆至第一 细菌表达质粒中,所述表达质粒包含第一抗生素抗性基因诸如卡那霉素 (kanamycin)抗性(Kan)。构建包含第二抗生素抗性基因例如四环素(tetracycline)或氯霉素(chloramphenicol)抗性基因的第二细菌质粒,以使所述质粒含有在5’和3’均由12bp的随机选择的核苷酸(N)侧接的间隔子。 将两种质粒转化至大肠杆菌中,并且涂铺在以下两种板上:(1)含有具 有单一抗生素以选择第一质粒的培养基;和(2)含有用于针对第一质粒 与第二质粒两者进行选择的抗生素。从在两组板上生长的细菌制备质粒 DNA,对具有侧接N序列的间隔子进行PCR扩增,并且对PCR扩增子 进行深度测序以鉴定从文库消减的序列。对应于消减序列的这些序列对 应于由共转化的相应CRISPR相关转座酶识别的PAM基序。
或者,可凭经验检查CRISPR相关转座酶的PAM偏好,并且通过使 用依赖于随核酸酶-引导RNA复合物而变化对含有随机化PAM的质粒文 库(3’PAM或5’PAM文库)进行体外裂解的方法来确定(Karvelis,2015; Shmakov,2015)。使用在间隔子靶标的上游或下游的由七个随机化核苷 酸组成的合成寡核苷酸(ssDNA)构建随机化PAM质粒文库。例如通过向 体外合成反应提供克林诺酶(Klenow enzyme),使随机化ssDNA寡聚物通 过在体外退火至短引物以及合成第二链而成为双链(dsDNA)。使用任何 标准分子生物学克隆方法,将dsDNA产物装配至线性化pUC19质粒 中。用克隆产物转化大肠杆菌,收集并汇合若干细菌菌落。使用质粒Maxi试剂盒收集质粒DNA。将汇合文库共转化至具有 CRISPR相关转座酶基因座的大肠杆菌中。在转化之后,将细胞涂铺, 并且用抗生素进行选择。在生长16小时之后,收集>4×106个细胞,并 且使用Maxi试剂盒提取质粒DNA。扩增靶标PAM区域,并 且使用Illumina以单端150个循环进行测序。将对应于PAM与 非PAM两者的序列克隆至pUC19载体中。用PAM质粒转化具有包含 CRISPR相关转座酶基因座的质粒或pACYC184对照质粒的感受态大肠 杆菌,并且将其涂铺在补充有氨苄青霉素(ampicillin)和氯霉素的LB琼脂 板上。在18小时之后,用OpenCFU(Geissmann,2013)对菌落计数。
实施例8:使用蓝白选择验证CRISPR相关转座酶的RNA引导的 DNA核酸酶活性
进行表型测定以确定本文鉴定的CRISPR相关转座酶是否具有RNA 引导的DNA核酸酶活性。这个测定的设计基本上如实施例3中所详述。 将包含编码CRISPR相关转座酶SEQID NO:136和在它的天然基因组环 境中相关的CRISPR RNA物质的DNA序列(SEQ ID NO:304)的细菌基因 组目标区域(ROI)(SEQ ID NO:2019)克隆至质粒中。也构造另一‘报道子’质粒,其包含在CRISPR阵列(SEQ ID NO:662)中鉴定的两个间隔子序列 (SEQ ID NO:2017和2018)。一个或多个间隔子在两端由12个可变核苷酸 (在图11中描绘为’NNN’)侧接。报道子构建体具有低拷贝复制起点 (pAcyc184)和不同于包含CRISPR相关转座酶的质粒的可选择标记(卡那 霉素抗性)的可选择标记(氯霉素抗性)以允许选择共转化体。报道子质粒 也携带提供蓝白选择的LacZ盒。将ROI和报道子质粒共转化至大肠杆 菌中。CRISPR相关转座酶的DNA核酸酶活性导致双链断裂(DSB),从 而产生线性化报道子质粒。线性化报道子质粒在大肠杆菌中被完全降 解,此被认为是DNA修复的唯一可能结果。然而,存在导致线性化质粒再环化的替代性DNA修复机理的分子证据正在积累。在不受特定理 论束缚下,这些重排可通过具有同源性的短轨迹(tracks)之间的重组来发 生,如由Wang(2015)所证明。或者,线性质粒与环状质粒之间的短同源性也可导致重组,从而产生嵌合质粒。由对报道子构建体的靶向裂解获 得的这些新变体中的一些将消除报道子基因(LacZ),同时保留氯霉素抗性基因,这将在蓝色菌落的‘海洋’中产生稀疏氯霉素抗性白色菌落。如 图11中所描绘构造两个阴性对照,其中ROI(对照RGEN(-))或报道子区 域(对照报道子(-))不存在于它们的载体骨架中。共转化两种质粒在750 个蓝色菌落之中产生21个白色菌落,而在缺乏包含CRISPR相关转座酶 的ROI或报道子区域的阴性对照中的任一者的情况下未见白色菌落,如表11中所示。这些结果表明CRISPR相关转座酶SEQ ID NO:136使报道 子质粒消除或突变。对于分子分析,从10个白色菌落分离质粒。在(1) 未经受转化的报道子质粒的汇集物中,(2)在从明显未受转座酶影响的2 个蓝色菌落分离的质粒中,以及(3)在从10个白色菌落分离的质粒中, 扩增报道子质粒的包括两个间隔子和它们的侧接可变区的区域(569 bp)。尽管从阴性对照(以上所列的质粒来源1和2)获得具有预期大小的 强烈条带,但在10个白色菌落中的9个中检测到仅微弱条带。这表明对 白色菌落中的报道子质粒的靶向降解。由10个白色菌落中的1个-6号菌 落获得的扩增子在强度方面与对照类似,此表明相应质粒通过保持报道 子区域的替代性机理来修复。对扩增子的测序揭示在阴性对照中无突 变。测序也尝试在所有10个白色菌落中进行,但仅在保留大量报道子 质粒的6号菌落中成功。在6号菌落中的这个质粒的两个间隔子中均鉴 定出了点突变,其可能已来源于不完美DNA修复。所述突变未见于当在转化之前测序时的报道子质粒汇集物中,或经受转化但可能由于可变PAM区域中的不相容性而明显未受转座酶影响的随机选择的蓝色菌落 中。
表11.用于蓝白选择测定的测试的CRISPR相关转座酶SEQ ID NO: 136。
实施例9:使用2质粒或3质粒选择系统验证RNA引导的核酸内 切酶活性
细菌选择系统先前被开发以通过使DNA裂解事件与细胞存活相关 联来研究归巢核酸内切酶的性质(Chen和Zhao,2005)。Chen和Zhao的2 质粒系统由‘报道子质粒’(p11-LacY-wtx1)和诱导型蛋白质表达载体 (pTrc-I-SceI)组成。这个系统已用于使FokI核酸酶结构域的体内切割效 率和特异性增加(Guo,2010)。它也已用于改变RNA引导的核酸内切酶Cas9的PAM特异性(Kleinstiver,2015)。该测定可被修改成使RNA引导的 核酸内切酶DNA裂解与宿主细胞的存活联结的高度灵敏性选择系统。 构造三种质粒–pNuc-I-SceI、pCut-I-SceI和pGuide以实现2-质粒(pNuc和 pCut)选择系统,或更灵活的3-质粒选择系统。蛋白质表达载体pNuc-I-SceI使用强力P-tac启动子。另一改进是在pNuc-I-SceI骨架中并入 lacI基因(lac阻遏物),以使质粒可在非lacIq宿主中起良好作用。 pNuc-I-SceI源于pACYC-Duet1质粒(Novagen),并且具有P15a-ori和氯霉 素(Cm)抗性基因。pNuc似乎在大肠杆菌中在无毒低水平下以足以切割 具有I-SceI限制位点的质粒的量表达I-SceI兆核酸酶。pNuc-I-SceI具有独 特NdeI和NotI位点,其允许用其他基因或操纵子对I-SceI编码区进行容 易替换。用BamHI和NotI切割质粒允许克隆含有多个ORF、CRISPR基 因座或其他序列的1-9kb基因组区域,其中蛋白质从ORF的表达将起源于天然启动子等。
报道子质粒pCut-I-SceI含有在处于良好调控的P-ara表达单元之后的 高度毒性的ccdB基因,其在它的未诱导状态下在使得含有pCut的细胞 是健康的低水平下表达ccdB水平。pCut-I-SceI含有赋予羧苄青霉素 (carbenicillin)抗性的盒。将0.2%阿拉伯糖添加至生长培养基中会诱导 ccdB表达达到导致对携带质粒的细胞的3-4个对数杀灭的水平。pCut-I-SceI也含有紧靠ccdB基因的下游的‘切割位点’。在pCut-I-SceI 中,‘切割位点’是含有I-SceI兆核酸酶的18bp识别序列的约50bp序 列。侧接于切割位点的区域含有允许序列被其他所需序列替换的独特限 制位点,所述其他所需序列诸如含有简并核苷酸(即N=A或C或G或T) 的切割位点序列文库。表达在它的‘切割位点’中切割pCut的核酸内切酶 会解除对在阿拉伯糖的情况下生长的敏感性归因于pCut的快速体内降 解和丧失阿拉伯糖诱导型ccdB基因。该系统可被精细调谐以选择核酸 内切酶的识别序列变体即‘动力学变体’(Guo,2010),或研究DNA裂解的 体内最佳温度。
当制备含有pCut-I-SceI的感受态BW25141大肠杆菌并用pNuc-I-SceI 转化,以及用(空)pACYC-Duet1并行转化,并且使其恢复约2.5小时时, 在无抗生素下,在添加或不添加IPTG(以进一步诱导I-SceI从P-tac启动 子表达)下,可将细胞的等分试样涂铺在LB+25ug/ml氯霉素(Cm)琼脂板 上(以确定pNuc构建体的转化效率)以及LB+25ug/ml Cm +0.2%阿拉伯 糖板上。视大肠杆菌的稀释度和感受性而定,相较于在LB+25ug/ml Cm板上的>1000cfu,用(空)pACYC-Duet1转化的大肠杆菌在LB+25 ug/ml Cm+0.2%阿拉伯糖板上产生0-1个菌落形成单位(cfu)。相比之下, 相较于在LB+Cm板上的>500cfu,用pNuc-I-SceI转化的大肠杆菌在LB +Cm+阿拉伯糖板上产生30至>100cfu。与pNuc类似的质粒已由其他人用于共表达RNA引导的核酸内切酶以及它们的引导RNA或CRISPR基 因座(Zetsche,2015)。这个系统的使用单独第三质粒pGuide来共表达引导 RNA的修改形式使选择系统的灵活性增加。选择含有CDF-ori和壮观霉 素-r基因的pCDF-Duet1骨架(Novagen),并且将合成DNAJ23119(由 Zetsche 2015使用的合成组成型大肠杆菌启动子)插入约2.2kB pCDF骨架 中以创建pGuide质粒。将与目标CRISPR相关转座酶例如CRISPR相关 转座酶SEQ ID NO:136(DNA:SEQ ID NO:304)相关的引导RNA插入 pCDF骨架中以创建pGuide-转座酶质粒。
2-质粒和3-质粒系统用于确定选自SEQ ID NO:124-246和275-287的 CRISPR相关转座酶蛋白的RNA引导的核酸酶活性。使用CRISPR相关 转座酶SEQ ID NO:136作为一实例,将转座酶编码区(SEQ ID NO:304)替 代I-SceI组分来克隆至pNuc-I-SceI质粒中以创建pNuc-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒。将RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)‘切割位点’(在两端由8个可变核苷酸侧接的两个 间隔子SEQ IDNO:2017和2018)替代I-SceI切割位点来克隆至pCut-I-SceI 质粒中以创建pCut-RGENPRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质 粒。通过将非RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)‘切割位点’(例如Cas9切割位点)并入pCut-I-SceI质粒中来产生pCut对照质 粒。
在上述2-质粒测定中,用pCut-RGEN PRT:SEQ ID NO:136(DNA: SEQ ID NO:304)质粒测试pNuc-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒以确定为RNA引导的核酸酶活性所需的最小基因组片 段。可用pCut-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒和 pGuide质粒进一步测试pNUC-RGEN PRT:SEQ ID NO:136(DNA:SEQ ID NO:304)质粒以确定相关CRISPR基因座是否为CRISPR相关转座酶的核 酸酶活性所需。pCut对照质粒用于证明CRISPR相关转座酶介导的裂解的特异性。
实施例10:片段长度测定
这个实施例描述用于高通量检测选自SEQ ID NO:124-246和275-287 的CRISPR相关转座酶蛋白的靶向核酸内切酶活性的体外测定。使携带 伴有或不伴有引导RNA(或整个CRISPR基因座)的CRISPR相关转座酶 的表达载体的大肠杆菌细胞裂解以制备全细胞裂解物,基本上如实施例 6中所述。将携带CRISPR相关转座酶的预测靶标位点的荧光末端标记PCR扩增子添加至裂解物中,并且在孵育之后,裂解物中存在的 CRISPR相关转座酶裂解荧光末端标记的PCR扩增子。荧光片段可通过 高通量DNA长度分析(例如在ABI3700仪器(Lifetechnologies)上)来检测和 确定大小以确定DNA切割的程度和切割位点在DNA片段中的位置。
实施例11:RNA结合测定
这个实施例描述用于评估选自SEQ ID NO:124-246和275-287的转座 酶蛋白是否与源于它的相关CRISPR阵列的引导RNA序列缔合的测定。 这个测定中采用的技术是AlphaScreen(Perkin Elmer)。这个测定系统使用 供体珠粒和受体珠粒,其在紧密邻近时发射可检测荧光信号。在这个测 定中,使用体外转录制备若干引导RNA。使这些引导RNA序列通过接 头序列(SEQ ID NO:3382)连接于侧接序列(侧接物1:SEQ ID NO:3380;侧接物2:SEQ IDNO:3381)(图10)。核苷酸序列(侧接物2)结合至附接有 Alpha链霉亲和素(Streptavidin)供体珠粒的寡聚物。在大肠杆菌中表达具 有His标签的CRISPR相关转座酶,所述His标签充当Alpha受体珠粒的 结合位点。作为图12中说明的一实例,当CRISPR相关转座酶SEQ IDNO:136(与受体珠粒一起)结合至它的预测引导RNA(与供体珠粒一起) 时,产生可检测荧光信号。对于这个实验,在IPTG诱导型大肠杆菌菌 株中表达CRISPR相关转座酶SEQ ID NO:136(DNA:SEQ ID NO:304),并且将裂解物应用于测定以寻找信号。为首先验证这个测定,使纯化的 His-Cas9与它的gRNA(SEQ ID NO:3383)混合。如果该测定在这些条件下 起作用,那么将它用含有所表达的His-Cas9的细菌裂解物进一步测试以 更密切模拟RGEN CRISPR相关转座酶实验的条件。如果从Cas9裂解物 测量到可检测信号,那么将该测定相对于其相应的引导RNA来应用于 CRISPR相关转座酶裂解物。使用表8中对于SEQ ID NO:136公开的CRISPR重复序列和间隔子,许多推定引导RNA序列(SEQ ID NO: 3384–3402)被设计来在CRISPR相关转座酶SEQ ID NO:136的结合测定中 加以测试。在这些引导RNA之中,通过将突变引入这两个引导RNA中 包含的天然CRISPR重复序列和间隔子序列中来将这两条序列(SEQ ID NO:3401和3402)设计成阴性对照。
实施例12:使用CRISPR相关转座酶在植物中进行基因组编辑
测试由SEQ ID NO:124-246和275-287表示的CRISPR相关转座酶对 植物中的基因组DNA的位点特异性裂解。为证明这个活性,创建载体 以表达转座酶蛋白和相关引导RNA。举例来说,创建载体以表达 CRISPR相关转座酶蛋白SEQ ID NO:136和它的相关引导RNA。由SEQ ID NO:124-246和275-287表示的CRISPR相关转座酶的针对玉米和大豆 加以密码子优化的开放阅读框列于表12中。启动子诸如玉米泛素2启动 子用于驱动CRISPR相关转座酶在植物中的表达。将核定位信号(例如单 分型SV40)添加至CRISPR相关转座酶的N末端,并且将双分型核质蛋白核定位信号(BiNLS)包括在C末端以有助于核定位。为验证所用核定 位信号的有效性,用转座酶-GFP融合蛋白构建体转化玉米原生质体, 并且观察到核定位荧光。玉米U6 snRNA启动子可用于在玉米中产生 sgRNA(以引用的方式并入本文的WO2015131101;Zhu,2016)。如实施例 7中所述鉴定CRISPR相关转座酶的PAM序列,并且由CRISPR相关转 座酶识别的原间隔子序列可用于使用由Zhu(2016)所述的途径,以最少脱靶切割来鉴定玉米基因组内的sgRNA特异性靶标位点。出于在玉米 中进行靶向基因破坏的目的,位于前两个外显子中的靶标位点是良好候 选者,因为在编码序列开始时发生的突变更可能破坏蛋白质的功能。
为测试CRISPR相关转座酶用于玉米内源性基因编辑的活性,进行 原生质体短暂测定以检测工程化的CRISPR-转座酶系统的功能。为增加 转化效率,产生具有sgRNA表达盒与转座酶表达盒两者的二元质粒, 接着转化至玉米原生质体中。从培养24小时的经转化原生质体提取基因组DNA并制备涵盖靶标位点的扩增子以进行测序(例如Illumina深度测序),并且可观察靶向基因组编辑。
表12.CRISPR相关转座酶的针对玉米和大豆加以密码子优化的开放 阅读框。
为测试CRISPR相关转座酶在稳定表达株系中的突变效率,选择在 玉米短暂测定中验证的靶标位点。接着通过根癌土壤杆菌来将具有 sgRNA和所选靶标位点以及转座酶的一个或多个构建体转化至玉米不成熟胚胎中。分析T0转基因株系,并且基于免疫印迹分析来鉴定转座酶阳 性株系。SURVEYOR测定可用于确定编辑是否被引入靶标位点中(Zhu,2016)。为详细分析编辑效率和由CRISPR相关转座酶引入的突变类型, 可对转座酶阳性T0代植物的涵盖靶标位点的PCR扩增子进行深度测序。 如上在这个实施例中所述的实验设计和测定也可适合于对CRISPR相关 转座酶进行编程和测试以达成在大豆、小麦、卡诺拉油菜、棉花、番茄 或其他植物和蔬菜中的基因组编辑。

Claims (48)

1.一种重组核酸,其包含可操作地连接于编码由SEQ ID NO:220的氨基酸序列组成的CRISPR相关转座酶的多核苷酸的异源性启动子。
2.如权利要求1所述的重组核酸,其中所述CRISPR相关转座酶由与选自由SEQ ID NO:97、594、2500-2504和3180-3184组成的组的序列具有至少90%同一性的核苷酸序列编码。
3.如权利要求1所述的重组核酸,其进一步包含至少一个编码能够与靶标序列杂交的引导RNA的多核苷酸,其中所述引导RNA与所述CRISPR相关转座酶形成复合物。
4.如权利要求3所述的重组核酸,其中所述至少一个编码引导RNA的多核苷酸可操作地连接于第二启动子。
5.如权利要求1所述的重组核酸,其进一步包含至少一个编码供体多核苷酸的多核苷酸。
6.如权利要求5所述的重组核酸,其中所述至少一个编码供体多核苷酸的多核苷酸可操作地连接于第二启动子。
7.如权利要求1所述的重组核酸,其中编码所述CRISPR相关转座酶的所述多核苷酸进一步编码至少一个核定位信号(NLS)。
8.一种载体,其包含如权利要求1-7中任一项所述的重组核酸。
9.一种不可再生的真核细胞,其包含如权利要求1-7中任一项所述的重组核酸。
10.一种用于对靶标核酸序列进行序列特异性修饰的非天然存在的系统,其包含(a)一个或多个引导RNA或编码所述一个或多个引导RNA的DNA分子,其中所述一个或多个引导RNA能够与所述靶标核酸序列杂交,和(b)由SEQ ID NO:220的氨基酸序列组成的CRISPR相关转座酶或编码所述CRISPR相关转座酶的多核苷酸,其中所述一个或多个引导RNA和所述CRISPR相关转座酶不一起天然存在。
11.如权利要求10所述的系统,其中编码所述CRISPR相关转座酶的所述多核苷酸包含与选自由SEQ ID NO:97、594、2500-2504和3180-3184组成的组的核苷酸序列具有至少90%同一性的核苷酸序列。
12.如权利要求10所述的系统,其中所述靶标核酸序列包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
13.如权利要求10所述的系统,其中所述靶标核酸序列包含内源性基因或转基因。
14.如权利要求10所述的系统,其中所述系统包含二价阳离子。
15.如权利要求10所述的系统,其中(a)所述引导RNA或编码所述引导RNA的DNA分子提供在第一核酸分子上,并且编码所述CRISPR相关转座酶的所述多核苷酸提供在第二核酸分子上,或(b)所述引导RNA或编码引导RNA的DNA分子和编码所述CRISPR相关转座酶的所述多核苷酸提供在单一核酸分子上。
16.如权利要求10所述的系统,其中所述引导RNA呈经分离的RNA的形式,或在载体中编码,并且其中所述载体是病毒载体、质粒载体或土壤杆菌属载体。
17.如权利要求10所述的系统,其进一步包含供体多核苷酸。
18.如权利要求17所述的系统,其中所述供体多核苷酸包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
19.如权利要求17所述的系统,其中所述供体多核苷酸包含启动子。
20.如权利要求17所述的系统,其中所述供体多核苷酸包含一个或多个转基因。
21.如权利要求10所述的系统,其中所述CRISPR相关转座酶包含一个或多个核定位信号。
22.如权利要求10所述的系统,其中所述靶标序列在细胞内。
23.如权利要求22所述的系统,其中所述细胞是真核细胞。
24.如权利要求23所述的系统,其中所述真核细胞是植物细胞。
25.一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向包含所述靶标核酸序列的细胞提供如权利要求10-24中任一项所述的系统,条件是所述方法不包括治疗人体或动物体中疾病的方法。
26.一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向包含所述靶标核酸序列的细胞提供如权利要求10-24中任一项所述的系统,其中所述细胞为植物细胞。
27.如权利要求25所述的方法,其中所述细胞是植物细胞。
28.一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向所述细胞提供由SEQ ID NO:220的氨基酸序列组成的CRISPR相关转座酶,借此所述靶标核酸序列被修饰,条件是所述方法不包括治疗人体或动物体中疾病的方法。
29.一种用于对细胞中的靶标核酸序列进行序列特异性修饰的方法,其包括向所述细胞提供由SEQ ID NO:220的氨基酸序列组成的CRISPR相关转座酶,借此所述靶标核酸序列被修饰,其中所述细胞为植物细胞。
30.如权利要求28或29所述的方法,其进一步包括能够与所述CRISPR相关转座酶缔合以及与所述靶标核酸序列杂交的引导RNA。
31.如权利要求30所述的方法,其中:
(a)所述引导RNA通过在所述细胞中表达编码所述引导RNA的重组DNA分子来提供;
(b)所述CRISPR相关转座酶通过在所述细胞中表达编码所述CRISPR相关转座酶的重组DNA分子来提供;或
(c)(a)与(b)两者。
32.如权利要求30所述的方法,其中:
(a)所述引导RNA通过使所述细胞与包含所述引导RNA或编码所述引导RNA的重组DNA分子的组合物接触来提供;
(b)所述CRISPR相关转座酶通过使所述细胞与包含所述CRISPR相关转座酶或编码所述CRISPR相关转座酶的重组DNA分子的组合物接触来提供;或
(c)使所述CRISPR相关转座酶与所述引导RNA复合,以粒子形式向所述细胞提供。
33.如权利要求28或29所述的方法,其中所述CRISPR相关转座酶包含一个或多个核定位信号。
34.如权利要求31或32所述的方法,其中编码所述CRISPR相关转座酶的所述重组DNA分子包含与选自由SEQ ID NO:97、594、2500-2504和3180-3184组成的组的核苷酸序列具有至少90%同一性的核苷酸序列。
35.如权利要求28或29所述的方法,其中所述靶标核酸序列包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
36.如权利要求28或29的方法,其中所述靶标核酸序列包含(a)所述细胞或所述细胞中的细胞器的内源性核基因;或(b)所述细胞的内源性细胞器基因;或(c)所述细胞的转基因。
37.如权利要求28或29所述的方法,其进一步包括向所述细胞提供供体多核苷酸。
38.如权利要求37所述的方法,其中所述供体多核苷酸包含编码核酸序列、非编码核酸序列、或编码核酸序列和非编码核酸序列的组合。
39.如权利要求37所述的方法,其中所述供体多核苷酸包含启动子。
40.如权利要求28所述的方法,其中所述细胞是真核细胞。
41.如权利要求40所述的方法,其中所述真核细胞是植物细胞或动物细胞。
42.一种选择性调节真核细胞中的至少一个靶标DNA的转录的方法,其包括使所述真核细胞与以下各物接触:
(a)引导RNA或编码所述引导RNA的DNA,其中所述引导RNA进一步包含:
(i)第一区段,其包含互补于所述靶标DNA的核苷酸序列;
(ii)第二区段,其与CRISPR相关转座酶相互作用;和
(b)由SEQ ID NO:220的氨基酸序列组成的CRISPR相关转座酶或编码所述CRISPR相关转座酶的DNA,
其中所述引导RNA和所述CRISPR相关转座酶在所述真核细胞中形成复合物,并且其中所述复合物选择性调节所述靶标DNA的转录,条件是所述方法不包括治疗人体或动物体中疾病的方法。
43.一种选择性调节真核细胞中的至少一个靶标DNA的转录的方法,其包括使所述真核细胞与以下各物接触:
(a)引导RNA或编码所述引导RNA的DNA,其中所述引导RNA进一步包含:
(i)第一区段,其包含互补于所述靶标DNA的核苷酸序列;
(ii)第二区段,其与CRISPR相关转座酶相互作用;和
(b)由SEQ ID NO:220的氨基酸序列组成的CRISPR相关转座酶或编码所述CRISPR相关转座酶的DNA,
其中所述引导RNA和所述CRISPR相关转座酶在所述真核细胞中形成复合物,并且其中所述复合物选择性调节所述靶标DNA的转录,其中所述细胞为植物细胞。
44.如权利要求42所述的方法,其中所述真核细胞是动物细胞或植物细胞。
45.如权利要求42或43所述的方法,其中所述靶标DNA是启动子。
46.如权利要求42或43所述的方法,其中所述靶标DNA是编码核酸序列。
47.如权利要求42或43所述的方法,其中所述引导RNA或编码引导RNA的所述DNA是单链引导RNA。
48.如权利要求42或43所述的方法,其中所述靶标DNA选自由核靶标DNA、线粒体靶标DNA和质体靶标DNA组成的组。
CN202210458124.9A 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途 Active CN115216459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210458124.9A CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562272441P 2015-12-29 2015-12-29
US62/272,441 2015-12-29
CN201680079306.8A CN108738326B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN202210458124.9A CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
PCT/US2016/069221 WO2017117395A1 (en) 2015-12-29 2016-12-29 Novel crispr-associated transposases and uses thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201680079306.8A Division CN108738326B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Publications (2)

Publication Number Publication Date
CN115216459A CN115216459A (zh) 2022-10-21
CN115216459B true CN115216459B (zh) 2024-06-28

Family

ID=59225716

Family Applications (4)

Application Number Title Priority Date Filing Date
CN202210458124.9A Active CN115216459B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN202410460230.XA Pending CN118374474A (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN202410460581.0A Pending CN118374475A (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN201680079306.8A Active CN108738326B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN202410460230.XA Pending CN118374474A (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN202410460581.0A Pending CN118374475A (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途
CN201680079306.8A Active CN108738326B (zh) 2015-12-29 2016-12-29 新型crispr相关转座酶及其用途

Country Status (6)

Country Link
US (2) US10995327B2 (zh)
EP (4) EP4159848A1 (zh)
CN (4) CN115216459B (zh)
AU (2) AU2016380351B2 (zh)
CA (1) CA3009190A1 (zh)
WO (1) WO2017117395A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013066438A2 (en) 2011-07-22 2013-05-10 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
EP3177718B1 (en) 2014-07-30 2022-03-16 President and Fellows of Harvard College Cas9 proteins including ligand-dependent inteins
EP3365356B1 (en) 2015-10-23 2023-06-28 President and Fellows of Harvard College Nucleobase editors and uses thereof
CN115216459B (zh) * 2015-12-29 2024-06-28 孟山都技术公司 新型crispr相关转座酶及其用途
CN110214183A (zh) 2016-08-03 2019-09-06 哈佛大学的校长及成员们 腺苷核碱基编辑器及其用途
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
CA3039928A1 (en) 2016-10-14 2018-04-19 President And Fellows Of Harvard College Aav delivery of nucleobase editors
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
CN110914310A (zh) 2017-03-10 2020-03-24 哈佛大学的校长及成员们 胞嘧啶至鸟嘌呤碱基编辑器
IL269458B2 (en) 2017-03-23 2024-02-01 Harvard College Nucleic base editors that include nucleic acid programmable DNA binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
EP3676376A2 (en) 2017-08-30 2020-07-08 President and Fellows of Harvard College High efficiency base editors comprising gam
WO2019079347A1 (en) 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE
EP3704237A1 (en) * 2017-11-02 2020-09-09 Arbor Biotechnologies, Inc. Novel crispr-associated transposon systems and components
EP3714055A1 (en) 2017-11-21 2020-09-30 CRISPR Therapeutics AG Materials and methods for treatment of autosomal dominant retinitis pigmentosa
EP3755792A4 (en) 2018-02-23 2021-12-08 Pioneer Hi-Bred International, Inc. NEW CAS9 ORTHOLOGIST
WO2020098772A1 (zh) * 2018-11-15 2020-05-22 中国农业大学 CRISPR-Cas12j酶和系统
CN113166744A (zh) 2018-12-14 2021-07-23 先锋国际良种公司 用于基因组编辑的新颖crispr-cas系统
CN109852635A (zh) * 2019-03-01 2019-06-07 安徽华明太合生物工程有限公司 一种快速检测基因编辑有效性的方法
JP2022522650A (ja) * 2019-03-07 2022-04-20 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Crispr-casエフェクターポリペプチド及びその使用方法
AU2020231380A1 (en) * 2019-03-07 2021-09-23 The Regents Of The University Of California CRISPR-Cas effector polypeptides and methods of use thereof
AU2020232850A1 (en) * 2019-03-07 2021-10-07 The Trustees Of Columbia University In The City Of New York RNA-guided DNA integration using Tn7-like transposons
WO2020191248A1 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Method and compositions for editing nucleotide sequences
CN110066852B (zh) * 2019-05-29 2022-07-22 复旦大学 一种在哺乳动物细胞中检测CRISPR/Cas PAM序列的方法和系统
AU2020325199A1 (en) * 2019-08-07 2022-03-03 Monsanto Technology Llc Cast-mediated DNA targeting in plants
US20230203463A1 (en) * 2019-12-30 2023-06-29 LifeEDIT Therapeutics, Inc. Rna-guided nucleases and active fragments and variants thereof and methods of use
US20230091690A1 (en) * 2019-12-30 2023-03-23 The Broad Institute, Inc. Guided excision-transposition systems
WO2021142109A1 (en) * 2020-01-07 2021-07-15 The Trustees Of Columbia University In The City Of New York Transposition-based diagnostics methods and devices
CN113249400A (zh) * 2020-02-10 2021-08-13 中国科学院分子植物科学卓越创新中心 一种在细菌染色体中快速多拷贝整合目的基因的方法
JP2023515116A (ja) * 2020-02-24 2023-04-12 パイオニア ハイ-ブレッド インターナショナル, インコーポレイテッド ゲノム編集のための新規なcrispr-casシステム
WO2021226558A1 (en) 2020-05-08 2021-11-11 The Broad Institute, Inc. Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
AU2021338707A1 (en) 2020-09-10 2023-04-06 Monsanto Technology Llc Increasing gene editing and site-directed integration events utilizing meiotic and germline promoters
EP4263799A1 (en) 2020-12-17 2023-10-25 Basf Se Spore compositions, production and uses thereof
WO2023122805A1 (en) 2021-12-20 2023-06-29 Vestaron Corporation Sorbitol driven selection pressure method
WO2023118068A1 (en) 2021-12-23 2023-06-29 Bayer Aktiengesellschaft Novel small type v rna programmable endonuclease systems
WO2023237587A1 (en) 2022-06-10 2023-12-14 Bayer Aktiengesellschaft Novel small type v rna programmable endonuclease systems
WO2024026406A2 (en) 2022-07-29 2024-02-01 Vestaron Corporation Next Generation ACTX Peptides
CN116355878B (zh) * 2023-02-28 2024-04-26 华中农业大学 新型TnpB编程性核酸酶及其应用
WO2024192291A1 (en) 2023-03-15 2024-09-19 Renagade Therapeutics Management Inc. Delivery of gene editing systems and methods of use thereof
EP4438716A1 (en) 2023-03-28 2024-10-02 Basf Se Improving microbial activity

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5352605A (en) 1983-01-17 1994-10-04 Monsanto Company Chimeric genes for transforming plant cells using viral promoters
US5359142A (en) 1987-01-13 1994-10-25 Monsanto Company Method for enhanced expression of a protein
US5322938A (en) 1987-01-13 1994-06-21 Monsanto Company DNA sequence for enhancing the efficiency of transcription
US5703055A (en) 1989-03-21 1997-12-30 Wisconsin Alumni Research Foundation Generation of antibodies through lipid mediated DNA delivery
US5106739A (en) 1989-04-18 1992-04-21 Calgene, Inc. CaMv 355 enhanced mannopine synthase promoter and method for using same
US6051753A (en) 1989-09-07 2000-04-18 Calgene, Inc. Figwort mosaic virus promoter and uses
DK0426641T3 (da) 1989-10-31 2000-10-23 Monsanto Co Promotor til transgene planter
US5641876A (en) 1990-01-05 1997-06-24 Cornell Research Foundation, Inc. Rice actin gene and promoter
US5837848A (en) 1990-03-16 1998-11-17 Zeneca Limited Root-specific promoter
US5593972A (en) 1993-01-26 1997-01-14 The Wistar Institute Genetic immunization
US5850019A (en) 1996-08-06 1998-12-15 University Of Kentucky Research Foundation Promoter (FLt) for the full-length transcript of peanut chlorotic streak caulimovirus (PCLSV) and expression of chimeric genes in plants
JPH11514534A (ja) 1996-09-05 1999-12-14 ユニリーバー・ナームローゼ・ベンノートシヤープ 乳酸菌から誘導される塩誘発プロモーターおよび所望のタンパク質産生のための乳酸菌でのその使用
BR9807488A (pt) 1997-01-20 2000-03-21 Plant Genetic Systems Nv Promotores de planta induzidos por agentes patogênicos.
US5922564A (en) 1997-02-24 1999-07-13 Performance Plants, Inc. Phosphate-deficiency inducible promoter
ZA991528B (en) 1998-02-26 1999-08-31 Pioneer Hi Bred Int Constitutive maize promoters.
EP1056862A1 (en) 1998-02-26 2000-12-06 Pioneer Hi-Bred International, Inc. Family of maize pr-1 genes and promoters
US6635806B1 (en) 1998-05-14 2003-10-21 Dekalb Genetics Corporation Methods and compositions for expression of transgenes in plants
US6307123B1 (en) 1998-05-18 2001-10-23 Dekalb Genetics Corporation Methods and compositions for transgene identification
JP2000083680A (ja) 1998-07-16 2000-03-28 Nippon Paper Industries Co Ltd 光誘導型プロモ―タ―の制御下に置かれた不定芽再分化遺伝子を選抜マ―カ―遺伝子とする植物への遺伝子導入方法及びこれに用いる植物への遺伝子導入用ベクタ―
US6194636B1 (en) 1999-05-14 2001-02-27 Dekalb Genetics Corp. Maize RS324 promoter and methods for use thereof
US6232526B1 (en) 1999-05-14 2001-05-15 Dekalb Genetics Corp. Maize A3 promoter and methods for use thereof
US6429357B1 (en) 1999-05-14 2002-08-06 Dekalb Genetics Corp. Rice actin 2 promoter and intron and methods for use thereof
US6207879B1 (en) 1999-05-14 2001-03-27 Dekalb Genetics Corporation Maize RS81 promoter and methods for use thereof
US7151204B2 (en) 2001-01-09 2006-12-19 Monsanto Technology Llc Maize chloroplast aldolase promoter compositions and methods for use thereof
CA2790211C (en) 2010-03-08 2020-06-09 Monsanto Technology Llc Methods and compositions for delivering polynucleotides into plants
US11414695B2 (en) 2013-05-29 2022-08-16 Agilent Technologies, Inc. Nucleic acid enrichment using Cas9
KR20160128306A (ko) 2014-01-14 2016-11-07 램 테라퓨틱스, 인코포레이티드 돌연변이유발 방법
US11186843B2 (en) 2014-02-27 2021-11-30 Monsanto Technology Llc Compositions and methods for site directed genomic modification
JP2017512500A (ja) * 2014-03-25 2017-05-25 ギンゴー バイオワークス, インコーポレイテッド 細胞工学のための方法および遺伝システム
WO2016196738A1 (en) 2015-06-02 2016-12-08 Monsanto Technology Llc Compositions and methods for delivery of a polynucleotide into a plant
US10655136B2 (en) 2015-06-03 2020-05-19 Monsanto Technology Llc Methods and compositions for introducing nucleic acids into plants
WO2016197355A1 (zh) * 2015-06-11 2016-12-15 深圳市第二人民医院 CRISPR-Cas9特异性敲除猪SALL1基因的方法及用于特异性靶向SALL1基因的sgRNA
US9790490B2 (en) 2015-06-18 2017-10-17 The Broad Institute Inc. CRISPR enzymes and systems
CN105331607A (zh) * 2015-10-19 2016-02-17 芜湖医诺生物技术有限公司 嗜热链球菌CRISPR-Cas9系统识别的人CCR5基因的靶序列和sgRNA及其应用
CN115216459B (zh) * 2015-12-29 2024-06-28 孟山都技术公司 新型crispr相关转座酶及其用途

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Classification and evolution of type II CRISPR-cas systems;KRZYSZTOF CHYLINSKI等;Nucleic Acids Research;第6091-6105页 *
CRISPR Recognition tool(CRT):a tool for automatic detection of clustered regularly interspaced palindromic repeats;BLAND CHARLES等;BMC Bioinformatics;第209号文章 *
The role of CRISPR-cas systems in virulence of pathogenic bacteria;R.LOUWEN等;MICROBIOLOGY AND MOLECULAR BIOLOGY;第74-88页 *

Also Published As

Publication number Publication date
CN108738326B (zh) 2022-05-06
CN108738326A (zh) 2018-11-02
US20210380956A1 (en) 2021-12-09
EP4159847A1 (en) 2023-04-05
EP3397757A4 (en) 2019-08-28
EP3397757A1 (en) 2018-11-07
CN115216459A (zh) 2022-10-21
EP4159849A1 (en) 2023-04-05
AU2016380351A1 (en) 2018-07-05
US10995327B2 (en) 2021-05-04
US12006521B2 (en) 2024-06-11
US20190093090A1 (en) 2019-03-28
EP4159848A1 (en) 2023-04-05
CN118374475A (zh) 2024-07-23
WO2017117395A1 (en) 2017-07-06
AU2016380351B2 (en) 2023-04-06
CN118374474A (zh) 2024-07-23
AU2023204276A1 (en) 2023-07-27
CA3009190A1 (en) 2017-07-06

Similar Documents

Publication Publication Date Title
CN115216459B (zh) 新型crispr相关转座酶及其用途
US20230340441A1 (en) Novel rna-guided dna nucleases and uses thereof
Songstad et al. Genome editing of plants
Zhang et al. Simultaneous editing of two copies of Gh14-3-3d confers enhanced transgene-clean plant defense against Verticillium dahliae in allotetraploid upland cotton
Svitashev et al. Targeted mutagenesis, precise gene editing, and site-specific gene insertion in maize using Cas9 and guide RNA
US11767536B2 (en) Method for obtaining glyphosate-resistant rice by site-directed nucleotide substitution
Huang et al. Efficient gene targeting in Nicotiana tabacum using CRISPR/SaCas9 and temperature tolerant LbCas12a
JP7239266B2 (ja) 一過性遺伝子発現により植物を正確に改変するための方法
CN113795587A (zh) 使用Tn7样转座子进行RNA引导的DNA整合
Sufyan et al. An overview of genome engineering in plants, including its scope, technologies, progress and grand challenges
JP2022511508A (ja) ゲノム編集による遺伝子サイレンシング
US20220356484A1 (en) Genetic modification of plants
Neumann et al. Genetic problems and gene technology
EP4431601A1 (en) Method for producing a gene knock-out by targeted insertion of stop codons
SILVA et al. Genome editing by CRISPR/Cas via homologous recombination.
Fajer et al. Genome engineering in tobacco
EP3728587A1 (en) Targeted insertion sites in the maize genome
Tjahjadi Characterization of SOG1-dependent transcription factors and Creation of a SOG1 knockout

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant