[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115812105A - 用于生产外源蛋白的修饰的丝状真菌 - Google Patents

用于生产外源蛋白的修饰的丝状真菌 Download PDF

Info

Publication number
CN115812105A
CN115812105A CN202180049398.6A CN202180049398A CN115812105A CN 115812105 A CN115812105 A CN 115812105A CN 202180049398 A CN202180049398 A CN 202180049398A CN 115812105 A CN115812105 A CN 115812105A
Authority
CN
China
Prior art keywords
ala
gly
leu
ser
val
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180049398.6A
Other languages
English (en)
Inventor
M·韦迪凯南
A·于斯科南
A·科瓦查克
C·兰道斯基
R·切莱特
M·A·艾玛法布
M·萨洛埃莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Erjin International Co ltd
Original Assignee
Erjin International Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Erjin International Co ltd filed Critical Erjin International Co ltd
Publication of CN115812105A publication Critical patent/CN115812105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N1/00Microorganisms, e.g. protozoa; Compositions thereof; Processes of propagating, maintaining or preserving microorganisms or compositions thereof; Processes of preparing or isolating a composition containing a microorganism; Culture media therefor
    • C12N1/14Fungi; Culture media therefor
    • C12N1/145Fungal isolates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/12Viral antigens
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/005Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from viruses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/745Blood coagulation or fibrinolysis factors
    • C07K14/75Fibrinogen
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K16/00Immunoglobulins [IGs], e.g. monoclonal or polyclonal antibodies
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/48Hydrolases (3) acting on peptide bonds (3.4)
    • C12N9/50Proteinases, e.g. Endopeptidases (3.4.21-3.4.25)
    • C12N9/58Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from fungi
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/48Hydrolases (3) acting on peptide bonds (3.4)
    • C12N9/50Proteinases, e.g. Endopeptidases (3.4.21-3.4.25)
    • C12N9/64Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from animal tissue
    • C12N9/6421Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from animal tissue from mammals
    • C12N9/6424Serine endopeptidases (3.4.21)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/48Hydrolases (3) acting on peptide bonds (3.4)
    • C12N9/50Proteinases, e.g. Endopeptidases (3.4.21-3.4.25)
    • C12N9/64Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from animal tissue
    • C12N9/6421Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from animal tissue from mammals
    • C12N9/6424Serine endopeptidases (3.4.21)
    • C12N9/6454Dibasic site splicing serine proteases, e.g. kexin (3.4.21.61); furin (3.4.21.75) and other proprotein convertases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P21/00Preparation of peptides or proteins
    • C12P21/02Preparation of peptides or proteins having a known sequence of two or more amino acids, e.g. glutathione
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y304/00Hydrolases acting on peptide bonds, i.e. peptidases (3.4)
    • C12Y304/21Serine endopeptidases (3.4.21)
    • C12Y304/21012Alpha-lytic endopeptidase (3.4.21.12)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y304/00Hydrolases acting on peptide bonds, i.e. peptidases (3.4)
    • C12Y304/21Serine endopeptidases (3.4.21)
    • C12Y304/21061Kexin (3.4.21.61), i.e. proprotein convertase subtilisin/kexin type 9
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2760/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses negative-sense
    • C12N2760/00011Details
    • C12N2760/12011Bunyaviridae
    • C12N2760/12211Phlebovirus, e.g. Rift Valley fever virus
    • C12N2760/12222New viral proteins or individual genes, new structural or functional aspects of known viral proteins or genes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2760/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses negative-sense
    • C12N2760/00011Details
    • C12N2760/12011Bunyaviridae
    • C12N2760/12211Phlebovirus, e.g. Rift Valley fever virus
    • C12N2760/12234Use of virus or viral component as vaccine, e.g. live-attenuated or inactivated virus, VLP, viral protein
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2760/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses negative-sense
    • C12N2760/00011Details
    • C12N2760/12011Bunyaviridae
    • C12N2760/12211Phlebovirus, e.g. Rift Valley fever virus
    • C12N2760/12251Methods of production or purification of viral material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2770/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses positive-sense
    • C12N2770/00011Details
    • C12N2770/20011Coronaviridae
    • C12N2770/20022New viral proteins or individual genes, new structural or functional aspects of known viral proteins or genes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2770/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses positive-sense
    • C12N2770/00011Details
    • C12N2770/20011Coronaviridae
    • C12N2770/20034Use of virus or viral component as vaccine, e.g. live-attenuated or inactivated virus, VLP, viral protein
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2770/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssRNA viruses positive-sense
    • C12N2770/00011Details
    • C12N2770/20011Coronaviridae
    • C12N2770/20051Methods of production or purification of viral material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12RINDEXING SCHEME ASSOCIATED WITH SUBCLASSES C12C - C12Q, RELATING TO MICROORGANISMS
    • C12R2001/00Microorganisms ; Processes using microorganisms
    • C12R2001/645Fungi ; Processes using fungi
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Mycology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Virology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Hematology (AREA)
  • Toxicology (AREA)
  • Botany (AREA)
  • Tropical Medicine & Parasitology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

本发明涉及遗传修饰的子囊菌类丝状真菌、特别是Thermothelomyces heterothallica菌种,其具有降低的KEX2和/或ALP7活性或表达,所述丝状真菌能够产生量和稳定性提高的外源蛋白。

Description

用于生产外源蛋白的修饰的丝状真菌
技术领域
本发明涉及在遗传修饰的子囊菌类丝状真菌、特别是Thermothelomycesheterothallica(以前的嗜热毁丝霉(Myceliophthora thermophila))菌种中生产外源蛋白,所述菌种具有降低的KEX2和/或ALP7蛋白酶的表达或活性。所述遗传修饰的子囊菌类丝状真菌用于强劲地生产高度稳定的蛋白质。
背景技术
重组蛋白生产
具有功能性翻译后蛋白质修饰例如糖基化或磷酸化的重组蛋白的表达和纯化只能使用真核表达系统来实现。包括哺乳动物细胞、植物和真菌在内的真核蛋白表达系统对于功能性真核蛋白的生产来说已变得不可或缺。
野生型Thermothelomyces heterothallica(Th.heterothallica)C1(最近从嗜热毁丝霉(Myceliophthora thermophila)重新命名,后者从Chrysosporium lucknowense重新命名)是一种产高水平纤维素酶的耐热子囊菌类丝状真菌,使其对在商业规模上生产这些和其他蛋白质具有吸引力。
例如,本发明的申请人的美国专利号8,268,585和US 8,871,493公开了在丝状真菌宿主领域中的一种转化系统,用于表达和分泌异源蛋白或多肽。还公开了一种以经济的方式生产大量多肽或蛋白质的方法。所述系统包括转化或转染的金孢霉属(Chrysosporium)、更具体来说是Chrysosporium lucknowense的真菌菌株及其突变体或衍生菌株。还公开了含有金孢霉属(Chrysosporium)编码序列以及金孢霉属(Chrysosporium)基因的表达调控序列的转化体。
野生型C1根据布达佩斯条约以编号VKM F-3500D保藏,保藏日期为1996年8月29日。高纤维素酶(HC)和低纤维素酶(LC)菌株也已被保藏,正如在美国专利号8,268,585中所述。
最近,本申请的申请人显示,丝状真菌、特别是Th.heterothallica非常适合于生产次级代谢物。国际(PCT)申请号PCT/IB2020/051015公开了Th.heterothallica能够生产大麻素及其前体,特别是生产大麻萜酚酸(CBGA)和/或次大麻萜酚酸(CBGVA)及其产物,包括四氢大麻酚酸(THCA)、大麻二酚酸(CBDA)和次大麻二酚酸(CBDVA),及其用于生产所述前体和大麻素的用途。
Landowski等人的国际申请公开号WO/2015/004241公开了可用于生产异源蛋白的多蛋白酶缺陷的丝状真菌细胞和方法。
冠状病毒
冠状病毒(CoV)是属于包括冠状病毒科、动脉炎病毒科和杆套病毒科的套式病毒目(Nidovirales)的最大的一类病毒。冠状病毒亚科是冠状病毒科中的两个亚科之一,另一个是凸隆病毒亚科。冠状病毒与从普通感冒到更严重的病症例如严重急性呼吸综合症(SARS-CoV)和中东呼吸综合征(MERS-CoV)相关。严重急性呼吸综合症冠状病毒2(SARS-CoV-2)是引起2019年冠状病毒疾病(COVID-19)的正义单链RNA冠状病毒。冠状病毒是人畜共患的,意味着它们在动物和人之间传播。冠状病毒感染的常见体征包括呼吸道症状、发热、咳嗽、呼吸急促和呼吸困难。在被COVID-19感染的危重症患者的血浆中记录到高浓度的细胞因子。在更严重的情况下,感染可以导致肺炎、呼吸道炎症、严重急性呼吸综合征、肾功能衰竭和死亡。病毒蛋白的重组生产可用作潜在的疫苗。冠状病毒刺突蛋白被认为是疫苗开发的主要靶点。
对用于以高效和高成本效益的方式大规模生产可用于制药工业的蛋白质的表达系统,仍存在着需求。具体来说,对可以生产稳定的抗体以及用于疫苗接种的病毒抗原的改进和强劲的表达系统,存在着需求。
发明内容
本发明提供了遗传修饰的子囊菌类丝状真菌,其具有蛋白酶KEX2和/或ALP7的降低的表达,能够生产大量高度稳定的蛋白质。
具体来说,本发明提供了作为示例性子囊菌类丝状真菌的Thermothelomycesheterothallica菌株C1,其被遗传修饰以增强外源蛋白的生产。在某些实施方式中,本文公开的真菌被修饰,以缺陷包括KEX2和ALP7在内的14种蛋白酶。
令人吃惊的是,本发明显示,与以前公开的真菌菌株相比,作为子囊菌类丝状真菌的实例的Th.heterothallica可以被遗传修饰,以显著提高由所述Th.heterothallica细胞表达的外源蛋白的表达和稳定性。本发明显示,包括KEX2或ALP7在内的特定蛋白酶的缺失显著提高表达的蛋白质的稳定性。
进一步公开了KEX2和ALP7的组合缺失显著提高表达的外源蛋白的稳定性和量。
有利的是,本发明的遗传修饰的子囊菌类丝状真菌在某些实施方式中被设计成生产分泌的蛋白质,其具有分泌蛋白酶的降低的表达。将表达的蛋白质分泌在培养基中并防止蛋白质片段化,简化了纯化程序并提高蛋白质得率。
本发明的示例性Th.heterothallica C1系统通过破坏所述真菌天然表达的蛋白酶的编码基因进行了工程化改造,用于生产感兴趣的蛋白质。出人意料的是,多达13或14种蛋白酶的缺失不扰乱真菌生长和增殖速率,而是至少维持甚至提高生长速率,使得能够进行外源蛋白的大规模生产。
由本发明的申请人开发的几种Th.heterothallica C1菌株与常规酵母菌株以及大多数其他子囊菌类丝状真菌宿主相比,对作为碳源存在于生长培养基中的葡萄糖和和其他可发酵糖的反馈阻遏具有较低的敏感性,因此可以耐受更高的碳源补料速率,导致这种真菌的高产量生产。
此外,由本发明的申请人开发的一些Th.heterothallica C1菌株与大多数其他子囊菌类丝状真菌菌种相比,可以在发酵罐中具有显著降低的培养基粘度的液体培养中生长。Th.heterothallica C1的低粘度培养与酿酒酵母(S.cerevisiae)和其他酵母菌种的低粘度培养相当。所述低粘度可能归因于所述菌株从亲本菌株中长且高度交错的菌丝向发育的菌株中短且交错较少的菌丝的形态改变。低培养基粘度在大规模工业生产中非常有利。
根据一个方面,本发明提供了一种被遗传修饰以生产感兴趣的蛋白质的丝状真菌,所述遗传修饰的丝状真菌包含至少一个具有KEX2和/或ALP7降低的表达和/或蛋白酶活性的细胞,所述至少一个细胞包含至少一个编码所述感兴趣的蛋白质的外源多核苷酸。
根据某些实施方式,所述ALP7包含与Thermothelomyces heterothallica ALP7的氨基酸序列具有至少75%、或至少80%、或至少85%、或至少90%、或至少95%、或至少99%或100%同一性的氨基酸序列。根据某些实施方式,所述Thermothelomycesheterothallica ALP7包含SEQ ID NO:13的氨基酸序列。
根据某些实施方式,所述KEX2包含与Thermothelomyces heterothallica KEX2的氨基酸序列具有至少75%、或至少80%、或至少85%、或至少90%、或至少95%、或至少99%或100%同一性的氨基酸序列。根据某些实施方式,所述Thermothelomycesheterothallica KEX2包含SEQ ID NO:14的氨基酸序列。
根据某些实施方式,所述修饰的丝状真菌包含至少一个具有KEX2和ALP7降低的表达和/或活性的细胞。
根据某些实施方式,所述修饰的丝状真菌包含至少一个具有至少一种另外的蛋白酶的降低的表达和/或活性的细胞。
根据某些实施方式,所述修饰的丝状真菌包含至少一个具有至少3、4、5、6、7、8、9、10、11、12、13或14种蛋白酶的降低的表达和/或活性的细胞。每种可能性代表本发明的独立实施方式。根据某些实施方式,所述修饰的丝状真菌包含至少一个具有至少5、6、7、8、9、10、11、12、13或14种蛋白酶的降低的表达和/或活性的细胞。每种可能性代表本发明的独立实施方式。
根据某些实施方式,所述至少一种另外的蛋白酶选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4。每种可能性代表本发明的独立实施方式。
根据某些实施方式,所述至少一种另外的蛋白酶选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4、ALP5、ALP6、SRP3、SRP5和SRP8。
根据某些实施方式,所述至少一个细胞具有选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4、ALP5、ALP6、SRP3、SRP5、SRP8和SRP10的至少2、3、4、5、6、7、8、9或10种蛋白酶的降低的表达和/或活性。
根据某些实施方式,所述修饰的丝状真菌包含至少一个具有ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4和ALP7的降低的表达和/或活性的细胞。根据某些实施方式,所述修饰的丝状真菌包含至少一个具有ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4和KEX2的降低的表达和/或活性的细胞。根据某些实施方式,所述修饰的丝状真菌还包含至少一个具有ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4、ALP7和KEX2的降低的表达和/或活性的细胞。
根据某些实施方式,所述丝状真菌被进一步修饰以产生具有与人类、伴侣动物和其他哺乳动物蛋白相似的N-聚糖的蛋白。根据某些实施方式,所述丝状真菌包含alg3基因的缺失或破坏,使得所述真菌不能产生有功能的α-1,3-甘露糖基转移酶。根据某些其他或可选实施方式,所述丝状真菌包含alg11基因的缺失或破坏,使得所述真菌不能产生有功能的α-1,2-甘露糖基转移酶。根据又一些其他或可选实施方式,所述丝状真菌被修饰以过表达翻转酶。翻转酶的过表达可以通过过表达所述真菌的内源翻转酶或通过异源翻转酶的表达来获得。
根据某些其他或可选实施方式,所述丝状真菌还包含异源GlcNAc转移酶1(GNT1)和GlcNAc转移酶2(GNT2)的表达。在某些实施方式中,所述GNT1包含异源高尔基体定位信号。
根据某些实施方式,所述感兴趣的蛋白质选自抗原、抗体、酶、疫苗和结构蛋白。
根据某些实施方式,所述感兴趣的蛋白质是分泌蛋白。根据某些实施方式,所述感兴趣的蛋白质具有前导肽或信号肽。根据其他实施方式,所述感兴趣的蛋白质是细胞内蛋白。
根据某些实施方式,所述感兴趣的蛋白质包括蛋白质或蛋白质片段的两个或更多个重复序列。
根据某些实施方式,所述感兴趣的蛋白质与标签融合。根据某些实施方式,所述标签是C-端或N-端标签。根据某些实施方式,所述标签选自几丁质结合蛋白(CBP)、麦芽糖结合蛋白(MBP)、Strep标签、谷胱甘肽-S-转移酶(GST)、FLAG标签、Spy标签、C标签、ALFA标签、V5标签、Myc标签、HA标签、Spot标签、T7标签、NE标签和聚(His)标签。根据某些实施方式,所述标签Spy标签。根据某些实施方式,所述标签是C标签。
根据某些实施方式,所述感兴趣的蛋白质是抗体或其片段。根据某些实施方式,所述抗体是IgG4或IgG1。根据其他实施方式,所述抗体是双特异性或多特异性抗体。根据特定实施方式,所述抗体或其片段是针对冠状病毒的中和抗体。
根据某些实施方式,所述感兴趣的蛋白质是anticalin。
根据某些实施方式,所述感兴趣的蛋白质是FC-融合蛋白。
根据某些实施方式,所述感兴趣的蛋白质是抗原。
根据某些实施方式,所述感兴趣的蛋白质是感染原的组分。根据某些实施方式,所述感兴趣的蛋白质是真菌、细菌或病毒的组分。根据某些实施方式,所述感兴趣的蛋白质是病毒组分。
根据某些实施方式,所述病毒组分是流行性病毒的组分。根据某些示例性实施方式,所述病毒组分是冠状病毒、流感病毒、乙肝病毒、丙肝病毒、乳头瘤病毒、HIV、HTLV-1或EBV的组分。
根据某些实施方式,所述感兴趣的蛋白质是流感病毒蛋白。根据某些实施方式,所述感兴趣的蛋白质是血凝素(HA)或其片段。根据某些实施方式,所述感兴趣的蛋白质包含血凝素的跨膜结构域(TMD)。根据特定实施方式,所述感兴趣的蛋白质是流感亚型H1N1的蛋白质。
根据某些实施方式,所述产生的血凝素蛋白被分泌。
根据某些实施方式,所述病毒组分是冠状病毒的组分。根据某些当前示例性实施方式,所述冠状病毒是SARS-CoV-2(COVID-19)。
根据某些实施方式,所述感兴趣的蛋白质是刺突蛋白。根据某些实施方式,所述感兴趣的蛋白质包含SARS-CoV-2刺突蛋白的受体结合结构域(RBD)序列或其片段。根据某些实施方式,所述感兴趣的蛋白质包含SARS-CoV-2刺突蛋白的RBD。根据某些实施方式,所述感兴趣的蛋白质由SARS-CoV-2刺突蛋白的RBD组成。根据某些实施方式,所述感兴趣的蛋白质包含SARS-CoV-2刺突蛋白的受体结合基序(RBM)。根据特定实施方式,所述RBD或其片段与Spy标签融合。根据某些实施方式,所述感兴趣的蛋白质包含RBD或其片段的2、3或4个重复序列。根据其他实施方式,所述感兴趣的蛋白质是核衣壳。根据某些实施方式,所述感兴趣的蛋白质是SARS-CoV-2刺突蛋白的S2片段。
根据某些实施方式,所述感兴趣的蛋白质是与Fc片段融合的病毒抗原。根据某些实施方式,所述Fc融合到所述抗原的N端。根据其他实施方式,所述Fc融合到所述抗原的C端。
根据某些实施方式,所述感兴趣的蛋白质是Fc-RBD。根据其他实施方式,所述感兴趣的蛋白质是RBD-Fc。
根据某些实施方式,所述感兴趣的蛋白质包含选自SEQ ID NO:45、SEQ ID NO:47、SEQ ID NO:49、SEQ ID NO:51、SEQ ID NO:53、SEQ ID NO:55和SEQ ID NO:57的氨基酸序列。
根据某些实施方式,所述感兴趣的蛋白质是胰岛素。根据其他实施方式,所述感兴趣的蛋白质是纤维蛋白原。
根据某些实施方式,所述感兴趣的蛋白质是治疗性蛋白。
根据某些实施方式,所述感兴趣的蛋白质是来自于裂谷热病毒(RVFV)的疫苗蛋白抗原。
根据某些实施方式,所述感兴趣的蛋白质是由两种不同抗原组成的融合蛋白。根据某些实施方式,所述感兴趣的蛋白质是由不同病毒抗原的两种组分组成的融合蛋白。根据某些实施方式,所述病毒抗原是冠状病毒和流感病毒的抗原。
根据某些实施方式,所述病毒抗原与MHCII靶向序列融合。根据某些实施方式,所述病毒抗原和所述MHCII靶向序列通过接头相连。
在某些实施方式中,所述标签是位点特异性荧光标记肽/蛋白。
根据某些实施方式,所述遗传修饰的子囊菌类丝状真菌以与在类似条件下培养的相应的未遗传修饰的亲本子囊菌类丝状真菌中产生的量相比增加的量产生外源蛋白。根据某些实施方式,所述遗传修饰的子囊菌类丝状真菌能够产生与其亲本菌株相比多至少2倍的外源蛋白。
根据某些实施方式,所述遗传修饰的子囊菌类丝状真菌与其亲本子囊菌类丝状真菌相比能够将生长培养基中分泌的外源蛋白的量提高至少1.5、2、5或10倍。根据某些实施方式,所述分泌的蛋白质是完整蛋白质。
根据某些实施方式,所述遗传修饰的子囊菌类丝状真菌与其亲本子囊菌类丝状真菌相比能够将真菌细胞中的细胞内外源蛋白的量提高至少1.5、2、5或10倍。
根据某些实施方式,由所述遗传修饰的子囊菌类丝状真菌产生的外源蛋白与由在类似条件下培养的亲本子囊菌类丝状真菌菌株产生的相应蛋白质相比具有提高的稳定性。
根据某些实施方式,所述遗传修饰的子囊菌类丝状真菌以与在类似条件下培养的相应的亲本子囊菌类丝状真菌菌株相比更高的速率生长。
编码所述感兴趣的蛋白质的多核苷酸可以形成DNA构建体或表达载体的一部分。
根据某些实施方式,所述至少一种外源多核苷酸是DNA构建体或表达载体,其还包含至少一个在所述子囊菌类丝状真菌中可操作的调控元件。根据某些实施方式,所述调控元件选自所述真菌内源的调控元件和与所述真菌异源的调控元件。
根据某些实施方式,所述子囊菌类丝状真菌属于盘菌亚门(Pezizomycotina)中的属。
根据某些实施方式,所述子囊菌类丝状真菌属于选自Thermothelomyces、毁丝霉属(Myceliophthora)、木霉属(Trichoderma)、曲霉属(Aspergillus)、青霉属(Penicillium)、Rasamsonia、金孢霉属(Chrysosporium)、棒囊壳属(Corynascus)、镰刀菌属(Fusarium)、脉孢菌属(Neurospora)和篮状菌属(Talaromyces)的属。
根据某些实施方式,所述子囊菌类丝状真菌属于选自Thermothelomycesheterothallica(也称为嗜热毁丝霉(Myceliophthora thermophila))、黄毁丝霉(Myceliophthora lutea)、构巢曲霉(Aspergillus nidulans)、绳状曲霉(Aspergillusfuniculosus)、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、里氏木霉(Trichoderma reesei)、哈茨木霉(Trichoderma harzianum)、长枝木霉(Trichodermalongibrachiatum)、绿色木霉(Trichoderma viride)、Rasamsonia emersonii、产黄青霉(Penicillium chrysogenum)、疣梗青霉(Penicillium verrucosum)、嗜热侧孢霉(Sporotrichum thermophile)、Corynascus fumimontanus、嗜热棒囊壳(Corynascusthermophilus)、Chrysosporium lucknowense、禾谷镰刀菌(Fusarium graminearum)、Fusarium venenatum、粗糙脉孢菌(Neurospora crassa)和Talaromyces piniphilus的菌种。
根据某些实施方式,所述子囊菌类丝状真菌是Thermothelomycesheterothallica菌株,其包含与SEQ ID NO:20中阐述的核酸序列具有至少95%、或至少96%、或至少97%、或至少98%、或至少99%或100%同一性的rDNA序列。
根据某些实施方式,所述子囊菌类丝状真菌是Thermothelomycesheterothallica C1。
根据一个方面,本发明提供了一种用于产生能够生产感兴趣的蛋白质的真菌的方法,所述方法包括对所述真菌进行工程化改造,以具有KEX2和/或ALP7抑制或降低的表达和/或活性。
根据某些实施方式,所述方法包括用至少一种外源多核苷酸转化所述真菌的至少一个细胞。
根据另一方面,本发明提供了一种用于产生能够生产感兴趣的蛋白质的真菌的方法,所述方法包括用至少一种外源多核苷酸转化所述真菌的至少一个细胞,其中所述至少一个细胞具有KEX2和/或ALP7降低的表达和/或蛋白酶活性。
根据某些实施方式,所述方法包括用至少两种编码不同蛋白质的外源多核苷酸转化所述真菌的至少一个细胞。
根据某些实施方式,所述方法还包括对所述真菌进行工程化改造,以在所述至少一个细胞中具有选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4的至少一种蛋白酶降低或抑制的表达和/或活性。
根据某些实施方式,所述方法还包括对所述真菌进行工程化改造,以具有选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4的至少两种不同蛋白酶抑制或降低的表达和/或活性。
根据某些实施方式,抑制蛋白酶的表达包括缺失或破坏编码所述蛋白酶的内源基因。
根据某些实施方式,所述子囊菌类丝状真菌属于盘菌亚门(Pezizomycotina)中的属。
根据某些实施方式,所述子囊菌类丝状真菌属于选自Thermothelomyces、毁丝霉属(Myceliophthora)、木霉属(Trichoderma)、曲霉属(Aspergillus)、青霉属(Penicillium)、Rasamsonia、金孢霉属(Chrysosporium)、棒囊壳属(Corynascus)、镰刀菌属(Fusarium)、脉孢菌属(Neurospora)和篮状菌属(Talaromyces)的属。
根据某些实施方式,所述子囊菌类丝状真菌属于选自Thermothelomycesheterothallica(或嗜热毁丝霉(Myceliophthora thermophila))、黄毁丝霉(Myceliophthora lutea)、构巢曲霉(Aspergillus nidulans)、绳状曲霉(Aspergillusfuniculosus)、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、里氏木霉(Trichoderma reesei)、哈茨木霉(Trichoderma harzianum)、长枝木霉(Trichodermalongibrachiatum)、绿色木霉(Trichoderma viride)、Rasamsonia emersonii、产黄青霉(Penicillium chrysogenum)、疣梗青霉(Penicillium verrucosum)、嗜热侧孢霉(Sporotrichum thermophile)、Corynascus fumimontanus、嗜热棒囊壳(Corynascusthermophilus)、Chrysosporium lucknowense、禾谷镰刀菌(Fusarium graminearum)、Fusarium venenatum、粗糙脉孢菌(Neurospora crassa)和Talaromyces piniphilus的菌种。
根据某些实施方式,所述子囊菌类丝状真菌是Thermothelomycesheterothallica菌株,其包含与SEQ ID NO:20中阐述的核酸序列具有至少95%、或至少96%、或至少97%、或至少98%、或至少99%或100%同一性的rDNA序列。
根据某些实施方式,所述子囊菌类丝状真菌是Thermothelomycesheterothallica C1。
根据另一方面,本发明提供了一种生产至少一种感兴趣的蛋白质的方法,所述方法包括将本文中所述的遗传修饰的真菌在适合的培养基中培养;和回收所述至少一种蛋白质产物。
根据某些实施方式,所述回收步骤包括从生长培养基、真菌生物质或两者回收所述蛋白质。
根据某些实施方式,从生长培养基回收所述蛋白质。根据某些实施方式,至少50%、60%、70%、80%90%或95%的所述蛋白质被分泌。
根据某些实施方式,所述培养基包含选自葡萄糖、蔗糖、木糖、阿拉伯糖、半乳糖、果糖、乳糖、纤维二糖、甘油及其任何组合的碳源。
根据某些实施方式,将所述遗传修饰的真菌在适合的培养基中培养以与在类似条件下培养的相应的未遗传修饰的亲本真菌菌株中产生的量相比增加的量提供所述感兴趣的蛋白质的生产。
根据某些实施方式,所述相应的亲本真菌是与所述遗传修饰的真菌相同的物种。根据某些实施方式,所述相应的亲本真菌与所述遗传修饰的真菌同基因。
根据另一方面,本发明提供了一种感兴趣的蛋白质,其通过本文描述的任何方法生产。
根据一个方面,本发明提供了一种感兴趣的蛋白质,其通过包括下述步骤的方法生产:将本文中描述的遗传修饰的真菌在适合的培养基中培养;和回收所述感兴趣的蛋白质。
所述感兴趣的蛋白质如上文中所述。
根据某些实施方式,所述感兴趣的蛋白质是冠状病毒抗原。根据某些实施方式,所述感兴趣的蛋白质是冠状病毒刺突蛋白。根据某些实施方式,所述感兴趣的蛋白质包含冠状病毒RBD序列或其片段。根据某些实施方式,所述感兴趣的蛋白质包含冠状病毒刺突蛋白的受体结合基序(RBM)序列。
本发明还提供了一种组合物,其包含通过本文中描述的任何方法生产的两种或更多种不同的感兴趣的蛋白质。
根据某些实施方式,所述组合物包含至少两种不同的冠状病毒抗原,所述抗原包含不同冠状病毒变体的序列。
应该明确理解,本发明的范围涵盖同源物、类似物、变体和衍生物,包括更短或更长的多肽、蛋白质和多核苷酸,以及具有本领域中已知的一个或多个氨基酸或核酸替换的多肽、蛋白质和多核苷酸类似物,条件是这些变体和修饰必须保留本文描述的蛋白质或酶的活性。
应该理解,本文公开的每个方面和实施方式的任何组合被明确包含在本发明的公开中。
本发明的其他目的、特点和优点将从下面的描述和附图变得清楚。
附图说明
图1.示出了来自于产生RBD-C标签(左图)或RBD-Spy标签-C标签(右图)的C1转化体的24孔板培养物的使用C标签检测的Western印迹。
图2.在缺失了12-14种蛋白酶基因的C1蛋白酶缺陷菌株中RBD-C标签和RBD-Spy标签-C标签的生产。在kex2缺失的DNL155和DNL159菌株中RBD蛋白产量最高。RBD-C标签和RBD-Spy标签-C标签两者的三个平行克隆之一生长不佳,因此产生较低的蛋白质水平。
图3A-3B.从C1菌株M4169的生物反应器培养物C标签亲和纯化RBD-C标签。示出了来自于不同纯化步骤的样品的染色SDS凝胶(图3A)和Western(图3B)分析。起始=澄清后的起始样品,在凝胶中1:5稀释;流动起始=载样开始时的穿流液,在凝胶中1:5稀释;流动结束=载样结束时的穿流液,在凝胶中1:5稀释;Fr4-F9=洗脱级分。注意,由于高MgCl2浓度,在透析之前洗脱样品的迁移不正常。
图4.C1谱系的示意描述。
图5.示出了在不同蛋白酶缺陷菌株中使用抗体的掺加实验。将C1蛋白酶缺陷菌株在24孔细胞培养板中培养4天。对于掺加实验来说,将抗体在培养上清液中温育。在不同时间(0h、3h、o/n和o/2n)从所述样品取样,并通过western印迹进行分析。将独立的抗体用于检测重链和轻链。每道中上样270ng mAb。对照–200ng。
图6.示出了在不同的13x蛋白酶缺陷菌株中使用抗体的掺加实验。将C1蛋白酶缺陷菌株在24孔细胞培养板中培养4天。对于掺加实验来说,将抗体在培养上清液中温育。在不同时间(0h、3h、o/n和o/2n)从所述样品取样,并通过western印迹进行分析。将独立的抗体用于检测重链和轻链。每道中上样270ng mAb。对照–200ng。
图7.示出了在不同的13x蛋白酶缺陷菌株中使用纤维蛋白原的掺加实验。将C1蛋白酶缺陷菌株在24孔细胞培养板中培养4天。对于掺加实验来说,将纤维蛋白原在培养上清液中温育。在不同时间(0h、3h、o/n和o/2n)从所述样品取样,并通过western印迹进行分析。将多克隆抗纤维蛋白原抗体(所有纤维蛋白原链)用于检测。每道中上样240ng纤维蛋白原。对照–200ng。
图8.示出了在不同的13x蛋白酶缺陷菌株中使用Fc-FGF21的掺加实验。将C1蛋白酶缺陷菌株在24孔细胞培养板中培养4天。对于掺加实验来说,将Fc-FGF21在培养上清液中温育。在不同时间(0h、3h、o/n和o/2n)从所述样品取样,并通过western印迹进行分析。将两种抗体(抗Fc和抗FGF21抗体)用于检测。每道中上样240ng Fc-FGF21。对照–200ng。
图9.示出了mAb在所指示的12x蛋白酶缺陷菌株相比于13x蛋白酶缺陷菌株中的掺加(左图)和表达(右图)。
图10.示出了mAb在12x和13x蛋白酶缺陷菌株中的表达。将mAb的表达构建体转化到带有kex2缺失的13x蛋白酶缺失菌株中。转化体在24孔板中生长,并通过Western印迹分析产生的mAb。示出了在亲本12x蛋白酶缺失菌株和13xΔalp7缺失菌株中表达的相同mAb作为对照。
图11.示出了通过所指示的14x蛋白酶缺陷菌株dnl155和13x蛋白酶缺陷菌株在bgl启动子下生产rvfv的抗原蛋白。
图12A-12B示出了RBD-Spy标签和RBD-Spy标签与SpyCatcher HBsAg VLP的偶联产生三聚体和/或二聚体。图12A–Western印迹。图12B–SDS-PAGE。
图13A-13F.示出了通过间接ELISA检测的可溶性和偶联的RBD与hACE-2的结合。图13A–抗RBD CR3022抗体与RBD-ST:SC-HBsAg VLP粒子的结合和通过标记的山羊抗人IgG-AP的检测的示意图。图13B–在存在或不存在VLP粒子的情况下不同批次的RBD的检测。图13C-13D-RBD-ST:SC-HBsAg VLP与hACE(13C)和对照(13D)的结合的示意图。图13E-13F.hACE与偶联蛋白中的VLP-RBD(13E)或仅仅VLP(13F)的结合的ELISA结果。
图14A-14B.产生RBD-Fc(图14A)或Fc-RBD(图14B)融合蛋白的C1转化体的Western分析。示出了用于生产的亲本菌株。示出了DNL155菌株作为阴性对照。编号1-12的道对应于各个转化体。
图15.在源自于DNL155和M3599菌株的转化体中,在内源C1bgl8启动子或合成AnSES启动子控制下产生重组抗原αMHCII-Cal07的C1转化体的24孔板培养物的使用C标签检测的Western印迹。靶蛋白的凝胶迁移率与其87kDa的预期尺寸相符。此外,与所述抗体反应的尺寸为70kDa的内源C1背景蛋白存在于所有DNL155衍生的亲本菌株来源的样品中。
图16A-16C–从C1菌株M4540的生物反应器培养物C标签亲和纯化αMHCII-Cal07。示出了来自于不同纯化步骤的样品的染色的SDS凝胶(图16A)和Western(图16B)分析。输入=澄清后的起始样品,在凝胶中1:10稀释;穿流液=载样开始时的穿流液,在凝胶中1:10稀释;清洗=柱清洗期间的穿流液。注意,由于高MgCl2浓度,在透析之前洗脱样品的迁移不正常。图16C–透析后的αMHCII-Cal07样品与参比蛋白相比的染色的SDS-PAGE凝胶和Western印迹分析。
图17–产RBD变体的C1转化体的24孔板培养物的Western印迹结果。黄色是抗RBD(红色信号)和抗C标签(绿色信号)检测试剂两者的重叠信号。UK是RBD_B.1.1.7-UK,SA是RBD_B.1.351-SA,并且BR是RBD_1.1.28.1(P.1)-BR。被称为Wuhan的样品来自于产WuhanRBD的M4169 C1菌株(实施例4)。
发明详述
本发明提供了用于生产大量蛋白质的可选的高效系统。本发明的系统部分是基于以前已开发作为蛋白质以及次级代谢物生产的天然细胞工厂的丝状真菌Thermothelomyces heterothallica C1及其特定菌株。这些菌株显示出高生长速率并同时保持低培养物粘度,因此非常适合于在高达100,000-150,000升或更大体积下在发酵培养中连续生长。本发明在某些实施方式中提供了具有降低的KEX2和/或ALP7表达和/或活性得遗传修饰的真菌。
定义
本文所定义的子囊菌类丝状真菌是指属于盘菌亚门(Pezizomycotina)的任何真菌菌株。盘菌亚门(Pezizomycotina)包括但不限于下述组:
粪壳菌目(Sordariales),其包括下述属:
Thermothelomyces(包括heterothallica和thermophila种),
毁丝霉属(Myceliophthora)(包括黄毁丝霉种(lutea)和未命名的种),
棒囊壳属(Corynascus)(包括fumimontanus种),
脉孢菌属(Neurospora)(包括粗糙脉孢霉(crassa)种);
肉座菌目(Hypocreales),包括下述属:
镰刀菌属(Fusarium)(包括禾谷镰刀菌(graminearum)和venenatum种),
木霉属(Trichoderma)(包括里氏木霉(reesei)、哈茨木霉(harzianum)、长枝木霉(longibrachiatum)和绿色木霉(viride)种);
爪甲团囊菌目(Onygenales),包括下述属:
金孢霉属(Chrysosporium)(包括lucknowense种);
散囊菌目(Eurotiales),包括下述属:
Rasamsonia(包括emersonii种),
青霉属(Penicillium)(包括疣梗青霉(verrucosum)种),
曲霉属(Aspergillus)(包括绳状曲霉(funiculosus)、构巢曲霉(nidulans)、黑曲霉(nige)和米曲霉(oryzae)种),
篮状菌属(Talaromyces)(包括piniphilus种(以前的绳状青霉(Penicilliumfuniculosum))。
应该理解,上述列表不是结论性的,并且旨在提供工业上相关的丝状子囊菌类真菌物种的不完整名单。
尽管可能存在盘菌亚门(Pezizomycotina)之外的丝状子囊菌类物种,但该类不包含酵母菌亚门(Saccharomycotina),所述亚门含有大多数通常已知的工业上相关的非丝状属,例如酵母属(Saccharomyces)、Komagataella(包括以前的巴斯德毕赤酵母(Pichiapastoris))、克鲁维酵母属(Kluyveromyces),或外囊菌亚门(Taphrinomycotina),所述亚门含有一些其他通常已知的工业上相关的非丝状属,例如裂殖酵母属(Schizosaccharomyces)。
上述所有分类学类别均根据专利申请之日的NCBI分类学浏览器(ncbi.nlm.nih.gov/taxonomy)来定义。
必须认识到,真菌分类学不断变化,分类群的命名和等级位置在将来可能变化。然而,本领域技术人员能够明确地确定特定真菌菌株是否属于上述定义的类别。
根据某些实施方式,所述丝状真菌属选自毁丝霉属(Myceliophthora)、Thermothelomyces、曲霉属(Aspergillus)、青霉属(Penicillium)、木霉属(Trichoderma)、Rasamsonia、金孢霉属(Chrysosporium)、棒囊壳属(Corynascus)、镰刀菌属(Fusarium)、脉孢菌属(Neurospora)、篮状菌属(Talaromyces)等。根据某些实施方式,所述真菌选自嗜热毁丝霉(Myceliophthora thermophila)、Thermothelomyces thermophila(以前的嗜热毁丝霉(M.thermophila))、Thermothelomyces heterothallica(以前的嗜热毁丝霉(M.thermophila)和异宗毁丝霉(heterothallica))、黄毁丝霉(Myceliophthora lutea)、构巢曲霉(Aspergillus nidulans)、绳状曲霉(Aspergillus funiculosus)黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、产黄青霉(Penicilliumchrysogenum)、疣梗青霉(Penicillium verrucosum)、里氏木霉(Trichoderma reesei)、哈茨木霉(Trichoderma harzianum)、长枝木霉(Trichoderma longibrachiatum)、绿色木霉(Trichoderma viride)、Chrysosporium lucknowense、Rasamsonia emersonii、嗜热侧孢霉(Sporotrichum thermophile)、Corynascus fumimontanus、嗜热棒囊壳(Corynascusthermophilus)、禾谷镰刀菌(Fusarium graminearum)、Fusarium venenatum、粗糙脉孢菌(Neurospora crassa)和Talaromyces piniphilus。
具体来说,本发明提供了Thermothelomyces heterothallica菌株C1作为能够生产大量稳定蛋白质的子囊菌类丝状真菌的模型。
术语“Thermothelomyces”及其种“Thermothelomyces heterothallica和thermophila”在本文中以本领域中已知的最宽的范围使用。属及其种的描述可以在例如Marin-Felix Y(2015.Mycologica 107(3):619-632doi.org/10.3852/14-228)和van denBrink J等(2012,Fungal Diversity52(1):197-207)中找到。当在本文中使用时,“C1”或“Thermothelomyces heterothallica C1”或Th.heterothallica C1或C1全都是指Thermothelomyces heterothallica菌株C1。
应该指出,上述作者(Marin-Felix等,2015)提出了基于最适生长温度、分生孢子形态和有性繁殖周期细节来划分毁丝霉属(Myceliophthora)。根据所提出的标准,C1明确属于含有以前的耐热毁丝霉属(Myceliophthora)物种的新确立的属Thermothelomyces,而不是保留包括非耐热物种的毁丝霉属(Myceliophthora)。由于C1可以与具有相反交配类型的一些其他Thermothelomyces(以前的毁丝霉属(Myceliophthora))菌株形成子囊孢子,因此C1最好被归类为Th.heterothallica菌株C1而不是Th.thermophila C1。
还必须认识到,真菌分类学在过去也不断变化,因此上面列出的当前名称在之前可能具有除了嗜热毁丝霉(Myceliophthora thermophila)之外的各种不同更早名称(vanOorschot,1977.Persoonia 9(3):403),它们现在被认为是同义语。例如,Thermothelomyces heterothallica(Marin-Felix等,2015.Mycologica,3:619-63)与Corynascusheterotchallicus、Thielavia heterothallica、Chrysosporium lucknowense和thermophile以及Sporotrichium thermophile(Alpinis 1963.Nova Hedwigia 5:74)同义。
还应该明确理解,本发明涵盖了含有与SEQ ID NO:20显示出99%或更高同源性的核糖体DNA(rDNA)序列的任何菌株,并且所有那些菌株被认为是与Thermothelomycesheterothallica同种的。
具体来说,术语Th.heterothallica菌株C1涵盖了源自于野生型菌株的遗传修饰的亚株,其已使用随机或定点方法例如使用UV诱变或通过缺失一个或多个内源基因进行突变。例如,所述C1菌株可以是指被修饰以缺失一个或多个编码内源蛋白酶的基因的野生型菌株。例如,本发明涵盖的C1菌株包括:菌株UV18-25,保藏号VKM F-3631D;菌株NG7C-19,保藏号VKM F-3633D;和菌株UV13-6,保藏号VKM F-3632D。根据本发明的教导可以使用的其他C1菌株包括:HC菌株UV18-100f,保藏号CBS141147;HC菌株UV18-100f,保藏号CBS141143;LC菌株W1L#100I,保藏号CBS141153;和LC菌株W1L#100I,保藏号CBS141149,及其衍生菌株。
应该明确地理解,本发明的教导涵盖了Th.heterothallica C1菌株的突变体、衍生物、后代和克隆,只要这些衍生物、后代和克隆在按照本发明的教导遗传修饰时能够产生至少一种根据本发明的教导的蛋白质产物即可。
应该明确地理解,术语“衍生物”在指称真菌株系时,涵盖了具有正面影响产物产率、效率或功效或影响改进所述真菌衍生物作为生产所需蛋白质的工具的任何性状的修饰的任何真菌亲本株系。当在本文中使用时,术语“后代”是指来自于亲本真菌株系的未修饰或部分修饰的后裔,例如来自于细胞的细胞。术语“亲本菌株”是指未降低根据本发明的特定蛋白酶的表达或活性的相应真菌菌株。
根据本发明的一个方面,提供了一种用于生产感兴趣的蛋白质的遗传修饰的丝状真菌,所述遗传修饰的丝状真菌包含至少一个具有蛋白酶KEX2和/或ALP7和至少一种另外的蛋白酶的降低或废除的表达和/或活性的细胞,所述丝状真菌包含至少一个含有编码所述感兴趣的蛋白质的至少一种外源多核苷酸的细胞。
根据本发明的一个方面,提供了一种用于生产异源蛋白的遗传修饰的丝状真菌,所述遗传修饰的丝状真菌包含至少一个具有KEX2和至少一种另外的蛋白酶的降低或废除的表达和/或活性的细胞,所述丝状真菌包含至少一个含有编码异源蛋白的至少一种外源多核苷酸的细胞。
根据本发明的一个方面,提供了一种用于生产异源蛋白的遗传修饰的丝状真菌,所述遗传修饰的丝状真菌包含至少一个具有ALP7和至少一种另外的蛋白酶的降低或废除的表达和/或活性的细胞,所述丝状真菌包含至少一个含有编码异源蛋白的至少一种外源多核苷酸的细胞。
根据本发明的一个方面,提供了一种生产异源蛋白的遗传修饰的丝状真菌,所述遗传修饰的丝状真菌包含至少一个具有蛋白酶ALP7、KEX2和至少一种另外的蛋白酶的降低或废除的表达和/或活性的细胞,所述丝状真菌包含至少一个含有编码异源蛋白的至少一种外源多核苷酸的细胞。
根据某些实施方式,所述至少一个细胞具有13种蛋白酶的降低或废除的表达和/或活性,其中蛋白酶之一是KEX2。根据某些实施方式,所述至少一个细胞具有13种蛋白酶的降低或废除的表达和/或活性,其中蛋白酶之一是ALP7。根据某些实施方式,所述至少一个细胞具有包括KEX2和ALP7在内的14种蛋白酶的降低或废除的表达和/或活性。
术语“蛋白质”和“多肽”在本文中可互换使用,并且是指氨基酸的聚合物而不是指特定长度的产物,因此,这个定义中包括了肽、寡肽和多肽。
当在本文中使用时,术语“感兴趣的蛋白质”是指希望以高水平在丝状真菌中表达的蛋白质。此类蛋白质包括但不限于抗体、酶、底物结合蛋白、结构蛋白、抗原等。
根据某些实施方式,所述子囊菌类丝状真菌包含至少一个具有KEX2和至少一种另外的蛋白酶的降低或废除的表达和/或活性的细胞。
根据某些实施方式,所述子囊菌类丝状真菌包含至少一个具有至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少十二种、至少十三种、至少十四种或至少十五种蛋白酶的降低或废除的表达和/或活性的细胞。
根据某些实施方式,所述遗传修饰的丝状真菌不表达KEX2。根据某些实施方式,所述遗传修饰的丝状真菌不表达ALP7。
根据某些实施方式,所述遗传修饰的丝状真菌不表达ALP1。根据某些实施方式,所述遗传修饰的丝状真菌不表达PEP4。根据某些实施方式,所述遗传修饰的丝状真菌不表达ALP2。根据某些实施方式,所述遗传修饰的丝状真菌不表达PRT1。根据某些实施方式,所述遗传修饰的丝状真菌不表达SRP1。根据某些实施方式,所述遗传修饰的丝状真菌不表达ALP3。根据某些实施方式,所述遗传修饰的丝状真菌不表达PEP1。根据某些实施方式,所述遗传修饰的丝状真菌不表达MTP2。根据某些实施方式,所述遗传修饰的丝状真菌不表达PEP5。根据某些实施方式,所述遗传修饰的丝状真菌不表达MTP4。根据某些实施方式,所述遗传修饰的丝状真菌不表达PEP6。根据某些实施方式,所述遗传修饰的丝状真菌不表达ALP4。
根据特定实施方式,所述子囊菌类丝状真菌包含至少一个具有选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4的至少一种另外的蛋白酶的降低或废除的表达和/或活性的细胞。每种可能性代表本发明的独立实施方式。
根据本发明的一个方面,提供了一种用于生产感兴趣的蛋白质的遗传修饰的子囊菌类丝状真菌,其中所述遗传修饰的丝状真菌包含至少一个包含编码所述感兴趣的蛋白质的外源多核苷酸的细胞,所述遗传修饰的子囊菌类丝状真菌不表达或表达降低量的KEX2和/或ALP7和选自ALP1、PEP4、ALP2、PRT1、SRP1、APL3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4的至少一种另外的蛋白酶。
根据某些实施方式,所述丝状真菌不表达或表达降低量的KEX2、ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4。
根据某些实施方式,所述丝状真菌不表达或表达降低量的ALP7、ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4。
根据某些实施方式,所述丝状真菌不表达或表达降低量的KEX2、ALP7、ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4。
根据一个方面,本发明提供了一种用于生产病毒抗原的遗传修饰的子囊菌类丝状真菌,其中所述遗传修饰的丝状真菌包含至少一个包含编码所述病毒抗原的外源多核苷酸的细胞,所述遗传修饰的子囊菌类丝状真菌不表达或表达降低量的KEX2、ALP7、ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4。
根据某些实施方式,所述病毒抗原是来自于裂谷热病毒(RVFV)的疫苗抗原蛋白。
根据一个方面,本发明提供了一种用于生产SARS-CoV2刺突结构域的受体结合结构域(RBD)的遗传修饰的子囊菌类丝状真菌,其中所述遗传修饰的丝状真菌包含至少一个包含编码所述RBD的外源多核苷酸的细胞,所述遗传修饰的子囊菌类丝状真菌不表达或表达降低量的KEX2、ALP7、ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTB2、PEP5、MTP4、PEP6和ALP4。
也被称为qds1、srb1和vmn45的kex2基因编码KEX2或KEXIN蛋白酶。KEX2蛋白酶是一种丝氨酸肽酶。Thermothelomyces heterothallica KEX2氨基酸序列阐述在SEQ ID NO:14中。
根据某些实施方式,所述KEX2包含与SEQ ID NO:14具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
所述Thermothelomyces heterothallica ALP7氨基酸序列阐述在SEQ ID NO:13中。
根据某些实施方式,所述ALP7包含与SEQ ID NO:13具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
alp1基因编码碱性蛋白酶1。ALP1是一种分泌的碱性蛋白酶,允许蛋白质类底物的同化。Thermothelomyces heterothallica ALP1氨基酸序列阐述在SEQ ID NO:1中。
根据某些实施方式,所述ALP1包含与SEQ ID NO:1具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
pep4基因(别名:pho9、pra1、yscA)是一种天冬氨酸肽酶。Thermothelomycesheterothallica PEP4氨基酸序列阐述在SEQ ID NO:2中。
根据某些实施方式,所述PEP4包含与SEQ ID NO:2具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica ALP2氨基酸序列阐述在SEQ IDNO:3中。
根据某些实施方式,所述ALP2包含与SEQ ID NO:3具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica PRT1氨基酸序列阐述在SEQ IDNO:4中。
根据某些实施方式,所述PRT1包含与SEQ ID NO:4具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica SRP1氨基酸序列阐述在SEQ IDNO:5中。
根据某些实施方式,所述SRP1包含与SEQ ID NO:5具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica ALP3氨基酸序列阐述在SEQ IDNO:6中。
根据某些实施方式,所述ALP3包含与SEQ ID NO:6具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica PEP1氨基酸序列阐述在SEQ IDNO:7中。
根据某些实施方式,所述PEP1包含与SEQ ID NO:7具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica MTP2氨基酸序列阐述在SEQ IDNO:8中。
根据某些实施方式,所述MTP2包含与SEQ ID NO:8具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica PEP5氨基酸序列阐述在SEQ IDNO:9中。
根据某些实施方式,所述PEP5包含与SEQ ID NO:9具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica MTP4氨基酸序列阐述在SEQ IDNO:10中。
根据某些实施方式,所述MTP4包含与SEQ ID NO:10具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica PEP6氨基酸序列阐述在SEQ IDNO:11中。
根据某些实施方式,所述PEP6包含与SEQ ID NO:11具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica ALP4氨基酸序列阐述在SEQ IDNO:12中。
根据某些实施方式,所述ALP4包含与SEQ ID NO:12具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica ALP5氨基酸序列阐述在SEQ IDNO:15中。
根据某些实施方式,所述ALP5包含与SEQ ID NO:15具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica ALP6氨基酸序列阐述在SEQ IDNO:16中。
根据某些实施方式,所述ALP6包含与SEQ ID NO:16具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica SRP3氨基酸序列阐述在SEQ IDNO:17中。
根据某些实施方式,所述SRP3包含与SEQ ID NO:17具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica SRP5氨基酸序列阐述在SEQ IDNO:18中。
根据某些实施方式,所述SRP5包含与SEQ ID NO:18具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
Thermothelomyces heterothallica SRP8氨基酸序列阐述在SEQ IDNO:19中。
根据某些实施方式,所述SRP8包含与SEQ ID NO:19具有至少75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性的氨基酸序列。
根据某些实施方式,所述感兴趣的蛋白质与标签融合。根据某些实施方式,所述标签是C-端或N-端标签。根据某些实施方式,所述标签选自几丁质结合蛋白(CBP)、麦芽糖结合蛋白(MBP)、Strep标签、谷胱甘肽-S-转移酶(GST)、FLAG标签、Spy标签、C标签、ALFA标签、V5标签、Myc标签、HA标签、Spot标签、T7标签、NE标签和聚(His)标签。根据某些实施方式,所述标签是Spy标签。根据某些实施方式,所述标签是C标签。
当在本文中使用时,术语“标签”是指一个氨基酸序列,其在本领域中通常与另一个氨基酸序列融合或包含在另一个氨基酸序列中,用于a)便于整个氨基酸序列或多肽的纯化,b)提高整个氨基酸序列或多肽的表达,和/或c)便于整个氨基酸序列或多肽的检测。
术语“C标签”在本领域中是公知的,并且是指4个氨基酸的亲和标签:E-P-E-A(谷氨酸-脯氨酸-谷氨酸-丙氨酸),其可以融合在任何重组蛋白的C-端。所述标签在用于纯化目的时提供高亲和性和选择性。
术语“Spy标签”在本领域中是公知的,并且是指与SpyCatcher蛋白共价结合的短肽。Spy标签序列是Ala-His-Ile-Val-Met-Val-Asp-Ala-Tyr-Lys-Pro-Thr-Lys。
术语“Strep标签”在本文中以本领域中所知的使用,并且是指一种允许通过亲和层析来纯化和检测蛋白质的方法。所述方法是基于Strep-Tactin连接。
术语“谷胱甘肽S-转移酶(GST)”在本文中以本领域中所知的使用,并且是基于GST蛋白对谷胱甘肽(GSH)的强结合亲和性。GST标签通常被用于分离和纯化含有GST-融合蛋白的蛋白质。所述标签长为220个氨基酸。
术语“FLAG标签”在本文中以本领域中所知的使用,并且是指一种可以使用重组DNA技术添加到蛋白质的多肽蛋白质标签。它是最特异的标签之一,并且它是一种人造抗原,已经开发了针对它的特异性、高亲和性单克隆抗体,并因此可用于通过亲和层析进行蛋白质纯化。
术语“ALFA标签”在本文中以本领域中所知的使用,并且是指一种纳米抗体特异性识别的表位标签,可用于检测和纯化。
V5标签是一种用于蛋白质检测和纯化的短肽标签。V5标签可以融合/克隆到重组蛋白,并使用抗体和纳米抗体在ELISA、流式细胞术、免疫沉淀、免疫荧光和Western印迹中检测。
术语“Myc标签”在本文中以本领域中所知的使用,并且是指一种源自于c-myc基因的短肽标签,其可以被特异性抗体识别。
“HA标签”在本文中以本领域中所知的使用,并且是指一种源自于人流感血凝素(HA)分子的肽,对应于第98-106位氨基酸。这种标签被用于便于感兴趣的蛋白质的检测、分离和纯化。
“Spot标签”是一种被单域抗体纳米抗体(sdAb)识别的12个氨基酸的肽标签。所述标签可用于各种不同应用,包括免疫沉淀、亲和纯化、免疫荧光和超高分辨率显微镜。
术语“T7标签”在本文中以本领域中所知的使用,并且是指一种由11个残基的肽组成的表位标签,由T7噬菌体基因10的前导序列编码。
术语“NE标签”在本文中以本领域中所知的使用,并且是指一种被设计为表位标签的合成的肽标签(NE标签),用于重组蛋白的检测、定量和纯化。这种肽标签由18个亲水性氨基酸组成。
术语“聚(His)标签”或“聚组氨酸标签”在本领域中已知,并且是指蛋白质中通常由至少6个组氨酸(His)残基组成的氨基酸基序,通常在所述蛋白质的N-或C-端。它也被称为六聚组氨酸标签、6xHis标签和His6标签。所述短肽可以被金属离子例如二价镍或钴结合。
根据某些实施方式,所述丝状真菌被进一步修饰以产生具有与人类、伴侣动物和其他哺乳动物蛋白质相似的N-聚糖的蛋白质。根据某些实施方式,所述丝状真菌包含alg3基因的缺失或破坏,使得所述真菌不能产生有功能的α-1,3-甘露糖基转移酶。根据某些实施方式,丝状真菌包含alg11基因的缺失或破坏,使得所述真菌不能产生有功能的α-1,2-甘露糖基转移酶。根据某些实施方式,所述丝状真菌包含内源翻转酶的过表达或异源翻转酶的表达。
根据某些实施方式,所述丝状真菌还包含异源GlcNAc转移酶1(GNT1)和GlcNAc转移酶2(GNT2)的表达。在某些实施方式中,所述GNT1包含异源高尔基体定位信号。在某些实施方式中,所述异源GNT1和GNT2是动物来源的。
根据某些实施方式,所述感兴趣的蛋白质是抗原。根据某些实施方式,所述感兴趣的蛋白质是刺突蛋白。根据某些实施方式,所述感兴趣的蛋白质包含SARS-CoV-2刺突蛋白的受体结合结构域(RBD)序列或其片段。根据某些实施方式,所述感兴趣的蛋白质是SARS-CoV-2刺突蛋白的RBD。根据某些实施方式,所述感兴趣的蛋白质包含SARS-CoV-2刺突蛋白的受体结合基序(RBM)。根据某些实施方式,所述感兴趣的蛋白质包含SARS-CoV-2S蛋白的糖蛋白结合结构域(GBD)序列。根据特定实施方式,所述RBD或其片段与Spy标签融合。根据某些实施方式,所述RBD或其片段与C标签融合。根据其他实施方式,所述RBD与抗体的Fc融合。根据某些实施方式,所述感兴趣的蛋白质包含RBD或其片段的2、3或4个重复序列。
所述冠状病毒抗原序列可以根据冠状病毒的任何已知或发现的变体进行操作。例如,所述序列可以根据下述文献中描述的序列来操作:Rambaut等,nCoV-2019GenomicEpidemiology,2020年12月(https://virological.org/t/preliminary-genomic-characterisation-of-an-emer gent-sars-cov-2-lineage-in-the-uk-defined-by-a-novel-set-of-spike-mutatio ns/563);Tegally,H.等,2020(https://www.medrxiv.org/content/10.1101/2020.12.21.2024 8640v1);或Faria NR等2020(https://virological.org/t/genomic-characterisation-of-an-emergentsars-cov-2-lineage-in-manaus-preliminary-findings/586)。本发明涵盖了与基于本申请中鉴定的任一序列的氨基酸序列基本上同源的氨基酸序列。术语“序列同一性”和“序列同源性”在本说明书中被认为是同义的。
有许多已建立的算法可用于比对两个氨基酸序列。通常,一个序列充当参比序列,可以将测试序列与其进行比较。序列比较算法在指定的程序参数的基础上计算所述测试序列相对于参比序列的序列同一性百分比。用于比较的氨基酸序列的比对可以例如通过计算机执行的算法(例如GAP、BESTFIT、FASTA或TFASTA)或BLAST和BLAST2.0算法来进行。
在比较中,同一性可能存在于所述序列的长度为至少10个氨基酸残基(例如长度为至少15、20、30、40、50、75、100、150、200、250、300、350、400、450、500、550、600、650或685个氨基酸残基,例如直至所述参比序列的整个长度)的区域内。每种可能性代表本发明的独立实施方式。
当在本文中使用时,术语“外源”是指不在所述真菌中天然表达的多核苷酸或蛋白质(例如来自于不同物种的异源多核苷酸)。所述外源多核苷酸可以以稳定或瞬时的方式引入到所述真菌中,以便产生核糖核酸(RNA)分子和/或多肽分子。
当在本文中使用时,术语“异源”包括插入到真菌中并且在所述真菌中不天然存在的序列。
术语“DNA构建体”、“表达载体”、“表达构建体”和“表达盒”用于指称人工组装或分离的核酸分子,其包含编码感兴趣的蛋白质的核酸序列,并被组装成使得所述感兴趣的蛋白质在靶宿主细胞中功能性表达。表达载体通常包含与编码所述感兴趣的蛋白质的核酸序列可操作连接的适合的调控序列。表达载体还可以包含编码选择标记的核酸序列。
术语“多核苷酸”、“核酸序列”和“核苷酸序列”在本文中用于指称脱氧核糖核苷酸(DNA)、核糖核苷酸(RNA)及其修饰的形式的聚合物,其是独立片段的形式或作为更大构建体的组分。核酸序列可以是编码序列,即在细胞中编码最终产物例如蛋白质的序列。
与参比序列“同源的”序列(例如核酸序列和氨基酸序列)在本文中是指所述序列之间的同一性百分比,其中所述同一性百分比为至少70%、至少75%、优选至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或至少99.5%。每种可能性代表本发明的独立实施方式。同源核酸序列包括与密码子用法和遗传密码的简并性相关的变化。
编码本发明的蛋白质的核酸序列可以被优化用于表达。此类序列修饰的实例包括但不限于改变G/C含量以更接近丝状真菌中通常发现的含量。
短语“密码子优化”是指选择接近感兴趣的生物体内的密码子用法的适合的DNA核苷酸用在结构基因或其片段中,和/或是指通过将本源序列的至少一个密码子(例如1个或超过约1、2、3、4、5、10、15、20、25、50个或更多个密码子)用在该宿主细胞的基因中更频繁或最频繁使用的密码子来代替并同时维持本源氨基酸序列,来修饰核酸序列以增强在所述宿主细胞中的表达的方法。各种不同物种对特定氨基酸的某些密码子表现出特定偏倚。密码子偏倚(生物体之间密码子用法的差异)通常与信使RNA(mRNA)的翻译效率相关,后者进而据信取决于尤其是正在翻译的密码子的性质和特定转运RNA(tRNA)分子的可利用性。细胞中所选tRNA的主导性通常反应了肽合成中最频繁使用的密码子。因此,可以在密码子优化的基础上对基因进行定制,以在给定生物体中获得最佳基因表达。因此,优化的基因或核酸序列是指其中本源或天然存在的基因的核苷酸序列已被修饰以利用所述生物体内统计学优选的或统计学喜爱的密码子的基因。
序列同一性可以使用本领域中已知的核苷酸/氨基酸序列比较算法来确定。
术语“编码序列”在本文中是指核苷酸序列,其始于起始密码子(ATG),含有不包括终止密码子的任何数量的密码子,和终止密码子(TAA、TGA、TAA),编码有功能的多肽。
本文中列出的任何编码序列或氨基酸序列也包括截短的序列,其从所述序列的任何部分失去了1、2、3、4、5、10、15、20、25、50个或更多个密码子或氨基酸。编码序列或氨基酸序列的截短的版本可以使用本领域中已知的核苷酸/氨基酸序列比较算法来鉴定。
本文中列出的任何编码序列或氨基酸序列还包括融合的序列,其除了本文中提供的编码序列或如上所定义的该序列的截短之外还含有其他序列。所述融合的序列可以是本文所公开的序列和其他序列。融合的编码序列或氨基酸序列可以使用本领域中已知的核苷酸/氨基酸序列比较算法来鉴定。
通过常规分子生物学方法,利用限制性核酸内切酶和连接酶、Gibson组装或酵母重组,将DNA序列组装成表达盒、选择盒并进一步组装成DNA构建体和/或表达载体。此外,上述材料可以由DNA合成服务提供商合成。正如本领域中已知的,几种不同技术可以实现相同的结果。
正如下文中描述的以及本领域中已知的,将DNA序列组装成表达盒,其将5’调控区(启动子)、编码序列和3’调控区(终止子)相连。这三种序列的任何组合可形成有功能的表达盒。
终止子的名单包括但不限于Th.heterothallica的编码下述蛋白质的基因的终止子:未表征的蛋白G2QF75(XP_003664349);聚泛素同源物(G2QHM8,XP_003664133);未表征的蛋白质(G2QIA5,XP_003664731);β-葡萄糖苷酶(G2QD93,XP_003662704);延伸因子1-α(G2Q129,XP_003660173);几丁质酶(G2QDD4,XP_003663544);磷酸甘油酸激酶(PGK)(Uniprot G2QLD8),甘油醛3-磷酸脱氢酶(GPD)(G2QPQ8),磷酸果糖激酶(PFK)(G2Q605);或磷酸丙糖异构酶(TPI)(G2QBR0);肌动蛋白(ACT)(G2Q7Q5);cbh1(GenBank AX284115)或β-葡萄糖苷酶1bgl1(XM_003662656)。外源终止子包括构巢曲霉(Aspergillus nidulans)gpdA终止子。
5’调控区(启动子)在实践中被定义为在它们所调控的基因的编码序列的起始密码子之前至多2000个碱基对的区段,倘若所述前方区域是非编码的。
3’调控区(终止子)在实践中被定义为从所述基因的编码序列的终止密码子起下游至多300个碱基对的区段,倘若所述后方区域是非编码的。
DNA序列也被组装成选择标记盒,它们是其中编码序列编码当在被转化菌株中存在时提供选择优势的基因的表达盒。此类优势可以是利用新的碳源或氮源、对有毒物质的抗性等。
本文公开的蛋白酶的缺失可以如本领域中所知来进行。在某些实施方式中,所述缺失通过转化适合的DNA构建体来进行。用于靶向转化的DNA构建体由下述组件组成:(a)允许将所述DNA构建体维持在特定宿主中的适合的载体,(b)0、1个或更多个采取任何方向的表达盒,(c)采取任何方向的选择标记盒,和(d)与选择的靶基因组DNA区段相同的序列(也被称为靶向臂)。这些组件被放置成使得所述两个靶向臂涵盖任何表达盒和选择标记盒,使得当在所述靶向臂与基因组DNA中的两个相同区域之间发生同源重组时,在所述DNA构建体的靶向臂之间的序列被插入到染色体中并代替最初存在于染色体上的序列。使用这一原理,可以将基因从基因组中敲除或插入到基因组中。通过将与紧靠选择标记盒上游的序列相同的序列放置在选择标记盒下游,可以如本领域中所知回收利用所述标记。
术语“调控序列”是指控制编码序列的表达(转录)的DNA序列,例如启动子、增强子和终止子。
术语“启动子”是指在体内或体外控制或指导另一个DNA序列的转录的调控DNA序列。通常,启动子位于被转录序列的5'区域中(即之前,位于上游)。启动子可以整体源自于天然来源,或者可以由源自于自然界中发现的不同启动子的不同元件组成,或甚至包含合成的核苷酸区段。启动子可以是组成型(即启动子激活不受诱导剂调控,因此转录速率恒定)或诱导型(即启动子激活受诱导剂或环境条件调控)的。启动子也可以将转录限制到所述生物体的某个发育阶段或某个形态上不同的部分。在大多数情况下,调控序列的精确边界尚未被完全定义,并且在某些情况下不能被完全定义,因此某些变异的DNA序列可能具有相同的启动子活性。
术语“终止子”是指调控转录终止的另一种调控DNA序列。终止子序列被可操作连接到待转录的核酸序列的3′端。
术语“C1启动子”和“C1终止子”是指适合用于C1、即能够在C1中指导基因表达的启动子和终止子序列。
然而,正如专业技术人员已知的,启动子和终止子的选择可能不是关键的,使用提供相似或相同的基因表达的各种不同启动子和终止子可以获得相似的结果。
术语“可操作连接”意味着所选核酸序列与调控元件(启动子、增强子和/或终止子)邻近,以允许所述调控元件调控所选核酸序列的表达。
本发明公开了使用遗传修饰的Th.heterothallica C1菌株生产感兴趣的蛋白质。正如上文中所述,也可以使用共有相似的内源前体生产途径的其他物种的丝状真菌。
根据某些实施方式,本发明的多核苷酸根据待生产的蛋白质的氨基酸序列,使用丝状真菌的密码子用法来设计。根据某些实施方式,所述丝状真菌属于盘菌亚门(Pezizomycotina)。根据某些实施方式,所述丝状真菌属于选自粪壳菌目(Sordariales)、肉座菌目(Hypocreales)、爪甲团囊菌目(Onygenales)和散囊菌目(Eurotiales)的组,包括如上文在“定义”部分中所描述的属和种。根据某些示例性实施方式,所述真菌是Th.heterothallica。根据这些实施方式,本发明的多核苷酸是在Th.heterothallica中鉴定到的多核苷酸或其同源物。根据某些当前示例性实施方式,所述真菌是Th.heterothallica C1。
根据某些示例性实施方式,所述Th.heterothallica C1菌株是菌株UV18-#100的衍生株。
所述一个或多个DNA构建体或表达载体各自包含控制所述多核苷酸在所述至少一个真菌细胞内转录的调控元件。所述调控元件可以是真菌、特别是Th.heterothallica C1内源的调控元件或对所述真菌来说外源的调控元件。
根据某些实施方式,所述调控元件选自5’调控元件(合称为启动子)和3’调控元件(合称为终止子),尽管这些核苷酸序列可能含有在严格意义上不被分类为启动子或终止子序列的其他调控元件。
根据某些实施方式,所述DNA构建体或表达载体包含至少一个启动子,其可操作连接到至少一个含有编码序列的多核苷酸,后者可操作连接到至少一个终止子。根据某些实施方式,所述启动子是所述真菌、特别是Th.heterothallica的内源启动子。根据另外或可选的实施方式,所述启动子对所述真菌、特别是Th.heterothallica来说是异源的。根据某些实施方式,所述终止子是所述真菌、特别是Th.heterothallica的内源终止子。根据其他或可选实施方式,所述终止子对所述真菌、特别是Th.heterothallica来说是异源的。
根据某些示例性实施方式,所述DNA构建体含有被称为“合成表达系统”(SES)的合成的调控元件,其基本上如国际(PCT)申请公开号WO 2017/144777中所述。
根据某些实施方式,所述多核苷酸被稳定整合到所述遗传修饰的真菌的至少一个细胞的至少一个染色体座位中。根据某些实施方式,所述多核苷酸被稳定整合到所述真菌染色体上的确定位点中。根据某些实施方式,所述多核苷酸被稳定整合到所述染色体的随机位点中。根据某些实施方式,所述多核苷酸可以以定向或随机方式作为1、2个或更多个拷贝并入到1、2个或更多个染色体座位中。
根据某些可选实施方式,正如本领域技术人员已知的,所述多核苷酸使用染色体外表达载体瞬时表达。
根据某些实施方式,将所述遗传修饰的真菌在适合的培养基中培养,提供了以与在相似条件下培养的相应的亲本真菌中产生的量相比提高的量的感兴趣的蛋白质的生产。
根据某些示例性实施方式,本发明提供了一种遗传修饰的Th.heterothallica C1真菌,其能够生产感兴趣的蛋白质。根据这些实施方式,此类遗传修饰的Th.heterothallica C1真菌包含至少一个具有KEX2和/或ALP7和至少一种另外的蛋白酶的降低的表达和/或活性的细胞。
根据某些实施方式,用于培养所述遗传修饰的真菌的适合的培养基包含选自葡萄糖、蔗糖、木糖、阿拉伯糖、半乳糖、果糖、乳糖、纤维二糖和甘油的碳源。根据某些实施方式,所述碳源由淀粉、甜菜和甘蔗的乙醇生产或其他生物生产的废物提供,例如包含可发酵糖的糖蜜、淀粉、包含聚合糖类(例如纤维素和半纤维素)的木质纤维生物质。
根据某些当前示例性实施方式,所述真菌是Th.heterothallica C1。根据某些实施方式,所述Th.heterothallica C1菌株选自:菌株UV18-25,保藏号VKM F-3631D;菌株NG7C-19,保藏号VKM F-3633D;和菌株UV13-6,保藏号VKM F-3632D。可以使用的其他菌株是:HC菌株UV18-100f,保藏号CBS141147;HC菌株UV18-100f,保藏号CBS141143;LC菌株W1L#100I,保藏号CBS141153;和LC菌株W1L#100I,保藏号CBS141149;及其衍生株。每种可能性代表本发明的独立实施方式。
根据另一方面,本发明提供了一种产生能够生产感兴趣的外源蛋白的真菌的方法,所述方法包括用编码所述感兴趣的蛋白质的至少一种多核苷酸转化所述真菌的至少一个细胞,所述真菌的至少一个细胞具有KEX2和/或ALP7和至少一种另外的蛋白酶的降低的表达和/或活性。
根据某些实施方式,所述方法还包括缺失、抑制或降低KEX2或ALP7的表达。根据某些实施方式,所述方法还包括缺失、抑制或降低选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4的至少一种蛋白酶的表达。
本文描述的术语蛋白质、特别是蛋白酶的“降低的表达”或“抑制的表达”可互换使用,并且包括但不限于缺失或破坏编码所述蛋白质的基因。
本文描述的术语蛋白质、特别是蛋白酶的“降低的活性”或“抑制的活性”可互换使用,并且还包括导致所述蛋白质的活性降低或废除的翻译后修饰。
根据本发明的教导,可以使用本领域中已知的用于用编码感兴趣的蛋白质的多核苷酸转化丝状真菌的任何方法。
所述真菌和多核苷酸如上文中所述。
根据又一方面,本发明提供了一种生产外源蛋白的方法,所述方法包括将所述遗传修饰的真菌、特别是本发明的Th.heterothallica C1真菌在适合的培养基中培养;和回收所述蛋白质产物。
根据某些实施方式,所述方法包括培养本文所描述的遗传修饰的真菌,每种真菌表达不同的感兴趣的蛋白质。根据某些实施方式,所述真菌表达不同冠状病毒变体的抗原。
根据某些实施方式,所述培养基包含选自葡萄糖、蔗糖、木糖、阿拉伯糖、半乳糖、果糖、乳糖、纤维二糖和甘油的碳源。根据某些实施方式,所述碳源是由淀粉、甜菜和甘蔗的乙醇生产或其他生物生产获得的废物,例如包含可发酵糖的糖蜜、淀粉、包含聚合糖类(例如纤维素和半纤维素)的木质纤维生物质。
根据某些实施方式,所述外源蛋白从真菌生长培养基纯化。
根据其他实施方式,所述外源蛋白从真菌团块中提取。可以使用本领域中已知的用于从植物组织提取和纯化蛋白质的任何方法。
根据另一方面,本发明提供了一种外源蛋白,其通过遗传修饰的真菌、特别是本发明的遗传修饰的Th.heterothallica C1生产。
根据某些实施方式,所述外源蛋白产物是冠状病毒抗原。根据某些实施方式,所述抗原是冠状病毒的全刺突蛋白。根据某些实施方式,所述抗原包含冠状病毒刺突蛋白的RBD序列或其片段。根据某些实施方式,所述RBD或其片段直接或间接融合到Spy标签。根据某些实施方式,所述抗原被附连到Spycatcher。
提出下面的实施例是为了更充分地说明本发明的某些实施方式。然而,它们绝不应被解释为限制本发明的广阔范围。本领域技术人员可以容易地设计本文公开的原理的许多变化和修改,而不背离本发明的范围。
实施例
实施例1:C1 alp7基因的缺失
将C1 alp7蛋白酶基因从早些时候缺失了12种蛋白酶的C1蛋白酶缺失谱系菌株中缺失。用于alp7的缺失盒分两部分构建在两个独立质粒中。这两个质粒中的标记片段彼此交叠,并且这个区域计划在5’和3’侧翼区片段与alp7基因两侧上的基因组DNA重组的同时,在C1中两个质粒之间经历同源重组。所述选择标记片段之间的重组使标记基因有功能,并且能够使转化体在选择下生长。所述缺失盒还含有5’侧翼区的正向重复序列,用于移除pyr4标记。缺失构建体质粒的序列阐述在SEQ ID NOs:21和22中。5’臂质粒pMYT0936含有用于整合的alp7 5′侧翼区片段(SEQ ID NO:21的第9–1,025位)和半个pyr4标记(SEQ ID NO:21的第1,033-2,812位)。3’臂质粒pMYT0937含有另一半pyr4标记(SEQ ID NO:22的第17-1273位)、正向重复序列(SEQ ID NO:22的第1282-1781位)和用于整合的alp7 3′侧翼区片段(SEQ ID NO:22的第1790-2759位)。
从C1基因组DNA扩增所述alp7侧翼区和正向重复序列的片段,并通过用NEBbuilderTMHiFi DNA组装试剂盒(New England Biolabs)按照制造商的说明书进行Gibson克隆,克隆到含有pyr4标记的源自于pSR426质粒的骨架载体中。将缺失构建体的两个部分从所述质粒切下,并如Visser,V.J等(Industrial Biotechnology 2011,7,214-223)中所述使用原生质体/PEG方法共转化到具有12种蛋白酶基因缺失的C1菌株DNL146中。
将在pyr4选择培养基平板上生长的转化的菌落在相同的选择培养基上再次划线。通过PCR进行正确转化体的鉴定。将来自于转化体划线的菌丝体溶解在20mM NaOH中,并在100℃下温育以裂解细胞。将1-2μl这种溶液作为模板,使用Phire Plant PCR试剂盒TM(Thermo Fisher)进行PCR。在该PCR中使用的寡核苷酸引物在表1中示出。缺失构建体在alp7座位中的整合通过两个PCR反应显示。在基因5’末端处的整合通过使用如SEQ ID NOs:25和26所阐述的引物的反应来显示。扩增出1233bp片段,这表明成功整合到alp7座位。在alp7的3’末端处的整合使用如SEQ ID NOs:27和28所阐述的引物来显示。扩增出1748bp片段,这表明成功整合到alp7座位。alp7基因的丧失通过使用如SEQ ID NOs:29和30所阐述的引物的反应来显示。未扩增出569bp的片段,这表明alp7基因的缺失。
表1.用于显示正确整合和alp7的丧失的寡核苷酸引物
SEQ ID NO: 序列
25(oMYT2190) CCTGCATTGCAAGTTCCCAC
26(oMYT0106) AGTTTGACAGTGCCCAGAGC
27(oMYT0027) AGCCTGGAAGGCCTATCTGG
28(oMYT0693) GGTCGGATTGGCTTGGTACA
29(oMYT0694) ACCACCGTCAACACGTACAA
30(oMYT0695) CAAAGGTCTTGCCACCGATG
31(oMYT2193) TTCGTTGCTAACACTCCCCC
32(oMYT2194) CTGGTTGATGGCCGAGTTGA
将对两个整合PCR反应阳性和对alp7 orf的丧失阳性的转化体,使用如SEQ IDNOs:31和32所阐述的引物通过定量PCR进行进一步分析,以证实alp7基因已从测试的转化体完全缺失。将对缺失盒在alp7座位中的整合阳性并在检测alp7基因存在的qPCR测试中阴性的一个C1转化体克隆储存在-80℃下,并给予菌株编号DNL150。
实施例2:C1 kex2基因的缺失
将C1 kex2蛋白酶基因从早些时候缺失了12种蛋白酶的C1蛋白酶缺失谱系菌株中缺失。用于kex2的缺失盒分两部分构建在两个独立质粒中,它在转化到C1后以与alp7缺失盒(上文描述)相似的方式起作用。所述缺失盒也含有5’侧翼区的正向重复序列,用于移除pyr4标记。所述缺失构建体质粒的序列阐述在SEQ ID NOs:23和24中。5’臂质粒pMYT0997含有用于整合的kex2 5′侧翼区片段(SEQ ID NO:23的第9–1,058位)和半个pyr4标记(SEQ IDNO:23的第1,033-2,812位)。3’臂质粒pMYT0998含有另一半pyr4标记(SEQ ID NO:24的第17-1273位)、正向重复序列(SEQ ID NO:24的第1281-1782位)和用于整合的kex2 3′侧翼区片段(SEQ ID NO:24的第1791-2690位)。
从C1基因组DNA扩增所述kex2侧翼区和正向重复序列的片段,并通过用NEBbuilderTMHiFi DNA组装试剂盒(New England Biolabs)按照制造商的说明书进行Gibson克隆,克隆到含有pyr4标记的源自于pSR426质粒的骨架载体中。将缺失构建体的两个部分从所述质粒切下,并如前在Visser,V.J等(同上)中所述共转化到具有12种蛋白酶基因缺失的C1菌株DNL146中。
将在pyr4选择培养基平板上生长的转化的菌落在相同的选择培养基上再次划线。通过PCR进行正确转化体的鉴定。将来自于转化体划线的菌丝体溶解在20mM NaOH中,并在100℃下温育以裂解细胞。将1-2μl这种溶液作为模板,使用Phire Plant PCR试剂盒TM(Thermo Fisher)进行PCR。在该PCR中使用的寡核苷酸引物在表2中示出。缺失构建体在kex2座位中的整合通过两个PCR反应显示。在基因5’末端处的整合通过使用如SEQ ID NOs:33和34所阐述的引物的反应来显示。扩增出1187bp片段,这表明成功整合到kex2座位。在kex2的3’末端处的整合使用如SEQ ID NOs:35和36所阐述的引物来显示。扩增出1849bp片段,这表明成功整合到kex2座位。kex2基因的丧失通过使用如SEQ ID NOs:37和38所阐述的引物的反应来显示。未扩增出510bp的片段,这表明kex2基因的缺失。
表2.用于显示正确整合和kex2的丧失的寡核苷酸引物
SEQ ID NO: 序列
33(oMYT2305) GGCAGATTATTCCGGACCGT
34(oMYT0106) AGTTTGACAGTGCCCAGAGC
35(oMYT0027) AGCCTGGAAGGCCTATCTGG
36(oMYT2306) TCAACGTGTGGGAGCAGTAC
37(oMYT2299) GGGCTCCATCTACGTCTTCG
38(oMYT2300 TGGATCCAGGGCGAGTAGAA
39(oMYT2301) TGGGCTCGTACGACTTCAAC
40(oMYT2302) CGGCGATGTTGGAGTCGTAT
41(oMYT2303) CGAGACCGACAAGACCAACA
42(oMYT2304) GAAGAGCACGATGAGCACGA
将对两个整合PCR反应阳性和对kex2 ORF的丧失阳性的转化体,使用如SEQ IDNOs:39和40所阐述的引物和使用如SEQ ID NOs:41和42所阐述的引物通过定量PCR进行进一步分析,以证实kex2基因已从测试的转化体完全缺失。将对缺失盒在kex2座位中的整合阳性并在检测kex2基因存在的qPCR测试中阴性的一个C1转化体克隆储存在-80℃下,并给予菌株编号DNL152。
实施例3:C1alp7基因和C1kex2基因的组合缺失
其中alp7基因和kex2基因均被缺失的C1菌株的产生,通过从其中早些时候缺失了alp7基因和12种其他蛋白酶基因的DNL150菌株中缺失kex2基因来进行。在缺失kex2基因之前,除去DNL150菌株中的pyr4标记,以便使用与上文DNL152菌株的产生中所述相同的缺失盒来缺失kex2基因。
使用在上文DNL150的产生中描述的缺失盒移除pyr4选择标记是基于两个特点:a)有功能的pyr4基因将5-氟乳清酸(5-FOA)转变成5-氟尿嘧啶这种有毒代谢物,因此失去有功能的pyr4基因的克隆能够在5-FOA存在下生长;和b)在5-FOA选择压力下,缺失构建体中的正向重复序列能够使所述克隆通过5’侧翼区与正向重复序列之间的同源重组事件移除pyr4选择标记。成功的重组成环排出完整的pyr4标记,能够使正确的克隆在5-FOA存在下生长。
从DNL150移除pyr4标记按照下述方案进行:将来自于平板的一小部分新鲜菌丝体悬浮在0.9% NaCl,0.025%吐温20溶液中。制备所述悬液的稀释液。将不同量的菌丝体悬液铺于含有5-氟乳清酸(5-FOA)的平板上(5-FOA平板的培养基组分:7mM KCl,11mM KH2PO4,0.1%葡萄糖,10mM尿嘧啶,10mM尿苷,2mM MgSO4,10mM脯氨酸,微量元素溶液(1000x:174mMEDTA,76mM ZnSO4.7H2O,178mM H3BO3,25mM MnSO4.H2O,18mM FeSO4.7H2O,7.1mMCoCL2.6H2O,6.4mM CuSO4.5H2O,6.2mM Na2MoO4.2H2O),4mM 5-氟乳清酸,20g/l颗粒琼脂,pH6.0)。将板在+35℃下温育,直至菌落出现。将在5-FOA培养板上生长的菌落在相同的选择培养基上再次划线。由于在5-FOA选择培养基上的生长不良并且划线未生长成清晰的划线,因此将来自于微弱划线的菌丝体在非选择培养基上重新划线(培养基组分:7mM KCl,55mMKH2PO4,1,0%葡萄糖,670mM蔗糖,0,6%酵母提取物,35mM(NH4)2SO4,2mM MgSO4,10mM尿嘧啶,10mM尿苷,微量元素溶液(1000x:174mM EDTA,76mM ZnSO4.7H2O,178mM H3BO3,25mMMnSO4.H2O,18mM FeSO4.7H2O,7.1mM CoCL2.6H2O,6.4mM CuSO4.5H2O,6.2mM Na2MoO4.2H2O),16g/l颗粒琼脂,pH 6.5),以获得良好生长。将在非选择培养基上高效生长的划线在不含的尿嘧啶和尿苷的pyr4选择培养基平板上重新划线,用于表型测试。在表型测试中,其中pyr4移除成功的克隆不能在未增补尿嘧啶和尿苷的培养基上生长(培养基组分:7mM KCl,11mMKH2PO4,1,0%葡萄糖,670mM蔗糖,35mM(NH4)2SO4,2mM MgSO4,微量元素溶液(1000x:174mMEDTA,76mM ZnSO4.7H2O,178mM H3BO3,25mM MnSO4.H2O,18mM FeSO4.7H2O,7.1mMCoCL2.6H2O,6.4mM CuSO4.5H2O,6.2mM Na2MoO4.2H2O),15g/l颗粒琼脂,pH 6.5)。将在表型测试平板中不生长的克隆使用如SEQ ID NO:43和44所阐述的引物,通过定量PCR分析pyr4的移除。在所述qPCR反应中使用的寡核苷酸引物在表3中示出。
表3.在用于pyr4的丧失的定量PCR中使用的寡核苷酸引物
SEQ ID NO: 序列
43(oMYT1292) TTGGTAAGACGGTGCAGATG
44(oMYT1293) GTAGTTGATGCGTTCCTTCCA
将在表型测试中不能生长并在定量PCR中显示出pyr4基因的阴性结果的一个DNL150 pyr4环出克隆储存在-80℃下,并给予菌株编号DNL151。
使用与上文在DNL152的产生中所述相同的缺失盒和转化方法,从C1菌株DNL151缺失Kex2蛋白酶。通过PCR反应鉴定正确整合和kex2缺失如上文在DNL152的产生中所述来进行。将对缺失盒在kex2座位中的整合阳性并在检测kex2基因存在的qPCR测试中阴性的一个C1转化体克隆储存在-80℃下,并给予菌株编号DNL155(Δalp1Δalp2Δpep4Δprt1Δsrp1Δalp3Δpep1Δmtp2Δpep5Δmtp4Δpep6Δalp4Δalp7Δkex2)。
实施例4:SARS-CoV-2RBD在蛋白酶缺陷的C1菌株中的表达
在蛋白酶缺陷的C1菌株中表达SARS-CoV-2刺突蛋白的受体结合结构域(RBD)。第一个构建体含有编码C1内源CBH1信号序列、来自于SARS-CoV-2的刺突蛋白的第333-527位残基、Gly-Ser-接头和两侧带有针对C1表达载体的重组序列和MssI限制性酶位点的C标签的序列。所述片段由GenScript(USA)合成,并被阐述为SEQ ID NO:45(RBD-C标签氨基酸序列,包括信号序列和在RBD与C标签之间的Gly/Ser接头)。优化所述基因的密码子用法以用于在Thermothelomyces heterothallica中表达。通过PCR从GenScript质粒扩增所述合成的片段,并通过Gibson组装(
Figure BDA0004047925810000431
HiFi DNA组装克隆试剂盒,New EnglandBiolabs)方法克隆到C1表达载体pMYT1055的PacI位点中,在内源C1 bgl8启动子和C1 chi1终止子之下。通过对插入到质粒中的片段进行测序来确认构建体的正确序列。序列正确的质粒被给予质粒编号pMYT1142(SEQ ID NO:46)。第二个构建体除了与pMYT1142中相同的序列之外,还含有Gly-Ser-接头和RBD结构域与C-端Gly-Ser接头之间的Spy标签以及C标签。这个序列被阐述为SEQ ID NO:47(RBD-Spy标签-C标签氨基酸序列,包括信号序列和Spy标签与C标签之间的Gly/Ser接头)。将所述第二个构建体以与pMYT1142相似的方式构建到pMYT1055表达载体中,并且序列正确的质粒被给予质粒编号pMYT1143(SEQ ID NO:48)。
将表达载体pMYT1142和完成潮霉素抗性标记基因和向bgl8座位的整合所需的模拟载体配偶体pMYT1140用MssI消化,并共转化到已缺失14种蛋白酶基因的DNL155菌株。所述转化使用原生质体/PEG方法(Visser,V.J等,同上)进行,并选择nia1+表型和潮霉素抗性的转化体。将转化体在选择培养基平板上划线,并从划线接种到24孔板中的液体培养基。所述培养基组分是(单位为g/L):葡萄糖5,酵母提取物1,(NH4)2SO4 4.6,MgSO4·7H2O 0.49,KH2PO4 7,48,和(单位为mg/L)EDTA 45,ZnSO4·7H2O 19.8,MnSO4·4H2O 3.87,CoCl2·6H2O1.44,CuSO4·5H2O 1.44,Na2MoO4·2H2O 1.35,FeSO4·7H2O 4.5,H3BO49.9,D-生物素0.004,50U/ml青霉素和0,05mg链霉素。将所述24孔板在35℃下以800RPM振摇温育4天。收集培养上清液并通过Western印迹进行分析,所述Western印迹使用标准方法,使用第一检测试剂Capture Select生物素-抗C标签抗体偶联物(ThermoFisher)和第二试剂IRDye 800CW链霉亲和素(Li-Cor)来进行。Western分析(图1)显示对于许多RBD-C标签和RBD-Spy标签-C标签转化体检测到预期尺寸的强信号,表明这两种蛋白质均在C1中产生。
通过单菌落铺板纯化产生RBD-C标签蛋白的转化体,纯化的克隆通过PCR检测表达盒的正确整合并通过qPCR检测克隆纯度来核实。将一个核实的产RBD-C标签的转化体储存在-80℃下,并给予菌株编号M4169。
以与上文为pMYT1142所述相同的方式将带有RBD-Spy标签-C标签版本的表达载体pMYT1143与模拟载体配偶体pMYT1140共转化,从24孔板培养物分析转化体(图1),并通过单菌落铺板进行纯化。在PCR核实后,将一个产RBD-Spy标签-C标签的C1转化体克隆储存在-80℃下,并给予菌株编号M4173。
也将质粒pMYT1142和pMYT1143转化到DNL155之外的其他C1蛋白酶缺陷菌株,以比较不同蛋白酶缺失菌株中的生产水平。这些菌株中的蛋白酶基因缺失列于表4中。将产RBD的质粒pMYT1142和pMYT1143转化到4种其他蛋白酶缺陷菌株:1)已缺失12种蛋白酶的DNL145菌株,2)已缺失13种蛋白酶的DNL150,3)作为DNL155的平行克隆的DNL159,和4)缺失了14种蛋白酶但kex2基因完整的DNL157。转化、转化体的分析、单菌落纯化和PCR分析以与上文为产生菌株M4169和M4173所述相同的方式进行。在所有四种蛋白酶缺陷菌株中,获得了几个核实的生产菌株均生产RBD-C标签和RBD-Spy标签-C标签两者。将来自于DNL145、DNL150、DNL157和DNL159中的这些新生产菌株的三个平行转化体与M4169和M4173以及这两种菌株的两个其他平行克隆一起,在24孔板中的液体培养基中,在35℃和800RPM振摇下培养4天。收集培养上清液并使用本领域中已知的方法在考马斯染色的SDS凝胶中进行分析。在kex2缺失的DNL155和DNL159菌株中观察到RBD蛋白的最高产量(图2)。
表4.在C1蛋白酶缺陷菌株中缺失的C1蛋白酶
Figure BDA0004047925810000451
将产生RBD-C标签蛋白的C1菌株M4169在2L生物反应器中,以分批补料方法在含有酵母提取物作为有机氮源和葡萄糖作为碳源的培养基中培养。所述培养在38℃下进行5天。在培养结束后,通过以4000g离心20分钟除去菌丝体,在得到的液体培养上清液中以1-2mM的浓度添加苯甲基磺酰氟以抑制蛋白酶活性,并将上清液储存在-80℃下。对于通过C标签亲和层析进行的RBD纯化来说,将100ml液体培养物在冰上融化,并在融化后将样品通过在+4℃下3x 20min 20000g离心进行澄清,然后通过0.45μM滤器过滤。将90ml透明上清液用1xPBS(12mM Na2HPO4*2H20,3mM NaH2PO4*H20,150mM NaCl pH7,3)稀释到终体积为200ml。C标签亲和纯化使用附连到
Figure BDA0004047925810000461
Start蛋白纯化系统(Cytiva)的10ml填充CaptureSelectC标签XL树脂柱(Thermo Fisher)进行,并以2.5ml/min的流速操作。在载样前首先将柱用5倍柱体积(CV)的1xPBS平衡。在载样后,将柱用15CV的1xPBS清洗,然后用5CV的20mM Tris-HCl,2M MgCl2,1mM EDTA pH7.5的一步梯度进行洗脱,级分体积为3ml。洗脱的RBD的量通过用包含在
Figure BDA0004047925810000462
Start系统中的Unicorn 1.0软件对洗脱峰的UV迹线进行积分来定量。在计算RBD-C标签的量中使用1.498的消光系数,并在计算RBD-Spy标签-C标签的量中使用1.450的消光系数。在洗脱后,将柱用5CV的0,1M甘氨酸pH 2.3再生,并用1xPBS清洗直至达到pH7.3。将含有蛋白质的洗脱级分合并用于透析步骤,以将洗脱缓冲液交换成1xPBS缓冲液。将合并的级分装入12ml透析盒中,将透析盒在1.5l1xPBS中在+4℃透析1h,并在磁力搅拌器上搅拌。1h后将1xPBS更换为新鲜缓冲液,并在相同条件下继续透析2h。最后,更换新鲜1xPBS并继续透析过夜。透析的RBD的浓度使用Nanodrop分光光度计测量280nm处的吸光度,对RBD-C标签使用1.498并对RBD-Spy标签-C标签使用1.450的消光系数来确定。将RBD制备物的等分试样储存在-80℃下。从M4169发酵亲和纯化RBD-C标签作为实例在图3A-3B中示出。在Western检测中使用SARS-CoV-2刺突RBD抗体、兔多克隆抗血清(SinoBiologicals)和山羊抗兔IRDye 680RD(Li-Cor)。
实施例5:蛋白质在Thermothelomyces heterothallica C1的不同菌株中的表达 和稳定性
Thermothelomyces heterothallica C1的不同菌株在图4中示出。
使用掺加实验来研究蛋白质和抗体的稳定性。添加靶蛋白并在真菌菌株的培养上清液中温育。在不同时间点获取样品并使用Western印迹进行分析。如图5和6中所示,ALP7的缺失对抗体稳定性具有正面影响。
图7示出了使用纤维蛋白原的掺加实验。在KEX2缺陷菌株中发现了提高的稳定性。
图8示出了使用Fc-FGF21的掺加实验。在KEX2和SRP10缺陷菌株中发现了提高的稳定性。
图9示出了mAb在蛋白酶缺陷菌株中的掺加实验和表达。与12x和13x SRP10蛋白酶缺陷菌株相比,在13x ALP7缺陷菌株中发现了提高的稳定性和蛋白量。当同一mAb在13xALP7蛋白酶缺失菌株中表达时,产生更加完整的mAb。
图10示出了mAb在具有kex2或alp7缺失的13x蛋白酶缺失菌株中的表达。与12x亲本菌株相比,在KEX2缺失菌株中没有形成27kDa降解片段(用箭头标记)。此外,与12x蛋白酶缺陷亲本菌株相比,在13x ALP7缺陷菌株中没有产生37kDa降解片段。
实施例6:RVFV在14x蛋白酶缺陷菌株中的表达
在13x蛋白酶缺失菌株DNL150和具有kex2缺失的14x蛋白酶缺失菌株DNL155中,来自于裂谷热病毒的疫苗抗原蛋白与来自相同表达载体的Spycatcher结构域表达为融合蛋白。
将用RVFV抗原表达载体转化的菌株在24孔板中生长,并使用针对RVFV抗原的抗体通过Western印迹分析抗原的产生。
如图11中所示,14x蛋白酶缺陷菌株DNL155的转化体显示出RVFV的高表达。表达水平远高于在13x蛋白酶缺陷菌株(DNL150)中。
实施例7:RBD-Spy标签在14x蛋白酶缺陷菌株中的表达和功能
在Thermothelomyces heterothallica C1的14x蛋白酶缺陷菌株中,与Spy标签融合的SARS-CoV-2刺突蛋白的受体结合结构域的结构形成呈现在图12A-12B中。将所述蛋白质偶联到SpyCatcher重组乙肝病毒表面抗原(HBsAg)病毒样粒子(VLP)疫苗,以研究使用所述产生的蛋白质作为疫苗的可能性。研究了两个批次的C1 RBD-Spy标签(#2和#4)。在SDS-PAGE凝胶中研究了蛋白质和偶联物的稳定性,然后使用小鼠抗HBsAg抗体(1st Ab)和山羊抗小鼠IgG-Ap(2nd Ab)通过Western印迹进行分析。如图12A-12B中所示,RBD-Spy标签被高效偶联到SpyCatcher HBsAg VLP。重要的是,偶联或未偶联SpyCatcher的RBD蛋白能够产生二聚体/三聚体。重组RBD的二聚化和三聚化模拟冠状病毒RBS的天然结构,并预期会产生高效疫苗。
接下来,使用CR3022抗体研究了RBD-Spy标签与人类ACE-2蛋白的结合。如13A-13F中所示,CR3022抗体能够与呈递在VLC粒子上的RBD结合。此外,使用间接ELISA显示了偶联的RBD结合hACE-2但不结合VLC粒子。合在一起,所述结果显示产生的与Spy标签融合的RBD被正确组装,呈递在VLC粒子上,并因此可用作疫苗。
实施例8:在C1中生产SARS-CoV-2受体结合结构域的Fc融合蛋白
在C1中进行了两种潜在冠状病毒SARS-CoV-2疫苗蛋白的生产,其中将SARS-CoV-2S2刺突蛋白的受体结合结构域(RBD)与IgG1抗体Fc结构域N-端或C-端融合。DNA片段编码与C1 bgl8启动子的40bp重叠区、C1 CBH1信号序列、RBD-Fc或Fc-RBD氨基酸序列的编码区(显示为SEQ ID NOs:49和51;所述序列包括信号序列和RBD与Fc之间的接头)、终止密码子和与C1的bgl8或chi1终止子的重叠区。所述DNA片段的蛋白质编码区显示为SEQ ID NOs:50和52。将与chi1终止子重叠的DNA片段克隆到表达构建体(质粒pMYT1055)的5’臂中,并将与bgl8终止子重叠的片段克隆到表达构建体(质粒pMYT1056)的3’臂中。利用Gibson组装方法,使用NEBuilderTMHiFi DNA组装试剂盒(New England Biolabs),按照制造商的说明书来进行克隆。得到的表达质粒被命名为pMYT1302(RBD-Fc 5’臂)、pMYT1303(RBD-Fc 3’臂)、pMYT1304(Fc-RBD 5’臂)和pMYT1305(Fc-RBD 3’臂)。
为了构建产RBD-Fc的C1菌株,将表达质粒pMYT1302和pMYT1303一起转化到三种不同C1菌株中:DNL155(Δalp1Δalp2Δpep4Δprt1Δsrp1Δalp3Δpep1Δmtp2Δpep5Δmtp4Δpep6Δalp4Δalp7Δkex2),DNL157(Δalp1Δalp2Δpep4Δprt1Δsrp1Δalp3Δpep1Δmtp2Δpep5Δmtp4Δpep6Δalp4Δalp7Δsrp10)和具有10种蛋白酶缺失的糖工程化菌M3599(Δalp1Δalp2Δpep4Δprt1Δsrp1Δalp3Δpep1Δmtp2Δalp6Δsrp7)。在转化后,表达构建体的5’和3’臂整合到bgl8座位,并且两个臂中的潮霉素抗性基因重叠片段彼此重组,以在bgl8座位中形成具有两个表达盒的最终表达构建体。转化如Visser,V.J等(同上)中所述来进行。选择具有潮霉素抗性的转化体,并使用24孔板培养和Western印迹筛选RBD-Fc蛋白的产生。Western分析使用标准方法来进行,使用1:10 000稀释的抗人类IgGF(c)山羊多克隆抗体-IRDye700DX偶联物(Licor)。信号检测使用Licor Odyssey荧光计装置进行。结果显示在具有10种蛋白酶缺失的M3599菌株中产生的RBD-Fc中只有一小部分具有全长(计算分子量为49.4kDa)。在M155和M157菌株中,大多数RBD-Fc不被蛋白酶降解并作为完整产物产生(图14A)。这些菌株具有alp7(DNL157)或alp7和kex2(DNL155)蛋白酶缺失。在DNL155中的生产水平明显高于DNL157中。总而言之,alp7和kex2缺失对RBD-Fc生产具有有益影响。
为了产生表达Fc-RBD融合蛋白的菌株,如上为RBD-Fc生产菌株的构建所述将质粒pMYT1304和pMYT1305一起转化到DNL155菌株中。如上所述通过Western印迹从24孔板培养物分析转化体的Fc-RBD(图14B)。检测到几个产生高水平Fc-RBD蛋白的转化体。绝大多数产物是完整的。
实施例9:用SARS-CoV-2RBD抗原对小鼠疫苗接种
测试了实施例4产生的SARS-CoV-2刺突蛋白作为疫苗的用途。将所述SARS-CoV-2RBD抗原注射到K18 hACE2转基因小鼠。将两组转基因小鼠用20μg用Alhydrogel配制的RBD疫苗接种。初期疫苗接种在第1天(“初免”)和第21天(“加强”)进行。在第42天,将小鼠用2000PFU的SARS-CoV-2攻击。血清研究揭示出所述抗原产生高滴度的中和抗体。在用SARS攻击后2天,所有对照小鼠死亡,而14只疫苗接种的小鼠中的13只存活,几乎没有体重减轻。
实施例10:在蛋白酶缺陷的C1菌株中αMHCII-Cal07重组抗原的表达
在蛋白酶缺陷的C1菌株中表达由MHCII靶向结构域和流感毒株A/California/07/2009(亚型H1N1)的HA抗原组成的重组抗原αMHCII-Cal07。所述表达构建体含有编码C1内源CBH1信号序列、MHCII特异性靶向单元、20-aa的接头、源自于流感毒株A/California/07/2009的HA蛋白的第18-541位残基和两侧带有针对C1表达载体的重组序列和MssI限制性酶识别位点的C标签的序列。所述片段由GenScript(USA)合成。将基因的密码子用法进行优化以用于在Thermothelomyces heterothallicus中表达。通过用限制性酶MssI消化从GenScript质粒释放出所述合成的片段,并通过Gibson组装(
Figure BDA0004047925810000491
HiFi DNA组装克隆试剂盒,New England Biolabs)方法克隆到C1表达载体pMYT1055的PacI位点中,在内源C1 bgl8启动子和C1 chi1终止子之下。通过对插入到质粒中的片段进行测序来确认构建体的正确序列。序列正确的质粒被给予质粒编号pMYT1242。
在第二种情况下,通过PCR从GenScript质粒扩增所述合成的片段,并通过Gibson组装方法克隆到C1表达载体pMYT0987的PacI位点中,在合成AnSES启动子和内源C1 chi1终止子之下。通过对插入到质粒中的片段进行测序来确认构建体的正确序列。序列正确的质粒被分派质粒编号pMYT1243。
将表达载体pMYT1242和完成潮霉素抗性标记基因和向bgl8座位的整合所需的模拟载体配偶体pMYT1140用MssI消化,并共转化到14种蛋白酶基因已缺失的DNL155菌株和10种蛋白酶基因已缺失的M3599菌株。在上述菌株中缺失的蛋白酶列于表5中。转化使用原生质体/PEG方法(Visser,V.J等(同上))进行,并选择具有nia1+表型和潮霉素抗性的转化体。将转化体在选择培养基平板上划线,并从所述划线接种到24孔板中的液体培养物。培养基组分是:(单位为g/L)葡萄糖5,酵母提取物1,(NH4)2SO4 4.6,MgSO4·7H2O 0.49,KH2PO47.48,和(单位为mg/L)EDTA 45,ZnSO4·7H2O 19.8,MnSO4·4H2O 3.87,CoCl2·6H2O1.44,CuSO4·5H2O 1.44,Na2MoO4·2H2O 1.35,FeSO4·7H2O4.5,H3BO4 9.9,D-生物素0.004,50U/ml青霉素和0.05mg链霉素。将所述24孔板在35℃和800RPM振摇下温育4天。收集培养上清液并通过Western印迹进行分析,所述Western印迹使用标准方法,使用第一检测试剂Capture Select生物素-抗C标签抗体偶联物(ThermoFisher)和第二试剂IRDye 800CW链霉亲和素(Li-Cor)来进行。对于源自于DNL155菌株的许多αMHCII-Cal07转化体,Western分析(图15)显示出预期尺寸(87kDa)的强信号,确认了所述蛋白质在C1中产生。然而,在源自于M3599的任何转化体中未能检测到预期尺寸的产物。与DNL155来源的转化体相比,M3599来源的转化体中存在的另外的蛋白酶引起产物的蛋白水解降解。
通过单菌落铺板纯化产生αMHCII-Cal07蛋白的转化体,纯化的克隆通过PCR检测表达盒的正确整合并通过qPCR检测克隆纯度来核实。将一个核实的产αMHCII-Cal07的转化体作为甘油储用物储存在-80℃下,并给予菌株编号M4540。
以与上文为pMYT1242所述相同的方式将C1菌株DNL155用MssI消化的带有由合成的AnSES启动子控制的αMHCII-Cal07构建体的表达载体pMYT1243和模拟载体配偶体pMYT1141进一步共转化,从24孔板培养物分析转化体(图15),并通过单菌落铺板进行纯化。在PCR核实后,将一个产αMHCII-Cal07的C1转化体克隆储存在-80℃下,并给予菌株编号M4543。
另外,以与上文为DNL155所述相同的方式,将缺失了14种蛋白酶基因并缺失了编码多萜醇-P-Man依赖性α(1-3)甘露糖基转移酶的alg3基因的C1菌株M4621用MssI消化的表达载体pMYT1243和模拟载体pMYT1141共转化。alg3基因的缺失引起附连到糖蛋白的N-聚糖的结构的变化,导致向具有更少甘露糖残基的更小N-聚糖物质转变。将在这种转化后得到的转化体在24孔板中的液体培养基中,在35℃和800RPM振摇下培养4天。收集培养上清液并通过Western印迹进行分析,所述Western印迹使用标准方法,使用第一检测试剂CaptureSelect生物素-抗C标签抗体偶联物(ThermoFisher)和针对流感毒株A/California/07/2009的HA抗原产生的鼠类单克隆抗体29E3(Manicassamy等,2010;PLoS Pathog 6(1):e1000745.doi:10.1371/journal.ppat.1000745)和第二试剂IRDye 680RD链霉亲和素(Li-Cor)和IRDye 800CW山羊抗小鼠IgG第二抗体(Li-Cor)来进行。Western分析显示对于许多转化体来说存在预期尺寸(87kDa)的信号,确认了所述蛋白质在M4621来源的转化体中产生(数据未示出)。
表5-C1蛋白酶缺陷菌株中缺失的C1蛋白酶
Figure BDA0004047925810000511
将产生αMHCII-Cal07重组蛋白的C1菌株M4540在0.25L生物反应器中,以分批补料方法在含有酵母提取物作为有机氮源和葡萄糖作为碳源的培养基中培养。所述培养在38℃下进行7天。在培养结束后,将发酵液储存在-80℃下。对于通过C标签亲和层析进行的αMHCII-Cal07纯化来说,将50ml液体培养物在冰上融化,并在融化后将样品通过在+4℃下3x20min 20000×g离心进行澄清,然后通过0.45μM滤器过滤。将33ml透明上清液用1xPBS/0.5M NaCl(12mM Na2HPO4 2H2O,3mM NaH2PO4 H2O,650mM NaCl pH 7,3)稀释到终体积为100ml。C标签亲和纯化使用附连到
Figure BDA0004047925810000521
Start蛋白纯化系统(Cytiva)的1mlCaptureSelect C标签XL柱(Thermo Fisher)进行,并以1ml/min的流速操作。在载样前首先将柱用5倍柱体积(CV)的1×PBS/0.5M NaCl平衡。在载样后,将柱用15CV的1×PBS/0.5MNaCl清洗,然后用10CV的20mM Tris-HCl,2M MgCl2,1mM EDTA pH7.5的一步梯度进行洗脱,级分体积为1ml。洗脱的αMHCII-Cal07的量通过用包含在
Figure BDA0004047925810000522
Start系统中的Unicorn1.0软件对洗脱峰的UV迹线进行积分来定量。在计算αMHCII-Cal07的量中使用1.7的消光系数。在洗脱后,将柱用5CV的0.1M甘氨酸pH 2.3再生,并用1×PBS清洗直至达到pH7.3。将含有蛋白质的洗脱级分合并用于透析步骤,以将洗脱缓冲液交换成1×PBS缓冲液。将合并的级分装入12ml透析盒中,将透析盒在1.5L 1×PBS中在+4℃透析1h,并在磁力搅拌器上搅拌。1h后将1×PBS更换为新鲜缓冲液,并在相同条件下继续透析2h。最后,更换1×PBS并继续透析过夜。透析的αMHCII-Cal07的浓度使用Nanodrop分光光度计测量280nm处的吸光度并使用1.7的消光系数来确定。将RBD制备物的等分试样储存在-80℃下。从M4540发酵上清液亲和纯化αMHCII-Cal07作为实例在图16A-16C中示出。在Western检测中使用第一试剂CaptureSelect生物素-抗C标签抗体偶联物(ThermoFisher)和针对流感HA抗原产生的鼠类单克隆抗体29E3和第二试剂IRDye 680RD链霉亲和素(Li-Cor)和IRDye 800CW山羊抗小鼠IgG第二抗体(Li-Cor)。
实施例11:SARS-CoV-2RBD变体在14种蛋白酶缺陷的C1菌株中的表达
在蛋白酶缺陷的C1菌株DNL155中表达SARS-CoV-2刺突蛋白的受体结合结构域(RBD)的三种变体。所述三种变体是:1)具有N501Y突变的RBD_B.1.1.7-UK,2)具有K417N、E484K和N501Y突变的RBD_B.1.351-SA,和3)具有K417T、E484K和N501Y突变的RBD_1.1.28.1(P.1)-BR。每种变体的片段由GenScript(USA)合成,并使用Wuhan RBD的优化序列(在实施例4的pMYT1142中)作为基础,从其将突变的氨基酸用C1中最频繁的密码子代替。所述合成的片段的设计类似于带有C标签的Wuhan RBD(在实施例4的pMYT1142中使用),区别在于RBD变体与C标签之间的Gly/Ser接头长为3个氨基酸,而在Wuhan RBD-C标签中所述接头长为5个氨基酸。变体RBD在C1中作为两个基因拷贝表达,并且为了在同一基因组座位中进行双拷贝表达,为每种变体制造了两个质粒构建体(5’臂和3’臂),两者均带有一个基因拷贝。在C1细胞中,5’臂和3’臂质粒中的选择标记片段之间的重组使所述标记基因有功能,并且能够使所述转化体在选择下生长。对于5’臂质粒来说,通过PCR从GenScript质粒扩增合成的片段,并通过Gibson组装(
Figure BDA0004047925810000531
HiFi DNA组装克隆试剂盒,New England Biolabs)方法克隆到C1表达载体pMYT1055的PacI位点中,在内源C1 bgl8启动子和C1 chi1终止子之下。通过对插入到质粒中的片段进行测序确认了构建体的正确序列。序列正确的质粒分别给予质粒编号pMYT1572(对于RBD_B.1.1.7-UK来说)、pMYT1574(对于RBD_B.1.351-SA来说)和pMYT1576(对于RBD_1.1.28.1(P.1)-BR来说)。对于3’臂质粒来说,将在GenScript质粒中的合成片段用MssI限制性酶切下,并通过Gibson组装(
Figure BDA0004047925810000532
HiFi DNA组装克隆试剂盒,New England Biolabs)方法克隆到C1表达载体pMYT1056的PacI位点中,在内源C1bgl8启动子和C1 bgl8终止子之下。序列正确的质粒分别给予质粒编号pMYT1573(对于RBD_B.1.1.7-UK来说)、pMYT1575(对于RBD_B.1.351-SA来说)和pMYT1577(对于RBD_1.1.28.1(P.1)-BR)来说。
对于双拷贝表达来说,将5’臂和3’臂质粒两者用MssI消化,并将带有相同变体基因的质粒共转化到已缺失14种蛋白酶基因的DNL155菌株。选择DNL155作为宿主菌株是因为在几种C1蛋白酶缺失菌株中测试了Wuhan RBD的生产(实施例4),并在均为具有kex2缺失的14种蛋白酶缺失菌株的DNL155和DNL159菌株中产量最高。与Wuhan RBD(实施例4)相同通过24孔培养进行了转化和转化体的筛选,区别在于将培养上清液通过同时使用两种第一检测试剂的Western印迹进行分析:SARS-CoV-2(2019-nCoV)刺突RBD抗体,兔多克隆抗血清(SinoBiologicals目录号40592-T62),和Capture Select生物素-抗C标签抗体偶联物(ThermoFisher)。第二检测试剂是山羊抗兔IRDye680RD(Li-Cor)和IRDye 800CW链霉亲和素(Li-Cor)。图17示出了使用每种RBD变体的至少一个阳性转化体获得的Western印迹结果的实例。使用两种第一抗体均检测到预期尺寸的强信号,并且变体RBD-C标签蛋白的生产水平似乎等于产生Wuhan RBD-C标签的M4169对照菌株。
RBD_B.1.1.7-UK的氨基酸序列阐述在SEQ ID NO:53中,DNA序列阐述在SEQ IDNO:54中。所述序列包括信号序列、Gly/Ser接头和C标签。
RBD_B.1.351-SA的氨基酸序列阐述在SEQ ID NO:55中,DNA序列阐述在SEQ IDNO:56中。所述序列包括信号序列、Gly/Ser接头和C标签。
RBD_1.1.28.1(P.1)-BR的氨基酸序列阐述在SEQ ID NO:57中,DNA序列阐述在SEQID NO:58中。所述序列包括信号序列、Gly/Ser接头和C标签。
特定实施方式的上述描述充分揭示了本发明的总体性质,使得其他人可以不需过多实验并且不背离一般性概念,通过应用当前知识容易地修改和/或改编此类特定实施方式以适用于各种不同应用,因此,此类改编和修改应该并且旨在涵盖在所公开的实施方式的等同物的含义和范围之内。应该理解,本文中使用的短语或术语是出于描述而不是限制的目的。用于执行各种公开的功能的手段、材料和步骤可以采取各种不同的替代形式,而不背离本发明。
序列表
<110> 二进国际有限公司
<120> 用于生产外源蛋白的修饰的丝状真菌
<130> DYD/005 PCT
<150> US 62/024550
<151> 2020-05-14
<160> 58
<170> PatentIn version 3.5
<210> 1
<211> 392
<212> PRT
<213> Thermothelomyces thermophilus
<400> 1
Met His Phe Ser Thr Ala Leu Leu Ala Phe Leu Pro Ala Ala Leu Ala
1 5 10 15
Ala Pro Thr Ala Glu Thr Leu Asp Lys Arg Ala Pro Ile Leu Thr Ala
20 25 30
Arg Ala Gly Gln Val Val Pro Gly Lys Tyr Ile Ile Lys Leu Arg Asp
35 40 45
Gly Ala Ser Asp Asp Val Leu Glu Ala Ala Ile Gly Lys Leu Arg Ser
50 55 60
Lys Ala Asp His Val Tyr Arg Gly Lys Phe Arg Gly Phe Ala Gly Lys
65 70 75 80
Leu Glu Asp Asp Val Leu Asp Ala Ile Arg Leu Leu Pro Glu Val Glu
85 90 95
Tyr Val Glu Glu Glu Ala Ile Phe Thr Ile Asn Ala Tyr Thr Ser Gln
100 105 110
Ser Asn Ala Pro Trp Gly Leu Ala Arg Leu Ser Ser Lys Thr Ala Gly
115 120 125
Ser Thr Thr Tyr Thr Tyr Asp Thr Ser Ala Gly Glu Gly Thr Cys Ala
130 135 140
Tyr Val Ile Asp Thr Gly Ile Tyr Thr Ser His Ser Asp Phe Gly Gly
145 150 155 160
Arg Ala Thr Phe Ala Ala Asn Phe Val Asp Ser Ser Asn Thr Asp Gly
165 170 175
Asn Gly His Gly Thr His Val Ala Gly Thr Ile Gly Gly Thr Thr Tyr
180 185 190
Gly Val Ala Lys Lys Thr Lys Leu Tyr Ala Val Lys Val Leu Gly Ser
195 200 205
Asp Gly Ser Gly Thr Thr Ser Gly Val Ile Ala Gly Ile Asn Phe Val
210 215 220
Ala Asp Asp Ala Pro Lys Arg Ser Cys Pro Lys Gly Val Val Ala Asn
225 230 235 240
Met Ser Leu Gly Gly Ser Tyr Ser Ala Ser Ile Asn Asn Ala Ala Ala
245 250 255
Ala Leu Val Arg Ser Gly Val Phe Leu Ala Val Ala Ala Gly Asn Glu
260 265 270
Asn Gln Asn Ala Ala Asn Ser Ser Pro Ala Ser Glu Ala Ser Ala Cys
275 280 285
Thr Val Gly Ala Thr Asp Arg Asn Asp Ala Lys Ala Ser Tyr Ser Asn
290 295 300
Tyr Gly Ser Val Val Asp Ile Gln Ala Pro Gly Ser Asn Ile Leu Ser
305 310 315 320
Thr Trp Ile Gly Ser Thr Ser Ala Thr Asn Thr Ile Ser Gly Thr Ser
325 330 335
Met Ala Ser Pro His Ile Ala Gly Leu Gly Ala Tyr Leu Leu Ala Leu
340 345 350
Glu Gly Ser Lys Thr Pro Ala Glu Leu Cys Asn Tyr Ile Lys Ser Thr
355 360 365
Gly Asn Ala Ala Ile Thr Gly Val Pro Ser Gly Thr Thr Asn Arg Ile
370 375 380
Ala Phe Asn Gly Asn Pro Ser Ala
385 390
<210> 2
<211> 397
<212> PRT
<213> Thermothelomyces thermophilus
<400> 2
Met Lys Asp Ala Phe Leu Leu Thr Ala Ala Val Leu Leu Gly Ser Ala
1 5 10 15
Gln Gly Ala Val His Lys Met Lys Leu Gln Lys Ile Pro Leu Ser Glu
20 25 30
Gln Leu Glu Ala Val Pro Ile Asn Thr Gln Leu Glu His Leu Gly Gln
35 40 45
Lys Tyr Met Gly Leu Arg Pro Arg Glu Ser Gln Ala Asp Ala Ile Phe
50 55 60
Lys Gly Met Val Ala Asp Val Lys Gly Asn His Pro Ile Pro Ile Ser
65 70 75 80
Asn Phe Met Asn Ala Gln Tyr Phe Ser Glu Ile Thr Ile Gly Thr Pro
85 90 95
Pro Gln Ser Phe Lys Val Val Leu Asp Thr Gly Ser Ser Asn Leu Trp
100 105 110
Val Pro Ser Val Glu Cys Gly Ser Ile Ala Cys Tyr Leu His Ser Lys
115 120 125
Tyr Asp Ser Ser Ala Ser Ser Thr Tyr Lys Lys Asn Gly Thr Ser Phe
130 135 140
Glu Ile Arg Tyr Gly Ser Gly Ser Leu Ser Gly Phe Val Ser Gln Asp
145 150 155 160
Thr Val Ser Ile Gly Asp Ile Thr Ile Gln Gly Gln Asp Phe Ala Glu
165 170 175
Ala Thr Ser Glu Pro Gly Leu Ala Phe Ala Phe Gly Arg Phe Asp Gly
180 185 190
Ile Leu Gly Leu Gly Tyr Asp Arg Ile Ser Val Asn Gly Ile Val Pro
195 200 205
Pro Phe Tyr Lys Met Val Glu Gln Lys Leu Ile Asp Glu Pro Val Phe
210 215 220
Ala Phe Tyr Leu Ala Asp Thr Asn Gly Gln Ser Glu Val Val Phe Gly
225 230 235 240
Gly Val Asp His Asp Lys Tyr Lys Gly Lys Ile Thr Thr Ile Pro Leu
245 250 255
Arg Arg Lys Ala Tyr Trp Glu Val Asp Phe Asp Ala Ile Ser Tyr Gly
260 265 270
Asp Asp Thr Ala Glu Leu Glu Asn Thr Gly Ile Ile Leu Asp Thr Gly
275 280 285
Thr Ser Leu Ile Ala Leu Pro Ser Gln Leu Ala Glu Met Leu Asn Ala
290 295 300
Gln Ile Gly Ala Lys Lys Ser Tyr Thr Gly Gln Tyr Thr Ile Asp Cys
305 310 315 320
Asn Lys Arg Asp Ser Leu Lys Asp Val Thr Phe Asn Leu Ala Gly Tyr
325 330 335
Asn Phe Thr Leu Gly Pro Tyr Asp Tyr Val Leu Glu Val Gln Gly Ser
340 345 350
Cys Ile Ser Thr Phe Met Gly Met Asp Phe Pro Ala Pro Thr Gly Pro
355 360 365
Leu Ala Ile Leu Gly Asp Ala Phe Leu Arg Arg Tyr Tyr Ser Ile Tyr
370 375 380
Asp Leu Gly Ala Asp Thr Val Gly Leu Ala Glu Ala Lys
385 390 395
<210> 3
<211> 534
<212> PRT
<213> Thermothelomyces thermophilus
<400> 3
Met Arg Gly Leu Val Ala Phe Ser Leu Ala Ala Cys Val Ser Ala Ala
1 5 10 15
Pro Ser Phe Lys Thr Glu Thr Ile Asn Gly Glu His Ala Pro Ile Leu
20 25 30
Ser Ser Ser Asn Ala Glu Val Val Pro Asn Ser Tyr Ile Ile Lys Phe
35 40 45
Lys Lys His Val Asp Glu Ser Ser Ala Ser Ala His His Ala Trp Ile
50 55 60
Gln Asp Ile His Thr Ser Arg Glu Lys Val Arg Gln Asp Leu Lys Lys
65 70 75 80
Arg Gly Gln Val Pro Leu Leu Asp Asp Val Phe His Gly Leu Lys His
85 90 95
Thr Tyr Lys Ile Gly Gln Glu Phe Leu Gly Tyr Ser Gly His Phe Asp
100 105 110
Asp Glu Thr Ile Glu Gln Val Arg Arg His Pro Asp Val Glu Tyr Ile
115 120 125
Glu Arg Asp Ser Ile Val His Thr Met Arg Val Thr Glu Glu Thr Cys
130 135 140
Asp Gly Glu Leu Glu Lys Ala Ala Pro Trp Gly Leu Ala Arg Ile Ser
145 150 155 160
His Arg Asp Thr Leu Gly Phe Ser Thr Phe Asn Lys Tyr Leu Tyr Ala
165 170 175
Ala Glu Gly Gly Glu Gly Val Asp Ala Tyr Val Ile Asp Thr Gly Thr
180 185 190
Asn Ile Glu His Val Asp Phe Glu Gly Arg Ala Lys Trp Gly Lys Thr
195 200 205
Ile Pro Ala Gly Asp Ala Asp Val Asp Gly Asn Gly His Gly Thr His
210 215 220
Cys Ser Gly Thr Ile Ala Gly Lys Lys Tyr Gly Val Ala Lys Lys Ala
225 230 235 240
Asn Val Tyr Ala Val Lys Val Leu Arg Ser Asn Gly Ser Gly Thr Met
245 250 255
Ala Asp Val Val Ala Gly Val Glu Trp Ala Ala Lys Ser His Leu Glu
260 265 270
Gln Val Gln Ala Ala Lys Asp Gly Lys Arg Lys Gly Phe Lys Gly Ser
275 280 285
Val Ala Asn Met Ser Leu Gly Gly Gly Lys Thr Arg Ala Leu Asp Asp
290 295 300
Thr Val Asn Ala Ala Val Ser Val Gly Ile His Phe Ala Val Ala Ala
305 310 315 320
Gly Asn Asp Asn Ala Asp Ala Cys Asn Tyr Ser Pro Ala Ala Ala Glu
325 330 335
Lys Ala Val Thr Val Gly Ala Ser Ala Ile Asp Asp Ser Arg Ala Tyr
340 345 350
Phe Ser Asn Tyr Gly Lys Cys Thr Asp Ile Phe Ala Pro Gly Leu Ser
355 360 365
Ile Leu Ser Thr Trp Ile Gly Ser Lys Tyr Ala Thr Asn Thr Ile Ser
370 375 380
Gly Thr Ser Met Ala Ser Pro His Ile Ala Gly Leu Leu Ala Tyr Tyr
385 390 395 400
Leu Ser Leu Gln Pro Ala Thr Asp Ser Glu Tyr Ser Val Ala Pro Ile
405 410 415
Thr Pro Glu Lys Met Lys Ser Asn Leu Leu Lys Ile Ala Thr Gln Asp
420 425 430
Ala Leu Thr Asp Ile Pro Asp Glu Thr Pro Asn Leu Leu Ala Trp Asn
435 440 445
Gly Gly Gly Cys Asn Asn Tyr Thr Ala Ile Val Glu Ala Gly Gly Tyr
450 455 460
Lys Ala Lys Lys Lys Thr Thr Thr Asp Lys Val Asp Ile Gly Ala Ser
465 470 475 480
Val Ser Glu Leu Glu Lys Leu Ile Glu His Asp Phe Glu Val Ile Ser
485 490 495
Gly Lys Val Val Lys Gly Val Ser Ser Phe Ala Asp Lys Ala Glu Lys
500 505 510
Phe Ser Glu Lys Ile His Glu Leu Val Asp Glu Glu Leu Lys Glu Phe
515 520 525
Leu Glu Asp Ile Ala Ala
530
<210> 4
<211> 307
<212> PRT
<213> Thermothelomyces thermophilus
<400> 4
Met Lys Pro Thr Val Leu Phe Thr Leu Leu Ala Ser Gly Ala Tyr Ala
1 5 10 15
Ala Ala Thr Pro Ala Ile Pro Gly Tyr Ser Pro Arg Thr Arg Gly Met
20 25 30
Asn Pro His His His Ala Pro Leu Arg Leu Leu His Thr Phe Thr Pro
35 40 45
Ile Ser Thr Ser Gly Lys Ser Phe Arg Leu Leu Ala Ser Ser Thr Glu
50 55 60
Ser Thr Lys Gly Gly Ala Ile Leu Gly Leu Pro Asp Asn Asp Leu Ser
65 70 75 80
Thr Val Arg Thr Thr Ile Arg Ile Pro Ala Ala Lys Met Pro Thr Ala
85 90 95
Gly Pro Thr Ala Asn Asn Thr Val Gly Glu Tyr Ala Ala Ser Phe Trp
100 105 110
Val Gly Ile Asp Ser Ala Thr Asp Ala Cys Gly Ala Gly Gly Ser Leu
115 120 125
Arg Ala Gly Val Asp Ile Phe Trp Asp Gly Thr Leu Gly Gly Gln Gln
130 135 140
Thr Pro Phe Ala Trp Tyr Gln Gly Pro Gly Gln Ala Asp Val Val Gly
145 150 155 160
Phe Gly Gly Gly Phe Pro Val Gly Glu Gly Asp Leu Val Arg Leu Thr
165 170 175
Leu Glu Ala Gly Pro Ala Gly Gly Glu Glu Ile Ala Val Val Ala Glu
180 185 190
Asn Phe Gly Arg Asn Val Thr Arg Ala Asp Glu Gly Ala Val Pro Val
195 200 205
Arg Lys Val Arg Lys Val Leu Pro Ala Glu Ala Gly Gly Gln Lys Leu
210 215 220
Cys Arg Gly Glu Ala Ala Trp Met Val Glu Asp Phe Pro Leu Gln Gly
225 230 235 240
Arg Pro Glu Phe Pro Thr Ala Leu Ala Asn Phe Thr Ser Val Thr Phe
245 250 255
Asn Thr Gly Ile Thr Leu Asp Asp Gly Thr Glu Lys Asp Leu Thr Gly
260 265 270
Ala Glu Val Leu Asp Ile Gln Leu Glu Ala Gln Gly Gly Arg Leu Thr
275 280 285
Ser Cys Glu Val Val Asp Asp Arg Asn Val Lys Cys Ala Arg Val Val
290 295 300
Gly Asp Asn
305
<210> 5
<211> 554
<212> PRT
<213> Thermothelomyces thermophilus
<400> 5
Met Arg Ile Ala Ala Ser Thr Val Leu Leu Gly Ala Ala Ser Ala Ala
1 5 10 15
Ser Phe Gln Gln Gln Ala Gln His Val Leu Ser Asp Gly Phe Gly Lys
20 25 30
Ala Gln Glu Ala Met Lys Pro Leu Ser Asp Ala Leu Ala Asp Ala Ala
35 40 45
Gly Arg Pro Ile Glu Asn Phe Glu Glu Ala Phe Ser Gly Met Thr Ala
50 55 60
Glu Ala Lys Ala Leu Trp Glu Glu Ile Lys Leu Leu Val Pro Asp Ser
65 70 75 80
Ala Phe Lys Asn Pro Ser Trp Phe Ser Lys Pro Lys Pro His Arg Arg
85 90 95
Arg Asp Asp Trp Asp His Val Val Lys Gly Ala Asp Val Gln Lys Ile
100 105 110
Trp Val Gln Asp Ala Asn Gly Glu Ser His Arg Gln Val Gly Gly Arg
115 120 125
Ile Glu Asp Tyr Asn Leu Arg Val Lys Thr Val Asp Pro Ser Lys Leu
130 135 140
Gly Val Asp Ser Val Lys Gln Phe Ser Gly Tyr Leu Asp Asp Glu Ala
145 150 155 160
Asn Asp Lys His Leu Phe Tyr Trp Phe Phe Glu Ser Arg Asn Asp Pro
165 170 175
Lys Asn Asp Pro Val Val Leu Trp Leu Asn Gly Gly Pro Gly Cys Ser
180 185 190
Ser Leu Thr Gly Leu Phe Leu Glu Leu Gly Pro Ser Ser Ile Asp Lys
195 200 205
Asn Leu Lys Val Val Asn Asn Glu Phe Ser Trp Asn Asn Asn Ala Ser
210 215 220
Val Ile Phe Leu Asp Gln Pro Val Asn Val Gly Tyr Ser Tyr Ser Gly
225 230 235 240
Ser Ser Val Ser Asn Thr Ile Ala Ala Gly Lys Asp Val Tyr Ala Leu
245 250 255
Leu Thr Leu Phe Phe His Gln Phe Pro Glu Tyr Ala Lys Gln Asp Phe
260 265 270
His Ile Ala Gly Glu Ser Tyr Ala Gly His Tyr Ile Pro Val Phe Ala
275 280 285
Ser Glu Ile Leu Ser His Lys Asn Arg Asn Ile Asn Leu Lys Ser Ile
290 295 300
Leu Ile Gly Asn Gly Leu Thr Asp Gly Leu Thr Gln Tyr Glu Tyr Tyr
305 310 315 320
Arg Pro Met Ala Cys Gly Glu Gly Gly Tyr Pro Ala Val Leu Ser Glu
325 330 335
Ser Glu Cys Arg Ser Met Asp Asn Ala Leu Pro Arg Cys Gln Ser Leu
340 345 350
Ile Arg Asn Cys Tyr Asp Ser Gly Ser Val Trp Ser Cys Val Pro Ala
355 360 365
Ser Ile Tyr Cys Asn Asn Ala Leu Ile Gly Pro Tyr Gln Arg Thr Gly
370 375 380
Gln Asn Val Tyr Asp Ile Arg Gly Lys Cys Glu Asp Ser Ser Asn Leu
385 390 395 400
Cys Tyr Ser Ala Leu Gly Tyr Ile Ser Asp Tyr Leu Asn Gln Gln Ser
405 410 415
Val Met Asp Ala Leu Gly Val Glu Val Ser Ser Tyr Glu Ser Cys Asn
420 425 430
Phe Asp Ile Asn Arg Asn Phe Leu Phe Gln Gly Asp Trp Met Gln Pro
435 440 445
Phe His Arg Leu Val Pro Asn Ile Leu Lys Glu Ile Pro Val Leu Ile
450 455 460
Tyr Ala Gly Asp Ala Asp Tyr Ile Cys Asn Trp Leu Gly Asn Arg Ala
465 470 475 480
Trp Thr Glu Lys Leu Glu Trp Pro Gly Gln Lys Ala Phe Asn Gln Ala
485 490 495
Lys Val His Asp Leu Lys Leu Ala Gly Ala Asp Glu Glu Tyr Gly Lys
500 505 510
Val Lys Ala Ser Gly Asn Phe Thr Phe Met Gln Ile Tyr Gln Ala Gly
515 520 525
His Met Val Pro Met Asp Gln Pro Glu Asn Ser Leu Asp Phe Leu Asn
530 535 540
Arg Trp Leu Ser Gly Glu Trp Phe Ala Lys
545 550
<210> 6
<211> 897
<212> PRT
<213> Thermothelomyces thermophilus
<400> 6
Met Val Arg Leu Asp Trp Ala Ala Val Leu Leu Ala Ala Thr Ala Val
1 5 10 15
Ala Lys Ala Val Thr Pro His Thr Pro Ser Phe Val Pro Gly Ala Tyr
20 25 30
Ile Val Glu Tyr Glu Glu Asp Gln Asp Ser His Ala Phe Val Asn Lys
35 40 45
Leu Gly Gly Lys Ala Ser Leu Arg Lys Asp Leu Arg Phe Lys Leu Phe
50 55 60
Lys Gly Ala Ser Ile Gln Phe Lys Asp Thr Glu Thr Ala Asp Gln Met
65 70 75 80
Val Ala Lys Val Ala Glu Met Pro Lys Val Lys Ala Val Tyr Pro Val
85 90 95
Arg Arg Tyr Pro Val Pro Asn His Val Val His Ser Thr Gly Asn Val
100 105 110
Ala Asp Glu Val Leu Val Lys Arg Gln Ala Ala Gly Asn Asp Thr Phe
115 120 125
Ser Thr His Leu Met Thr Gln Val Asn Lys Phe Arg Asp Ala Gly Ile
130 135 140
Thr Gly Lys Gly Ile Lys Ile Ala Val Ile Asp Thr Gly Ile Asp Tyr
145 150 155 160
Leu His Glu Ala Leu Gly Gly Cys Phe Gly Pro Asp Cys Leu Val Ser
165 170 175
Tyr Gly Thr Asp Leu Val Gly Asp Asp Phe Asn Gly Ser Asn Thr Pro
180 185 190
Lys Pro Asp Pro Asp Pro Ile Asp Asn Cys Gln Gly His Gly Thr His
195 200 205
Val Ala Gly Ile Ile Ala Ala Gln Thr Asn Asn Pro Phe Gly Ile Ile
210 215 220
Gly Ala Ala Thr Asp Val Thr Leu Gly Ala Tyr Arg Val Phe Gly Cys
225 230 235 240
Asn Gly Asp Thr Pro Asn Asp Val Leu Ile Ala Ala Tyr Asn Met Ala
245 250 255
Tyr Glu Ala Gly Ser Asp Ile Ile Thr Ala Ser Ile Gly Gly Pro Ser
260 265 270
Gly Trp Ser Glu Asp Pro Trp Ala Ala Val Val Thr Arg Ile Val Glu
275 280 285
Asn Gly Val Pro Cys Val Val Ser Ala Gly Asn Asp Gly Asp Ala Gly
290 295 300
Ile Phe Tyr Ala Ser Thr Ala Ala Asn Gly Lys Lys Val Thr Ala Ile
305 310 315 320
Ala Ser Val Asp Asn Ile Val Thr Pro Ala Leu Leu Ser Asn Ala Ser
325 330 335
Tyr Thr Leu Asn Gly Thr Asp Asp Phe Phe Gly Phe Thr Ala Gly Asp
340 345 350
Pro Gly Ser Trp Asp Asp Val Asn Leu Pro Leu Trp Ala Val Ser Phe
355 360 365
Asp Thr Thr Asp Pro Ala Asn Gly Cys Asn Pro Tyr Pro Asp Ser Thr
370 375 380
Pro Asp Leu Ser Gly Tyr Ile Val Leu Ile Arg Arg Gly Thr Cys Thr
385 390 395 400
Phe Val Glu Lys Ala Ser Tyr Ala Ala Ala Lys Gly Ala Lys Tyr Val
405 410 415
Met Phe Tyr Asn Asn Val Gln Gln Gly Thr Val Thr Val Ser Ala Ala
420 425 430
Glu Ala Lys Gly Ile Glu Gly Val Ala Met Val Thr Ala Gln Gln Gly
435 440 445
Glu Ala Trp Val Arg Ala Leu Glu Ala Gly Ser Glu Val Val Leu His
450 455 460
Met Lys Asp Pro Leu Lys Ala Gly Lys Phe Leu Thr Thr Thr Pro Asn
465 470 475 480
Thr Ala Thr Gly Gly Phe Met Ser Asp Tyr Thr Ser Trp Gly Pro Thr
485 490 495
Trp Glu Val Glu Val Lys Pro Gln Phe Gly Thr Pro Gly Gly Ser Ile
500 505 510
Leu Ser Thr Tyr Pro Arg Ala Leu Gly Ser Tyr Ala Val Leu Ser Gly
515 520 525
Thr Ser Met Ala Cys Pro Leu Ala Ala Ala Ile Tyr Ala Leu Leu Ile
530 535 540
Asn Thr Arg Gly Thr Lys Asp Pro Lys Thr Leu Glu Asn Leu Ile Ser
545 550 555 560
Ser Thr Ala Arg Pro Asn Leu Phe Arg Leu Asn Gly Glu Ser Leu Pro
565 570 575
Leu Leu Ala Pro Val Pro Gln Gln Gly Gly Gly Ile Val Gln Ala Trp
580 585 590
Asp Ala Ala Gln Ala Thr Thr Leu Leu Ser Val Ser Ser Leu Ser Phe
595 600 605
Asn Asp Thr Asp His Phe Lys Pro Val Gln Thr Phe Thr Ile Thr Asn
610 615 620
Thr Gly Lys Lys Ala Val Thr Tyr Ser Leu Ser Asn Val Gly Ala Ala
625 630 635 640
Thr Ala Tyr Thr Phe Ala Asp Ala Lys Ser Ile Glu Pro Ala Pro Phe
645 650 655
Pro Asn Glu Leu Thr Ala Asp Phe Ala Ser Leu Thr Phe Val Pro Lys
660 665 670
Arg Leu Thr Ile Pro Ala Gly Lys Arg Gln Thr Val Thr Val Ile Ala
675 680 685
Lys Pro Ser Glu Gly Val Asp Ala Lys Arg Leu Pro Val Tyr Ser Gly
690 695 700
Tyr Ile Ala Ile Asn Gly Ser Asp Ser Ser Ala Leu Ser Leu Pro Tyr
705 710 715 720
Leu Gly Val Val Gly Ser Leu His Ser Ala Val Val Leu Asp Ser Asn
725 730 735
Gly Ala Arg Ile Ser Leu Ala Ser Asp Asp Thr Asn Lys Pro Leu Pro
740 745 750
Ala Asn Thr Ser Phe Val Leu Pro Pro Ala Gly Phe Pro Asn Asp Thr
755 760 765
Ser Tyr Ala Asn Ser Thr Asp Leu Pro Lys Leu Val Val Asp Leu Ala
770 775 780
Met Gly Ser Ala Leu Leu Arg Ala Asp Val Val Pro Leu Ser Gly Gly
785 790 795 800
Ala Ala Thr Ala Thr Ala Arg Leu Thr Arg Thr Val Phe Gly Thr Arg
805 810 815
Thr Ile Gly Gln Pro Tyr Gly Leu Pro Ala Arg Tyr Asn Pro Arg Gly
820 825 830
Thr Phe Glu Tyr Ala Trp Asp Gly Arg Leu Asp Asp Gly Ser Tyr Ala
835 840 845
Pro Ala Gly Arg Tyr Arg Phe Ala Val Lys Ala Leu Arg Ile Phe Gly
850 855 860
Asp Ala Lys Arg Ala Arg Glu Tyr Asp Ala Ala Glu Thr Val Glu Phe
865 870 875 880
Asn Ile Glu Tyr Leu Pro Gly Pro Ser Ala Lys Phe Arg Arg Arg Leu
885 890 895
Phe
<210> 7
<211> 566
<212> PRT
<213> Thermothelomyces thermophilus
<400> 7
Met Lys Pro Ser Ser Ala Ile Leu Leu Ala Leu Ala Pro Gly Ser Ser
1 5 10 15
Ser Lys Asn Val Val Glu Phe Ser Val Ser Arg Gly Leu Pro Gly Asn
20 25 30
Arg Thr Pro Leu Ser Phe Pro Pro Leu Thr Arg Arg Glu Thr Tyr Ser
35 40 45
Glu Arg Leu Ile Asn Asn Ile Ala Gly Gly Gly Tyr Tyr Val Gln Val
50 55 60
Gln Val Gly Thr Pro Pro Gln Asn Leu Thr Met Leu Leu Asp Thr Gly
65 70 75 80
Ser Ser Asp Ala Trp Val Leu Ser His Glu Ala Asp Leu Cys Ile Ser
85 90 95
Pro Ala Leu Gln Asp Phe Tyr Gly Met Pro Cys Thr Asp Thr Tyr Asp
100 105 110
Pro Ser Lys Ser Ser Ser Lys Lys Met Val Glu Glu Gly Gly Phe Lys
115 120 125
Ile Thr Tyr Leu Asp Gly Gly Thr Ala Ser Gly Asp Tyr Ile Thr Asp
130 135 140
His Phe Thr Ile Gly Gly Val Thr Val Gln Ser Leu Gln Met Ala Cys
145 150 155 160
Val Thr Lys Ala Val Arg Gly Thr Gly Ile Leu Gly Leu Gly Phe Ser
165 170 175
Ile Ser Glu Arg Ala Ser Thr Lys Tyr Pro Asn Ile Ile Asp Glu Met
180 185 190
Tyr Ser Gln Gly Leu Ile Lys Ser Lys Ala Phe Ser Leu Tyr Leu Asn
195 200 205
Asp Arg Arg Ala Asp Ser Gly Thr Leu Leu Phe Gly Gly Ile Asp Thr
210 215 220
Asp Lys Phe Ile Gly Pro Leu Gly Val Leu Pro Leu His Lys Pro Pro
225 230 235 240
Gly Asp Arg Asp Tyr Ser Ser Phe Glu Val Asn Phe Thr Ser Val Ser
245 250 255
Leu Thr Tyr Thr Asn Gly Ser Arg His Thr Ile Pro Thr Ala Ile Leu
260 265 270
Asn His Pro Ala Pro Ala Val Leu Asp Ser Gly Thr Thr Leu Ser Tyr
275 280 285
Leu Pro Asp Glu Leu Ala Asp Pro Ile Asn Thr Ala Leu Asp Thr Phe
290 295 300
Tyr Asp Asp Arg Leu Gln Met Thr Leu Ile Asp Cys Ser His Pro Leu
305 310 315 320
Leu Arg Thr Asp Pro Asp Phe His Leu Ala Phe Thr Phe Thr Pro Thr
325 330 335
Thr Ser Ile Thr Val Pro Leu Gly Asp Leu Val Leu Asp Ile Leu Pro
340 345 350
Pro Thr Tyr Pro Gln Ser Asn Ser Asn Asn Asn Asn Glu Val Glu Asp
355 360 365
Asp Asp Asp Asp Asp Asp Asp Asp Asp Asp Asp Asp Lys Val Pro Pro
370 375 380
Ala Thr Glu Arg Arg Trp Cys Val Phe Gly Ile Gln Ser Thr Thr Arg
385 390 395 400
Phe Ala Ala Ser Ser Gly Gln Ser Glu Ala Asn Phe Thr Leu Leu Gly
405 410 415
Asp Thr Phe Leu Arg Ser Ala Tyr Val Val Tyr Asp Leu Ser His Tyr
420 425 430
Gln Ile Gly Leu Ala Gln Ala Asn Leu Asn Ser Ser Ser Ser Ser Thr
435 440 445
Asn Thr Asn Thr Ile Val Glu Leu Thr Ala Asp Asn His Asp Asp Gly
450 455 460
Ala Ser Glu Arg Gly Glu Gly Ala Gly Ala Gly Ala Asp Ala Gly Thr
465 470 475 480
Arg Thr Val Ile Ala Gly Gly Leu Pro Ser Gly Leu Met Gly Val Glu
485 490 495
Ala Gln Gln Thr Thr Phe Thr Pro Thr Ala Thr Ala Asn Gly His Pro
500 505 510
Gly Tyr Gly Gly Gly Pro Gly Gly Ser Thr Arg Pro Gly Ser Glu Arg
515 520 525
Asn Ala Ala Ala Gly Gly Phe Thr Ala Val Arg Thr Gly Leu Leu Gly
530 535 540
Glu Leu Val Gly Val Ala Ala Val Thr Ala Leu Phe Ile Leu Leu Gly
545 550 555 560
Gly Ala Leu Ile Ala Val
565
<210> 8
<211> 874
<212> PRT
<213> Thermothelomyces thermophilus
<400> 8
Met Ala Gly Gly Val Asn Val Gln Ala Arg Glu Leu Leu Pro Thr Asn
1 5 10 15
Val Ile Pro Arg His Tyr Asn Ile Thr Leu Glu Pro Asp Phe Lys Lys
20 25 30
Leu Thr Phe Asp Gly Thr Val Val Ile Asp Leu Asp Val Val Glu Asp
35 40 45
Ser Lys Ser Ile Ser Leu His Thr Leu Glu Leu Asp Ile His Asp Ala
50 55 60
Lys Ile Thr Ser Gly Gly Gln Thr Val Ser Ser Ser Pro Thr Val Ser
65 70 75 80
Tyr Asn Glu Asp Thr Gln Val Ser Thr Phe Glu Phe Gly Asn Ala Val
85 90 95
Thr Lys Gly Ser Lys Ala Gln Leu Glu Ile Lys Phe Thr Gly Gln Leu
100 105 110
Asn Asp Lys Met Ala Gly Phe Tyr Arg Ser Thr Tyr Lys Asn Pro Asp
115 120 125
Gly Ser Glu Gly Ile Met Ala Val Thr Gln Met Glu Pro Thr Asp Ala
130 135 140
Arg Arg Ser Phe Pro Cys Phe Asp Glu Pro Ser Leu Lys Ala Glu Phe
145 150 155 160
Thr Val Thr Leu Val Ala Asp Lys Lys Leu Thr Cys Leu Ser Asn Met
165 170 175
Asp Val Ala Tyr Glu Lys Glu Val Lys Ser Glu Gln Thr Gly Gly Ile
180 185 190
Lys Lys Ala Val Thr Phe Asn Lys Ser Pro Leu Met Ser Thr Tyr Leu
195 200 205
Val Ala Phe Val Val Gly Glu Leu Asn Tyr Ile Glu Thr Asn Glu Phe
210 215 220
Arg Val Pro Val Arg Val Tyr Ala Pro Pro Gly Gln Asp Ile Glu His
225 230 235 240
Gly Arg Phe Ser Leu Asn Leu Ala Ala Lys Thr Leu Ala Phe Tyr Glu
245 250 255
Lys Val Phe Gly Ile Glu Phe Pro Leu Pro Lys Met Asp Gln Ile Ala
260 265 270
Ile Pro Asp Phe Ala Gln Gly Ala Met Glu Asn Trp Gly Leu Val Thr
275 280 285
Tyr Arg Val Val Asp Leu Leu Leu Asp Glu Lys Ala Ser Gly Ala Ala
290 295 300
Thr Lys Glu Arg Val Ala Glu Val Val Gln His Glu Leu Ala His Gln
305 310 315 320
Trp Phe Gly Asn Leu Val Thr Met Asp Trp Trp Asp Gly Leu Trp Leu
325 330 335
Asn Glu Gly Phe Ala Thr Trp Ala Ser Trp Tyr Ser Cys Asn Ile Phe
340 345 350
Tyr Pro Glu Trp Lys Val Trp Glu Ser Tyr Val Val Asp Asn Leu Gln
355 360 365
Arg Ala Leu Ser Leu Asp Ser Leu Arg Ser Ser His Pro Ile Glu Val
370 375 380
Pro Val Lys Arg Ala Asp Glu Ile Asn Gln Ile Phe Asp Ala Ile Ser
385 390 395 400
Tyr Ser Lys Gly Ser Cys Val Leu Arg Met Ile Ser Thr Tyr Leu Gly
405 410 415
Glu Glu Thr Phe Leu Glu Gly Val Arg Arg Tyr Leu Lys Lys His Ala
420 425 430
Tyr Gly Asn Thr Gln Thr Gly Asp Leu Trp Ala Ser Leu Ala Glu Ala
435 440 445
Ser Gly Lys Lys Val Glu Glu Val Met Gln Val Trp Thr Lys Asn Ile
450 455 460
Gly Phe Pro Val Val Thr Val Thr Glu Lys Asp Asp Lys Thr Ile His
465 470 475 480
Leu Lys Gln Asn Arg Phe Leu Arg Thr Gly Asp Thr Lys Pro Glu Glu
485 490 495
Asp Gln Val Ile Tyr Pro Val Phe Leu Gly Leu Arg Thr Lys Asp Gly
500 505 510
Ile Asp Glu Ser Gln Thr Leu Thr Lys Arg Glu Asp Thr Phe Thr Val
515 520 525
Pro Ser Thr Asp Phe Phe Lys Leu Asn Ala Asn His Thr Gly Leu Tyr
530 535 540
Arg Thr Ala Tyr Ser Pro Glu Arg Leu Lys Lys Leu Gly Asp Ala Ala
545 550 555 560
Lys Glu Gly Leu Leu Ser Val Glu Asp Arg Ala Gly Met Ile Ala Asp
565 570 575
Ala Gly Ala Leu Ala Thr Ser Gly Tyr Gln Arg Thr Ser Gly Val Leu
580 585 590
Ser Leu Leu Lys Gly Phe Asn Ser Glu Pro Glu Phe Val Val Trp Asn
595 600 605
Glu Ile Ile Ala Arg Val Ser Ser Val Gln Ser Ala Trp Ile Phe Glu
610 615 620
Asp Gln Ala Asp Arg Asp Ala Leu Asp Ala Phe Leu Arg Asp Leu Ala
625 630 635 640
Ser Pro Lys Ala His Glu Leu Gly Trp Gln Phe Ser Glu Lys Asp Gly
645 650 655
His Ile Leu Gln Gln Phe Lys Ala Met Met Phe Gly Thr Ala Gly Leu
660 665 670
Ser Gly Asp Glu Thr Ile Ile Lys Ala Ala Lys Asp Met Phe Lys Lys
675 680 685
Phe Met Ala Gly Asp Arg Thr Ala Ile His Pro Asn Ile Arg Gly Ser
690 695 700
Val Phe Ser Met Ala Leu Lys Tyr Gly Gly Thr Glu Glu Tyr Asp Ala
705 710 715 720
Val Ile Asn Phe Tyr Arg Thr Ser Thr Asn Ser Asp Glu Arg Asn Thr
725 730 735
Ala Leu Arg Cys Leu Gly Arg Ala Lys Ser Pro Glu Leu Ile Lys Arg
740 745 750
Thr Leu Asp Leu Leu Phe Ser Gly Glu Val Lys Asp Gln Asp Ile Tyr
755 760 765
Met Pro Ala Ser Gly Leu Arg Ser His Pro Glu Gly Ile Glu Ala Leu
770 775 780
Phe Thr Trp Met Thr Glu Asn Trp Asn Glu Leu Ile Lys Lys Leu Pro
785 790 795 800
Pro Ala Leu Ser Met Leu Gly Thr Met Val Thr Ile Phe Thr Ser Ser
805 810 815
Phe Thr Lys Lys Glu Gln Leu Glu Arg Val Glu Lys Phe Phe Glu Gly
820 825 830
Lys Asn Thr Asn Gly Phe Asp Gln Ser Leu Ala Gln Ser Leu Asp Ala
835 840 845
Ile Arg Ser Lys Ile Ser Trp Ile Glu Arg Asp Arg Ala Asp Val Thr
850 855 860
Ala Trp Leu Lys Glu Asn Gly Tyr Arg Ser
865 870
<210> 9
<211> 454
<212> PRT
<213> Thermothelomyces thermophilus
<400> 9
Met Lys Phe Ala Ala Leu Ala Leu Ala Ala Ser Leu Val Ala Ala Ala
1 5 10 15
Pro Arg Val Val Lys Val Asp Pro Ser Asp Ile Lys Pro Arg Arg Leu
20 25 30
Gly Gly Thr Lys Phe Lys Leu Gly Gln Ile His Asn Asp Leu Phe Arg
35 40 45
Gln His Gly Arg Gly Pro Arg Ala Leu Ala Lys Ala Tyr Glu Lys Tyr
50 55 60
Asn Ile Glu Leu Pro Pro Asn Leu Leu Glu Val Val Gln Arg Ile Leu
65 70 75 80
Lys Asp Leu Gly Ile Glu Pro His Ser Lys Lys Ile Pro Gly Ser Lys
85 90 95
Ser Ser Tyr Gly Asn Gly Ala Pro Tyr Thr Asn Glu Thr Asp Asp Ser
100 105 110
Gly Glu Val Ser Ala Ile Pro Gln Leu Phe Asp Val Glu Tyr Leu Ala
115 120 125
Pro Val Gln Ile Gly Thr Pro Pro Gln Thr Leu Met Leu Asn Phe Asp
130 135 140
Thr Gly Ser Ser Asp Leu Trp Val Phe Ser Ser Glu Thr Pro Ser Arg
145 150 155 160
Gln Gln Asn Gly Gln Lys Ile Tyr Lys Ile Glu Glu Ser Ser Thr Ala
165 170 175
Arg Arg Leu Ser Asn His Thr Trp Ser Ile Gln Tyr Gly Asp Gly Ser
180 185 190
Arg Ser Ala Gly Asn Val Tyr Leu Asp Thr Val Ser Val Gly Gly Val
195 200 205
Asn Val Phe Asn Gln Ala Val Glu Ser Ala Thr Phe Val Ser Ser Ser
210 215 220
Phe Val Thr Asp Ala Ala Ser Ser Gly Leu Leu Gly Leu Gly Phe Asp
225 230 235 240
Ser Ile Asn Thr Val Lys Pro Thr Lys Gln Lys Thr Phe Ile Ser Asn
245 250 255
Ala Leu Glu Ser Leu Glu Met Gly Leu Phe Thr Ala Asn Leu Lys Lys
260 265 270
Ala Glu Pro Gly Asn Tyr Asn Phe Gly Phe Ile Asp Glu Thr Glu Phe
275 280 285
Val Gly Pro Leu Ser Phe Ile Asp Val Asp Ser Thr Asp Gly Phe Trp
290 295 300
Gln Phe Asp Ala Thr Gly Tyr Ser Ile Gln Leu Pro Glu Pro Ser Gly
305 310 315 320
Asn Ile Thr Gly Thr Pro Phe Arg Ala Val Ala His Thr Ala Ile Ala
325 330 335
Asp Thr Gly Thr Thr Leu Leu Leu Leu Pro Pro Gly Ile Ala Gln Ala
340 345 350
Tyr Tyr Trp Gln Val Gln Gly Ala Arg Gln Ala Pro Glu Val Gly Gly
355 360 365
Trp Val Met Pro Cys Asn Ala Ser Met Pro Asp Leu Thr Leu His Ile
370 375 380
Gly Thr Tyr Lys Ala Val Ile Pro Gly Glu Leu Ile Pro Tyr Ala Pro
385 390 395 400
Val Asp Thr Asp Asp Met Asp Thr Ala Thr Val Cys Tyr Gly Gly Ile
405 410 415
Gln Ser Ala Ser Gly Met Pro Phe Ala Ile Tyr Gly Asp Ile Phe Phe
420 425 430
Lys Ala Gln Phe Thr Val Phe Asp Val Glu Asn Leu Lys Leu Gly Phe
435 440 445
Ala Pro Lys Pro Glu Leu
450
<210> 10
<211> 428
<212> PRT
<213> Thermothelomyces thermophilus
<400> 10
Met Arg Val Ser Phe Gln Ser Leu Leu Leu Leu Gly Ala Leu Ser Ala
1 5 10 15
Gln Ala Ser Ala Tyr Ala Ser Leu Glu Tyr Gln Gln Gln Thr Phe Pro
20 25 30
Glu Asp Asn Ala Pro Pro Tyr Arg Val Pro Leu Leu Thr Leu His Arg
35 40 45
Ala Leu Val Asn Val Ser Ser Ile Ser Asp Ser Glu Gly Glu Val Gly
50 55 60
Leu Leu Leu Lys Arg Leu Leu Lys Asp Leu Asn Tyr Thr Val Glu Leu
65 70 75 80
Gln Pro Val Pro Pro Ser Glu Ala Gly Gln Gly Pro Asp Asp Arg Pro
85 90 95
Thr Arg Tyr Asn Val Leu Ala Trp Pro Gly Arg Asn Ala Ser Arg Ala
100 105 110
Leu Asp Lys Arg Thr Ile Ile Thr Ser His Ile Asp Val Val Pro Pro
115 120 125
Tyr Ile Pro Tyr Ala Ile Asp Asn Glu Thr Val Pro Pro Ser Glu Val
130 135 140
Val Asp Phe Ala Ala Leu Pro Pro Thr Thr Leu Ile Ser Gly Arg Gly
145 150 155 160
Ser Val Asp Ala Lys Ala Ser Val Ala Ala Gln Ile Thr Ala Thr Asn
165 170 175
Ala Leu Leu Ser Glu Gly Ala Ile Ser Pro Asp Ser Val Val Leu Leu
180 185 190
Tyr Val Val Gly Glu Glu Asn Ser Gly Ser Gly Met Lys His Phe Ser
195 200 205
Asp Ser Leu Ser Asn Ser Ser Ala Tyr Pro Val Arg Pro Gln Phe Arg
210 215 220
Ala Ala Ile Phe Gly Glu Pro Thr Glu Asn Lys Leu Ala Cys Gly His
225 230 235 240
Lys Gly Val Thr Gly Gly Thr Val Ser Ala Val Gly Lys Ala Gly His
245 250 255
Ser Gly Tyr Pro Trp Leu Gly Lys Ser Ala Ile His Val Leu Ile Arg
260 265 270
Ala Leu Asp Arg Leu Leu Glu Glu Asp Leu Gly Ser Ser Glu Arg Tyr
275 280 285
Gly Asn Thr Thr Val Asn Val Gly Leu Ile Glu Gly Gly Val Ala Ala
290 295 300
Asn Val Ile Ala Pro Ala Ala Ser Ala Arg Val Ser Ala Arg Val Ala
305 310 315 320
Val Gly Asn Gln Thr Thr Gly Gly Gln Ile Val Ala Glu Arg Ile Lys
325 330 335
Lys Leu Ile Lys Asp Val Asp Ser Glu Ala Leu Gln Val Asn Ile Thr
340 345 350
Ser Gly Val Gly Pro Val Glu Cys Glu Cys Glu Val Asp Gly Phe Glu
355 360 365
Thr Val Val Ala Asn Tyr Gly Thr Asp Ile Pro Asn Leu Lys Gly Asn
370 375 380
His Val Lys Tyr Leu Tyr Gly Pro Gly Ser Ile Leu Val Ala His Gly
385 390 395 400
Asp Asn Glu Gly Leu Gln Ile Lys Asp Leu Glu Asp Ser Val Glu Gly
405 410 415
Tyr Lys Arg Leu Ile Lys His Ala Val Gly Ser Ser
420 425
<210> 11
<211> 444
<212> PRT
<213> Thermothelomyces thermophilus
<400> 11
Met Glu Ile Glu Ile Gly Thr Pro Pro Gln Lys Val Met Leu Ile Val
1 5 10 15
Asp Thr Gly Ser Pro Asn Thr Trp Val Asn Pro Gln Cys Glu Thr Ser
20 25 30
Asn Thr Pro Ser Asp Cys Ala Lys Tyr Pro Gln Phe Asp Tyr Thr Glu
35 40 45
Ser Ser Ser Ile Asn Ile Thr Asp Tyr Val Asp Val Leu Arg Tyr Gly
50 55 60
Ser Gly Ser Ala Thr Val Gln Tyr Val Tyr Glu Thr Val Ser Ile Gly
65 70 75 80
Ser Ala Thr Leu Lys Asp Gln Ile Ile Gly Ile Ala Leu Glu Ser Glu
85 90 95
Asp Ile Pro Leu Gly Ile Leu Gly Leu Ser Pro Pro Val Arg Gly Val
100 105 110
Asn Gln Tyr Pro Tyr Ile Leu Asp Thr Met Val Asp Gln Gly Leu Ile
115 120 125
Lys Ser Arg Ala Phe Ser Leu Asp Leu Arg Gly Val Asp Asn Pro Thr
130 135 140
Gly Ala Val Ile Phe Gly Gly Ile Asp Thr Gly Lys Tyr Ile Gly Thr
145 150 155 160
Leu Ala Lys Leu Pro Ile Ile Ala Pro Ser Ser Ala Pro Gly Gly Ala
165 170 175
Asp Arg Tyr Tyr Ile Thr Met Thr Gly Val Gly Leu Thr Leu Pro Asp
180 185 190
Gly Thr Met Val Arg Ser Glu Glu Leu Asp Val Pro Val Phe Leu Asp
195 200 205
Ser Gly Ser Thr Leu Ser Arg Leu Pro Thr Val Ile His Gln Ala Leu
210 215 220
Ala Ala Ser Phe Thr Glu Ala Met Leu Asp Gln Glu Ser Gly Leu Phe
225 230 235 240
Ile Leu Pro Cys Glu Tyr Thr Asp Met Ala Gly Ser Ile Asp Phe Tyr
245 250 255
Phe Ala Gly Lys Thr Ile Arg Val Pro Leu Arg Glu Phe Ile Trp Arg
260 265 270
Ser Gly Asp Tyr Cys Ile Leu Gly Val Ala Pro Glu Asp Asp Glu Pro
275 280 285
Ile Leu Gly Asp Thr Phe Leu Arg Ala Ala Tyr Val Val Tyr Asp Gln
290 295 300
Asp Asn Arg Asn Val His Leu Ala Gln Ala Ala Asp Cys Gly Thr Asn
305 310 315 320
Leu Val Ala Ile Gly Ser Gly Glu Asp Ala Val Pro Ser Ser Thr Gly
325 330 335
Arg Cys Thr Glu Leu Pro Thr Pro Thr Gly Asp Pro Thr Arg Thr Arg
340 345 350
Ala Gly Ser Ser Asn Leu Asp Met Thr Ala Thr Arg Pro Pro Ala Asn
355 360 365
Thr Phe Thr Gly Arg Leu Pro Thr Gly Ile Ala Gly Gly Pro Gly Pro
370 375 380
Ala Arg Asp Gly Ser Thr Thr Thr Val Thr Gly Gly Gly Leu Gln Pro
385 390 395 400
Met Leu Pro Thr Gly Ser Pro Lys Gly Ser Glu Gly Thr Glu Gln Asn
405 410 415
Ala Ala Gly Arg Gly Val Asp Ser Gly Leu Gly Ala Ala Val Ala Ala
420 425 430
Val Leu Gly Val Val Ser Leu Leu Val Leu Met Leu
435 440
<210> 12
<211> 621
<212> PRT
<213> Thermothelomyces thermophilus
<400> 12
Met Leu Arg Asn Ile Phe Leu Thr Ala Ala Leu Ala Ala Phe Gly Gln
1 5 10 15
Cys Gly Ser Thr Val Phe Glu Ser Val Pro Ala Lys Pro Arg Gly Trp
20 25 30
Thr Arg Leu Gly Asp Ala Ser Ala Asp Gln Pro Leu Arg Leu Arg Ile
35 40 45
Ala Leu Gln Gln Pro Asn Glu Asp Leu Phe Glu Arg Thr Leu Tyr Glu
50 55 60
Val Ser Asp Pro Ser His Ala Arg Tyr Gly Gln His Leu Ser Arg Asp
65 70 75 80
Glu Leu Ser Ala Leu Leu Ala Pro Arg Ala Glu Ser Thr Ala Ala Val
85 90 95
Leu Asn Trp Leu Arg Asp Ala Gly Ile Pro Ser Asp Lys Ile Glu Glu
100 105 110
Asp Gly Glu Trp Ile Asn Leu Arg Val Thr Val Arg Glu Ala Ser Glu
115 120 125
Leu Leu Asp Ala Asp Phe Gly Val Trp Ala Tyr Glu Gly Thr Asn Val
130 135 140
Lys Arg Val Arg Ala Leu Gln Tyr Ser Val Pro Glu Glu Ile Ala Pro
145 150 155 160
His Ile Arg Met Val Ala Pro Val Val Arg Phe Gly Gln Ile Arg Pro
165 170 175
Glu Arg Ser Gln Val Phe Glu Val Val Glu Thr Ala Pro Ser Gln Val
180 185 190
Lys Val Ala Ala Ala Ile Pro Pro Gln Asp Leu Asp Val Lys Ala Cys
195 200 205
Asn Thr Ser Ile Thr Pro Glu Cys Leu Arg Ala Leu Tyr Lys Val Gly
210 215 220
Ser Tyr Gln Ala Glu Pro Ser Lys Lys Ser Leu Phe Gly Val Ala Gly
225 230 235 240
Tyr Leu Glu Gln Trp Ala Lys Tyr Asp Gln Leu Glu Leu Phe Ala Ser
245 250 255
Thr Tyr Ala Pro Tyr Ala Ala Asp Ala Asn Phe Thr Ser Val Gly Val
260 265 270
Asn Gly Gly Glu Asn Asn Gln Gly Pro Ser Asp Gln Gly Asp Ile Glu
275 280 285
Ala Asn Leu Asp Ile Gln Tyr Ala Val Ala Leu Ser Tyr Lys Thr Pro
290 295 300
Ile Thr Tyr Tyr Ile Thr Gly Gly Arg Gly Pro Leu Val Pro Asp Leu
305 310 315 320
Asp Gln Pro Asp Pro Asn Asp Val Ser Asn Glu Pro Tyr Leu Glu Phe
325 330 335
Phe Ser Tyr Leu Leu Lys Leu Pro Asp Ser Glu Leu Pro Gln Thr Leu
340 345 350
Thr Thr Ser Tyr Gly Glu Asp Glu Gln Ser Val Pro Arg Pro Tyr Ala
355 360 365
Glu Lys Val Cys Gln Met Ile Gly Gln Leu Gly Ala Arg Gly Val Ser
370 375 380
Val Ile Phe Ser Ser Gly Asp Thr Gly Val Gly Ser Ala Cys Gln Thr
385 390 395 400
Asn Asp Gly Lys Asn Thr Thr Arg Phe Leu Pro Ile Phe Pro Gly Ala
405 410 415
Cys Pro Tyr Val Thr Ser Ile Gly Ala Thr Arg Tyr Val Glu Pro Glu
420 425 430
Gln Ala Ala Ala Phe Ser Ser Gly Gly Phe Ser Asp Ile Phe Lys Arg
435 440 445
Pro Ala Tyr Gln Glu Ala Ala Val Ser Thr Tyr Leu His Lys His Leu
450 455 460
Gly Ser Arg Trp Lys Gly Leu Tyr Asn Pro Gln Gly Arg Gly Phe Pro
465 470 475 480
Asp Val Ser Ala Gln Gly Val Ala Tyr His Val Phe Ser Gln Asp Lys
485 490 495
Asp Ile Lys Val Ser Gly Thr Ser Ala Ser Ala Pro Leu Phe Ala Ala
500 505 510
Leu Val Ser Leu Leu Asn Asn Ala Arg Leu Ala Gln Gly Arg Pro Pro
515 520 525
Leu Gly Phe Leu Asn Pro Trp Leu Tyr Ser Glu Lys Val Gln Lys Ala
530 535 540
Gly Ala Leu Thr Asp Ile Val His Gly Gly Ser Ser Gly Cys Thr Gly
545 550 555 560
Lys Asp Met Tyr Ser Gly Leu Pro Thr Pro Tyr Val Pro Tyr Ala Ser
565 570 575
Trp Asn Ala Thr Pro Gly Trp Asp Pro Val Thr Gly Leu Gly Thr Pro
580 585 590
Val Phe Asp Lys Leu Leu Glu Leu Ser Ser Pro Gly Lys Lys Leu Pro
595 600 605
His Ile Gly Gly Gly His Gly His Gly Ala Gly Gly His
610 615 620
<210> 13
<211> 420
<212> PRT
<213> Thermothelomyces thermophilus
<400> 13
Met Ala Gly Arg Leu Leu Leu Cys Leu Thr Ala Ala Leu Ser Ala Leu
1 5 10 15
Gly Val Ser Ala Ala Pro Ala Pro Asp Ala Ser Gly Arg Pro Phe Ile
20 25 30
Gly Val Pro Val Ser Asn Pro Gly Ile Ala Asn Ala Ile Pro Asn Arg
35 40 45
Tyr Ile Val Val Tyr Asn Asn Thr Phe Asn Asp Glu Asp Ile Asp Leu
50 55 60
His Gln Ser Asn Val Ile Lys Thr Ile Ala Lys Arg Asn Ile Ala Lys
65 70 75 80
Arg Ser Leu Thr Gly Lys Leu Leu Ser Thr Thr Val Asn Thr Tyr Lys
85 90 95
Ile Asn Asn Trp Arg Ala Met Ala Leu Glu Ala Asp Asp Ala Thr Ile
100 105 110
Asn Glu Ile Phe Ala Ala Lys Glu Val Ser Tyr Ile Glu Gln Asp Ala
115 120 125
Val Ile Ser Leu Asn Val Arg Gln Met Gln Ser Gln Ala Thr Thr Gly
130 135 140
Leu Ala Arg Ile Ser His Ala Gln Pro Gly Ala Arg Thr Tyr Ile Phe
145 150 155 160
Asp Ser Ser Ala Gly Glu Gly Ile Thr Ala Tyr Val Val Asp Thr Gly
165 170 175
Ile Arg Val Thr His Glu Glu Phe Glu Gly Arg Ala Thr Phe Ala Ala
180 185 190
Asn Phe Ile Asp Asp Val Asp Thr Asp Glu Gln Gly His Gly Ser His
195 200 205
Val Ala Gly Thr Ile Gly Gly Lys Thr Phe Gly Val Ala Lys Lys Val
210 215 220
Asn Leu Val Ala Val Lys Val Leu Gly Ala Asp Gly Ser Gly Ser Asn
225 230 235 240
Ser Gly Val Ile Ala Gly Met Gln Phe Val Ala Ser Asn Ala Thr Ala
245 250 255
Met Gly Leu Lys Gly Arg Ala Val Met Asn Met Ser Leu Gly Gly Pro
260 265 270
Ala Ser Arg Ala Val Asn Ser Ala Ile Asn Gln Val Glu Ala Ala Gly
275 280 285
Val Val Pro Val Val Ala Ala Gly Asn Glu Ser Gln Asp Thr Ala Asn
290 295 300
Thr Ser Pro Gly Ser Ala Glu Ala Ala Ile Thr Val Gly Ala Ile Asp
305 310 315 320
Gln Thr Asn Asp Arg Met Ala Ser Phe Ser Asn Phe Gly Glu Leu Val
325 330 335
Asp Ile Phe Ala Pro Gly Val Asn Val Gln Ser Val Gly Ile Arg Ser
340 345 350
Asp Thr Ser Thr Asn Thr Leu Ser Gly Thr Ser Met Ala Ser Pro His
355 360 365
Val Ala Gly Leu Ala Ala Tyr Ile Met Ser Leu Glu Asn Ile Thr Gly
370 375 380
Val Gln Ala Val Ser Asp Arg Leu Lys Glu Leu Ala Gln Ala Thr Gly
385 390 395 400
Ala Arg Ala Arg Gly Val Pro Arg Gly Thr Thr Thr Leu Ile Ala Asn
405 410 415
Asn Gly Phe Ala
420
<210> 14
<211> 892
<212> PRT
<213> Thermothelomyces thermophilus
<400> 14
Met Lys Ile Trp Ser Gly Ala Ala Leu Leu Gly Leu Ala Ala Leu Ala
1 5 10 15
Thr Ala Ser His Ile Leu Pro Arg Asp Trp Glu Ala Asn Asp Tyr Tyr
20 25 30
Val Leu His Leu Asp Ala Asp Thr Ser Pro Gln Glu Val Ala Arg Ser
35 40 45
Leu Gly Leu Ser His Glu Gly Pro Leu Gly Glu Leu Arg Asp His His
50 55 60
Val Phe Val Ala Lys Arg Ala Glu His Asp Val Val Lys Arg Glu Leu
65 70 75 80
Ala Arg Arg Arg Lys Lys Arg Ser Leu Gly Leu Gly Gly Arg Asp Val
85 90 95
Leu Asp Gly Val Leu Phe Ser Gln Lys Gln Arg Leu Arg Lys Pro Trp
100 105 110
Glu Lys Arg Val Val Pro Arg Leu Phe Gly Pro Leu Pro Arg Arg Ser
115 120 125
Val Asp Glu Pro Val Glu Ser Leu Val Gln Arg Gln Thr Glu Val Ala
130 135 140
Arg Lys Leu Asp Ile Lys Asp Pro Ile Phe His Glu Gln Trp His Leu
145 150 155 160
Phe Asn Thr Val Gln Ala Gly His Asp Val Asn Val Thr Asp Val Trp
165 170 175
Leu Gln Gly Val Thr Gly Lys Asn Ala Thr Val Ala Ile Val Asp Asp
180 185 190
Gly Leu Asp Met Tyr Ser Asp Asp Leu Arg Asp Asn Tyr Tyr Ala Leu
195 200 205
Gly Ser Tyr Asp Phe Asn Asp Lys Ala Asp Glu Pro Arg Pro Arg Leu
210 215 220
Ala Asn Asp Asn His Gly Thr Arg Cys Ala Gly Glu Val Ala Ala Gly
225 230 235 240
Arg Asn Asn Ala Cys Gly Val Gly Val Ala Tyr Asp Ser Asn Ile Ala
245 250 255
Gly Leu Arg Ile Leu Ser Lys Leu Ile Ser Asp Ala Asp Glu Ala Val
260 265 270
Ala Leu Asn Tyr Asp Phe Gln His Asn Gln Ile Tyr Ser Cys Ser Trp
275 280 285
Gly Pro Pro Asp Asp Gly Lys Ser Met Asp Ala Pro Gly Ile Leu Ile
290 295 300
Arg Arg Ala Met Leu Asn Ala Val Gln Asn Gly Arg Gly Gly Leu Gly
305 310 315 320
Ser Ile Tyr Val Phe Ala Ser Gly Asn Gly Ala His Asn Glu Asp Asn
325 330 335
Cys Asn Phe Asp Gly Tyr Thr Asn Ser Ile Tyr Ser Ile Thr Val Gly
340 345 350
Ala Leu Asp Arg Lys Gly Gln His Pro Tyr Tyr Ser Glu Ser Cys Ser
355 360 365
Ala Gly Leu Val Val Thr Tyr Ser Ser Gly Ser Gly Asp Ala Ile His
370 375 380
Thr Thr Asp Val Gly Gln Asn Thr Cys Thr Ser Ser His Gly Gly Thr
385 390 395 400
Ser Ala Ala Ala Pro Leu Ala Ala Gly Ile Phe Ala Leu Val Leu Gln
405 410 415
Val Arg Pro Asp Leu Ser Trp Arg Asp Met Gln Tyr Leu Ala Met Asp
420 425 430
Thr Ala Val Pro Val Asn Val Asp Thr Gly Asp Tyr Gln Asp Thr Thr
435 440 445
Ile Gly Lys Lys Phe Ser His Thr Tyr Gly Tyr Gly Lys Leu Asp Ser
450 455 460
Tyr Ala Ile Val Glu Ala Ala Lys Lys Trp Lys Lys Val Lys Pro Gln
465 470 475 480
Ala Trp Phe Tyr Ser Pro Trp Ile His Val Asn Gln Pro Ile Pro Gln
485 490 495
Gly Asp Lys Gly Val Val Val Glu Phe Glu Val Thr Lys Glu Met Leu
500 505 510
Glu Glu Ala Asn Leu Asp Arg Leu Glu His Val Thr Val Thr Met Asn
515 520 525
Val Glu His Gly Arg Arg Gly Asp Leu Ser Val Asp Leu Ile Ser Pro
530 535 540
Asn Lys Ile Val Ser His Leu Ser Val Thr Arg Lys Asn Asp Asp Ser
545 550 555 560
Asp Lys Gly Tyr Asn Asp Trp Thr Phe Met Ser Val Ala His Trp Gly
565 570 575
Glu Ser Gly Val Gly Thr Trp Thr Ile Val Val Lys Asp Thr Glu Ile
580 585 590
Asn Gln Tyr Thr Gly Lys Phe Ile Asp Trp His Leu Lys Leu Trp Gly
595 600 605
Glu Thr Arg Asp Ala Ser Lys Ala Gln Leu Leu Pro Met Pro Thr Glu
610 615 620
Glu Asp Asp Asp Asp His Asp Val Ile Ala Thr Thr Thr Ala Thr Ala
625 630 635 640
Ala Thr Thr Thr Val Ser Lys Pro Glu Ala Thr Gly Ser Val Pro Ala
645 650 655
Asp Ala Thr Asp Gln Pro Asn Arg Pro Val Asn Ser Lys Pro Thr Asp
660 665 670
Thr Ser Pro Ala Glu Thr Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser
675 680 685
Ala Glu Thr Asp Lys Thr Asn Thr Trp Leu Pro Ser Phe Leu Pro Thr
690 695 700
Phe Gly Val Ser Ala Ala Thr Gln Ala Trp Ile Tyr Gly Ser Leu Val
705 710 715 720
Leu Ile Val Leu Phe Cys Ala Gly Leu Gly Ile Tyr Leu Tyr Leu Ala
725 730 735
Arg Arg Lys Arg Leu Arg Asn Lys Thr Arg Thr Asp Tyr Glu Phe Glu
740 745 750
Leu Leu Asp Asp Asp Asp Asp Asp Asp Glu Glu Ala Ala Ala Leu Thr
755 760 765
Arg Gly Gly Gly Gly Gly Glu Lys Gly Val Val Gly Gly Gly Gly Gly
770 775 780
Gly Gly Gly Lys Arg Gly Arg Arg Thr Arg Gly Gly Glu Leu Tyr Asp
785 790 795 800
Ala Phe Ala Gly Glu Ser Asp Glu Asp Ser Asp Asp Asn Asp Phe Ala
805 810 815
Gly Gly Gly Gly Gly Gly Gly Gly Gly Gly Tyr Arg Asp Arg Ser Asp
820 825 830
Ser Arg Ser Arg Ser Arg Ser Asp Gly Ser Gly Ser Pro Ile Gly Ile
835 840 845
Ser Glu Lys Leu Pro Gly Arg Arg Asp Ser Leu Ser Gly Glu Glu Glu
850 855 860
His His Val Val Gly Asp Asp Asp Asp Asp Asp Glu Asp Gly Thr Gly
865 870 875 880
Asn Asp Gln Ala Arg Pro Leu Gln Gly Gly Ala Arg
885 890
<210> 15
<211> 387
<212> PRT
<213> Thermothelomyces thermophilus
<400> 15
Met Gln Leu Leu Ser Leu Ala Ala Leu Leu Pro Leu Ala Leu Ala Ala
1 5 10 15
Pro Val Ile Lys Pro Gln Gly Leu Gln Leu Ile Pro Gly Asp Tyr Ile
20 25 30
Val Lys Leu Lys Asp Gly Ala Ser Glu Ser Thr Leu Gln Asp Thr Ile
35 40 45
Arg His Leu Gln Ala Gly Glu Ala Lys His Val Tyr Arg Ala Arg Arg
50 55 60
Phe Lys Gly Phe Ala Ala Lys Leu Ser Pro Gln Val Val Asp Thr Leu
65 70 75 80
Ser Lys Leu Pro Glu Val Glu Tyr Ile Glu Gln Asp Ala Val Val Thr
85 90 95
Ile Gln Ala Leu Val Thr Gln Glu Asp Val Pro Trp Gly Leu Ala Arg
100 105 110
Ile Ser His His Glu Leu Gly Pro Thr Ser Tyr Val Tyr Asp Asp Ser
115 120 125
Ala Gly Glu Gly Thr Cys Ala Tyr Val Ile Asp Thr Gly Ile Tyr Val
130 135 140
Ala His Ser Gln Phe Glu Gly Arg Ala Thr Trp Leu Ala Asn Phe Ile
145 150 155 160
Asp Ser Ser Asp Ser Asp Gly Ala Gly His Gly Thr His Val Ser Gly
165 170 175
Thr Ile Gly Gly Val Thr Tyr Gly Val Ala Lys Lys Thr Lys Leu Phe
180 185 190
Ala Val Lys Val Leu Asn Ala Ser Gly Ser Gly Thr Val Ser Ser Val
195 200 205
Leu Ala Gly Leu Glu Phe Val Ala Ser Asp Ala Pro Ala Arg Val Ala
210 215 220
Ser Gly Glu Cys Ala Asn Gly Ala Val Ala Asn Leu Ser Leu Gly Gly
225 230 235 240
Gly Arg Ser Thr Ala Ile Asn Ala Ala Ala Ala Ala Ala Val Asp Ala
245 250 255
Gly Val Phe Val Ala Val Ala Ala Gly Asn Ser Asn Thr Asp Ala Gln
260 265 270
Ser Thr Ser Pro Ala Ser Glu Pro Ser Val Cys Thr Val Gly Ala Thr
275 280 285
Asp Asp Ser Asp Ala Arg Ala Tyr Phe Ser Asn Tyr Gly Ser Val Val
290 295 300
Asp Val Phe Ala Pro Gly Val Asp Val Leu Ser Ser Trp Ile Gly Gly
305 310 315 320
Val Asp Ala Thr Asn Thr Ile Ser Gly Thr Ser Met Ala Thr Pro His
325 330 335
Ile Ala Gly Leu Gly Ala Tyr Leu Leu Ala Leu Leu Gly Pro Arg Ser
340 345 350
Pro Glu Glu Leu Cys Glu Tyr Ile Lys Gln Thr Ala Thr Ile Gly Thr
355 360 365
Ile Thr Ser Leu Pro Ser Gly Thr Ile Asn Ala Ile Ala Tyr Asn Gly
370 375 380
Ala Thr Ala
385
<210> 16
<211> 1468
<212> PRT
<213> Thermothelomyces thermophilus
<400> 16
Met Val Ala Ser Ser Trp Phe Thr Ala Pro Leu Val Ala Val Ala Leu
1 5 10 15
Leu Leu Ser Leu Asp Gly Ala Val Ala Lys Lys Pro Thr Phe Arg Pro
20 25 30
Pro Ser Leu Pro Thr Tyr Asp Asp Asp Ala Ala Cys Pro Glu Arg Cys
35 40 45
Ser Val Ser Gly Pro Ser Thr Gly Asn Trp Ser Val Tyr Pro Asn Phe
50 55 60
Glu Pro Ile Arg Lys Cys Thr Gln Thr Met Phe Tyr Asp Phe Ser Leu
65 70 75 80
Tyr Asp Ser Val Asp Asp Pro Thr Val Asn His Arg Ile His Ala Cys
85 90 95
Ser Ser Phe Gly Pro Asp Phe Ser Ile Ile Pro Gly Ser Ile Thr Lys
100 105 110
Thr Ala Tyr Ala Ser Pro Ala Pro Ala Lys Ile Arg Phe Glu Leu Gly
115 120 125
Trp Trp Asn Arg Gly Tyr Gly Leu Ala Ala Pro Gly Leu Arg Ser Leu
130 135 140
Val Lys Gln Leu Arg Ala Tyr Ile Asp His Gly His Gly Asp Gly Ala
145 150 155 160
Ala Asp Arg Pro Phe Ile Ile Tyr Gly Gln Ser Gly Gln Ala Thr Ile
165 170 175
Gly Leu Tyr Ile Gly Gln Gly Leu Leu Ser Gln Gly Leu Ser Lys Ser
180 185 190
Ala Leu Lys Ile Leu Gln Asp Asn Leu Ala Asn Ser Asp Val Ser Ala
195 200 205
Pro Ser Leu Ala Ile Gln Leu Cys Gly Gln Gly Tyr Gly Ser Ser His
210 215 220
Ile Phe Gly Ala Met Val Thr Ser Asn Gly Thr Phe Ala Pro Ile Gln
225 230 235 240
Glu Ala Ile Arg Thr Trp Ala Asn Ala Thr Cys Leu Ser Phe Ala Gly
245 250 255
Ser Lys Glu Phe Pro Gly Glu Val Met Phe Thr Thr Pro Leu Leu Leu
260 265 270
Ala Asn Gly Thr Ala Asn Ser Thr Val Arg Ala Arg Ser Leu Arg Pro
275 280 285
Tyr Ala Ala Glu Cys Arg Thr Val Gln Val Glu Ala Gly Asp Ser Cys
290 295 300
Gly Thr Leu Ala Lys Lys Cys Gly Ile Ser Gly Ala Asp Phe Thr Asn
305 310 315 320
Tyr Asn Pro Gly Ala Ser Phe Cys Ser Thr Leu Lys Pro Lys Gln His
325 330 335
Val Cys Cys Ser Ser Gly Thr Leu Pro Asp Phe Arg Pro Val Thr Asn
340 345 350
Pro Asp Gly Ser Cys Tyr Ser Tyr Lys Val Lys Ser Asn Asp Asn Cys
355 360 365
Ala Asp Leu Ala Ala Glu Tyr Gly Leu Thr Val Asp Glu Ile Glu Ser
370 375 380
Phe Asn Lys Asn Thr Trp Gly Trp Gly Gly Cys Lys Val Leu Phe Leu
385 390 395 400
Asp Thr Ile Met Cys Leu Ser Lys Gly Ala Pro Pro Phe Pro Ala Pro
405 410 415
Ile Ser Asn Ala Ile Cys Gly Pro Gln Lys Leu Gly Thr Ile Pro Pro
420 425 430
Thr Asp Gly Ser Asn Ile Ala Asp Leu Asn Pro Cys Pro Ile Asn Ala
435 440 445
Cys Cys Asn Ile Trp Gly Gln Cys Gly Ile Ser Lys Asp Phe Cys Ile
450 455 460
Asp Thr Asn Thr Gly Pro Pro Gly Thr Ala Ala Pro Gly Thr Tyr Gly
465 470 475 480
Cys Ile Ser Asn Cys Gly Leu Asp Ile Val Lys Gly Lys Gly Thr Gly
485 490 495
Ser Ile Lys Ile Ala Tyr Phe Glu Gly Phe Gly Leu Glu Arg Glu Cys
500 505 510
Leu Phe Arg Asp Ala Ser Gln Ile Asp Arg Ser Lys Tyr Thr His Val
515 520 525
His Phe Ala Phe Gly Thr Leu Thr Pro Thr Tyr Glu Val Asn Val Gly
530 535 540
Asp Ile Leu Ser Ser Tyr Gln Phe Thr Gln Phe Lys Leu Ile Ser Gly
545 550 555 560
Pro Lys Lys Ile Leu Ser Phe Gly Gly Trp Asp Phe Ser Thr Ser Lys
565 570 575
Ala Thr Tyr Ser Ile Phe Arg Asn Gly Val Lys Ala Glu Asn Arg Leu
580 585 590
Thr Met Ala Lys Ser Ile Ala Asn Phe Ile Lys Glu His Asp Leu Asp
595 600 605
Gly Val Asp Ile Asp Trp Glu Tyr Pro Gly Ala Pro Asp Ile Pro Asp
610 615 620
Ile Pro Ala Gly Glu Glu Asp Glu Gly Thr Asn Tyr Leu Ala Phe Leu
625 630 635 640
Val Val Leu Lys Asn Leu Leu Pro Gly Lys Ser Ile Ser Ile Ala Ala
645 650 655
Pro Ser Ser Tyr Trp Tyr Leu Lys Gln Phe Pro Ile Lys Ala Ile Ser
660 665 670
Arg Ile Val Asp Tyr Ile Val Phe Met Ser Tyr Asp Ile His Gly Gln
675 680 685
Trp Asp Ala His Asn Met Trp Ser Gln Asp Gly Cys Val Thr Gly Asn
690 695 700
Cys Leu Arg Ser His Val Asn Leu Thr Glu Thr Arg Leu Ala Leu Val
705 710 715 720
Met Ile Thr Lys Ala Gly Val Pro Gly Glu Lys Val Ile Val Gly Val
725 730 735
Thr Ser Tyr Gly Arg Ser Phe Asp Met Ala Gln Pro Gly Cys Trp Ser
740 745 750
Pro Asp Cys Gln Phe Thr Gly Asp Arg Leu Asn Ser Asn Ala Lys Pro
755 760 765
Gly Arg Cys Thr Gly Thr Ala Gly Tyr Ile Ser Asn Ala Glu Ile Asp
770 775 780
Glu Ile Leu Ala Gly Gly Gly Ser Ser Gly Gly Ser Ser Gln Ala Arg
785 790 795 800
Ala Gly Arg Val Val Ala Ser Phe Val Asp Thr Ser Ser Asn Thr Asp
805 810 815
Val Leu Val Tyr Asp Asn Asn Gln Trp Val Gly Tyr Met Ser Glu Lys
820 825 830
Thr Lys Lys Thr Arg Thr Thr Leu Tyr Thr Gly Trp Gly Leu Gly Gly
835 840 845
Thr Thr Asp Trp Ala Ser Asp Leu Gln Gln Tyr His Asp Val Pro Gly
850 855 860
Pro Ala Lys Asp Trp Thr Glu Phe Lys Gln Leu Ile Arg Ala Gly Glu
865 870 875 880
Asp Pro Lys Ser Asp His Ser Arg Glu Gly Asp Trp Thr Lys Phe Asp
885 890 895
Cys Thr Asn Pro Tyr Leu Val Asp Lys Thr Phe Tyr Thr Pro Thr Gln
900 905 910
Arg Trp Lys Asn Leu Asp Thr Asp Ala Ala Trp Arg Asp Val Val Arg
915 920 925
Ile Trp Lys Glu Thr Asp Lys Pro Arg Asn Ile Met Phe Thr Ala Ser
930 935 940
Val Ser Thr Thr Leu Tyr Ile Ser Ala Asp Val Asp Cys Arg Asn Leu
945 950 955 960
Glu Asp Cys Asn Thr Thr Glu Glu Cys Ser Ala Gly Leu Asn Gly Pro
965 970 975
Tyr Ser Gly Pro Ala Ala Gln Phe Ile Trp Asn Ser Met Val Lys Ile
980 985 990
His Ala Met Tyr His Asn Tyr Val Leu Met Leu Glu Arg Ala Thr Ser
995 1000 1005
Leu Val Ser Met Ala Leu Asp Asp Met Gln Lys Thr Phe Ala Pro
1010 1015 1020
Val Pro Val Glu Glu Asp Lys Ala Trp Leu Tyr Leu Leu Ile Asp
1025 1030 1035
Leu Ile Thr Leu Gly Thr Leu Thr Val Ala Gly Pro Leu Tyr Asn
1040 1045 1050
Arg Gln Leu Gly Met Tyr Val Tyr Phe Ser Asp Lys Ser Val Asp
1055 1060 1065
Asp Ile Lys Asp Thr Thr Met Thr Leu Ile Gly Gln Ser Thr Thr
1070 1075 1080
Ile Ala Lys Asp Val Leu Ser Thr Lys Gln Glu Ala Trp Thr Glu
1085 1090 1095
Asn Leu Gln Ala Ser Phe Asn Asn Met Leu Ser Arg Val Ile Glu
1100 1105 1110
Gly Trp Gln Asn Ala Thr Ser Leu Ala Val Asn Lys Ile Phe Ser
1115 1120 1125
Gly Ser Glu Thr Ser Leu Asn Ile Leu Trp Asp Val Met Ser Asp
1130 1135 1140
Gly Lys Leu Ile Glu Gly Met Pro Pro Pro Gly Ser Gly Pro Pro
1145 1150 1155
Pro Asp Pro Gly Asn Ile His Asn Glu Leu Gln Ala Asn Val Lys
1160 1165 1170
Lys Ser Ile Tyr Ala Phe Ala Ile Pro Asn Leu Trp Arg Val Ser
1175 1180 1185
Gln Thr Phe Ala Phe Ile Leu Asp Ser Gly Phe Gly Cys Asp Val
1190 1195 1200
Glu Lys Pro Leu Gln Asp Tyr Leu Glu Asp Glu Thr Met Glu Ala
1205 1210 1215
Thr Gly Ala Cys Val Asp Gly Lys Arg Tyr Tyr Leu Val Ala Pro
1220 1225 1230
Ile Gly Glu Ser Arg Thr Cys Asp Trp Val Asn Gly Met Trp Asp
1235 1240 1245
Cys Thr Leu Ser Asn Lys Phe Ser Ala Pro Pro Gly Leu Asp Arg
1250 1255 1260
Leu Gly Ala Asp Phe Gly Tyr Leu Thr Lys Glu Asp Phe Ile Lys
1265 1270 1275
Gly Ser Ile Arg Thr Trp Leu Lys Asn Gly Lys Arg Asn Ala Gly
1280 1285 1290
Gly Gly Met Pro Asp Val Thr Asp Ile Asp Thr Ile Asn Ser Leu
1295 1300 1305
Ile Asp Leu Asp Phe Thr Thr Pro Gly Phe Ile His Leu Pro Val
1310 1315 1320
Cys Ser Pro Glu Arg Ala Tyr Gln Thr Trp Asp Thr Ser Ser Ser
1325 1330 1335
Gly Tyr Gly Ala Asn Tyr Pro Cys Asp Pro Pro Pro Gly Ile Asn
1340 1345 1350
Asn Cys Gly Asp Ser Thr Phe Glu Asp Gln Thr Ser Ala Ala Ser
1355 1360 1365
Pro Lys Val Glu Asp Cys Leu Gln Ile Ile Lys Asn Ile Gln Asp
1370 1375 1380
Asp Gly Lys Thr Glu Trp Thr Ile Gln Val Leu Gly Lys Asn Gln
1385 1390 1395
Arg Glu Ile Ala Lys Phe Gly Glu Cys Arg Phe Gly Val Glu Ala
1400 1405 1410
Thr Glu Gln Thr Gly Asn Ala Asp Phe Lys Val Gly Gly Gln Asp
1415 1420 1425
Val Ile Asp Ile Ile Asn Asp Ala Val Glu Lys Phe Gly Gly Ser
1430 1435 1440
Gly Arg Val Gly Ala Lys Gly Asp Met Ser Cys Asn Gly Asn Ile
1445 1450 1455
Lys Gly Gln Ala Val Lys Trp Gly Ile Tyr
1460 1465
<210> 17
<211> 561
<212> PRT
<213> Thermothelomyces thermophilus
<400> 17
Met Leu Arg Gly Thr Ile Ala Val Gly Val Ala Cys Leu Ala Gln Leu
1 5 10 15
Val Ala Gly Leu Asp Gly Pro Leu Phe Arg Thr Ser Leu Thr Leu Arg
20 25 30
Asp Phe Arg Glu Gln Leu Glu Arg Arg Gln Ala Arg Asp Gly Ala Ala
35 40 45
Leu Glu Ala Arg Ser Ser Asp Leu Gln Asp Leu Tyr Pro Ala His Thr
50 55 60
Leu Gln Val Pro Val Asp His Phe His Asn Asp Ser Leu Tyr Glu Pro
65 70 75 80
His Ser Ser Glu Thr Phe Pro Leu Arg Tyr Trp Phe Asp Ala Ser His
85 90 95
Tyr Lys Lys Gly Gly Pro Ile Ile Val Leu Gln Ser Gly Glu Thr Asp
100 105 110
Gly Val Gly Arg Leu Pro Phe Leu Gln Lys Gly Ile Val Ala Gln Leu
115 120 125
Ala Arg Ala Thr Asn Gly Leu Gly Val Ile Leu Glu His Arg Tyr Tyr
130 135 140
Gly Glu Ser Ile Pro Thr Pro Asp Phe Ser Thr Glu Lys Leu Arg Phe
145 150 155 160
Leu Thr Thr Asp Gln Ala Leu Ala Asp Met Ala Tyr Phe Ala Arg His
165 170 175
Val Val Phe Lys Gly Leu Glu His Leu Asp Leu Thr Ser Ala Lys Asn
180 185 190
Pro Tyr Ile Ala Tyr Gly Gly Ser Tyr Ala Gly Ala Phe Val Ala Phe
195 200 205
Leu Arg Lys Leu Tyr Pro Asp Val Tyr Trp Gly Ala Ile Ser Ser Ser
210 215 220
Gly Val Pro Glu Ala Ile Tyr Asp Tyr Trp Gln Tyr Tyr Glu Ala Ala
225 230 235 240
Arg Ile Tyr Ala Pro His Asp Cys Val Val Ala Thr Gln Lys Leu Thr
245 250 255
His Ile Val Asp Asn Ile Leu Leu Asp Lys Ala Asp Thr Asp Tyr Val
260 265 270
Arg Arg Leu Lys Thr Gly Phe Gly Leu Gly Gly Val Thr Arg Asn Asp
275 280 285
Asp Phe Ala Asn Ala Ile Ser Trp Gly Ile Gly Gly Leu Gln Gly Leu
290 295 300
Asn Trp Asp Pro Ala Leu Asn Asp Thr Gly Phe Gly Glu Tyr Cys Asn
305 310 315 320
Asn Leu Thr Ala Thr Lys Pro Leu Tyr Pro Thr Ser Pro Ala Leu Glu
325 330 335
Gln Glu Ala Arg Glu Leu Val Lys Ala Gly Gly Tyr Gly Lys Glu Ala
340 345 350
Asp Thr Leu Thr Thr Gln Leu Leu Asn Tyr Met Gly Tyr Val Asn Ala
355 360 365
Thr Thr Val Gln Thr Cys His Lys Asp Ser Gln Asp Glu Cys Phe Thr
370 375 380
Asn Tyr Asn Ser Thr Phe Tyr Gln Gln Asp Asp Lys Thr Gln Asp Trp
385 390 395 400
Arg Leu Trp Pro Tyr Gln Tyr Cys Phe Glu Trp Gly Tyr Leu Gln Thr
405 410 415
Gly Ser Gly Val Pro Ala Asn Gln Leu Pro Leu Ile Ser Arg Leu Ile
420 425 430
Asp Leu Asn Phe Thr Ser Val Val Cys Arg Glu Ala Phe Asn Ile Thr
435 440 445
Thr Pro Ser Gln Val Glu Arg Ile Asn Lys Leu Gly Gly Val Asn Ile
450 455 460
Ser Tyr Pro Arg Leu Ala Phe Val Asp Gly Glu Arg Asp Pro Trp Arg
465 470 475 480
Tyr Ala Ser Pro His Arg Ile Gly Leu Pro Glu Arg Lys Asn Thr Ile
485 490 495
Ser Glu Pro Phe Ile Leu Ile Lys Asp Gly Val His His Trp Asp Glu
500 505 510
Asn Gly Leu Phe Pro Asn Glu Thr Arg Pro Gly Leu Pro Pro Lys Pro
515 520 525
Val Ala Asp Ala Gln Arg Ala Glu Val Lys Phe Val Lys Ala Trp Leu
530 535 540
Lys Glu Trp Lys Glu Lys Glu Lys Cys Arg Gly Arg Lys Phe Cys Trp
545 550 555 560
Pro
<210> 18
<211> 640
<212> PRT
<213> Thermothelomyces thermophilus
<400> 18
Met Thr Met Lys Gly Ser Thr Leu Leu Ala Leu Ala Leu Gly Phe Gly
1 5 10 15
Ala His Ala Gln Phe Pro Pro Lys Arg Glu Gly Ile Thr Val Ile Glu
20 25 30
Ser Lys Phe Tyr Lys Asn Val Ser Ile Ser Phe Lys Glu Pro Gly Ile
35 40 45
Cys Glu Thr Thr Pro Gly Val Lys Ser Tyr Ser Gly Tyr Val His Leu
50 55 60
Pro Pro Asn Leu Ile Glu Gly Ala Asp Gln Asp Tyr Pro Ile Asn Thr
65 70 75 80
Phe Phe Trp Phe Phe Glu Ala Arg Lys Asp Pro Ala Asn Ala Pro Leu
85 90 95
Ala Ile Trp Leu Asn Gly Gly Pro Gly Gly Ser Ser Met Met Gly Leu
100 105 110
Leu Glu Glu Asn Gly Pro Cys Phe Val Gly Pro Asp Ser Lys Thr Thr
115 120 125
Tyr Leu Asn Arg Trp Ser Trp Asn Asn Glu Ala Asn Met Leu Tyr Ile
130 135 140
Asp Gln Pro Val Gln Thr Gly Phe Ser Tyr Asp Val Leu Thr Asn Val
145 150 155 160
Thr Val Gln Leu Asp Val Asp Asp Pro Ser Glu Pro Ile Ile Thr Pro
165 170 175
Thr Asn Phe Thr Asp Gly His Ile Pro Arg Thr Asn Asn Thr Phe Arg
180 185 190
Ile Gly Thr Val Gly Ser Gln Lys Ala Ser Gln Val Thr Asn Ser Thr
195 200 205
Glu Leu Ser Ala His Ala Met Trp His Phe Leu Gln Thr Trp Leu Phe
210 215 220
Glu Phe Pro His Tyr Arg Ser Asp Asp Gly Arg Ile Ser Leu Trp Ala
225 230 235 240
Glu Ser Tyr Gly Gly Thr Tyr Gly Pro Ala Phe Phe Arg Phe Phe Gln
245 250 255
Gln Gln Asn Glu Arg Ile Ala Asp Gly Gln Leu Glu Gly Arg Tyr Leu
260 265 270
His Leu Asp Thr Leu Gly Ile Ile Asn Gly Ala Val Asp Trp Pro Ile
275 280 285
Leu Ala Glu Ser Leu Ile Asp Tyr Pro Tyr Asn Asn Ser Tyr Gly Ile
290 295 300
Gln Phe Tyr Asn Asp Thr Phe His Ala Ala Leu Lys His Asn Trp Thr
305 310 315 320
Arg Pro Ser Gly Trp Arg Glu Gln Met Gln Ala Cys Thr Glu Ser Leu
325 330 335
Ala Ser Ser Ser Ser Ser Ser Ser Pro Pro Ala Ala Gly Cys Glu Ala
340 345 350
Val Arg Ser Val Leu Asp Asp Val Leu Ala Ala Ala Phe Pro Arg Gln
355 360 365
Ser Gly Arg Ala Pro Phe Asp Leu Ala His Pro Arg Ala Asp Pro Phe
370 375 380
Pro Pro Pro His Pro His Gly Phe Leu Ala Arg Ala Asp Val Gln Ala
385 390 395 400
Ala Leu Gly Val Pro Val Asn His Thr Ala Val Ser Leu Pro Val Asn
405 410 415
Arg Ala Phe Asp Ala Thr Phe Asp Pro Leu Arg Gly Gly Gln Leu Asp
420 425 430
Ala Leu Ala Gly Leu Leu Asp Arg Arg Ala Gly Gly Gly Val Lys Val
435 440 445
His Leu Val Tyr Gly Asp Arg Asp Pro Ser Cys Asn Trp Ala Gly Gly
450 455 460
Glu Lys Val Ser Leu Ala Val Pro Trp Ser Arg Arg Asp Val Phe Ala
465 470 475 480
Ala Ala Gly Tyr Ala Pro Leu Val Val Val Ser Gly Lys Gly Gly Gly
485 490 495
Asp Gly Gly Asn Thr Gly Gly Gly Asn Thr Gly Gly Gly Glu Glu Glu
500 505 510
Val Val Val Val Arg Gly Leu Thr Arg Gln Val Gly Arg Phe Ser Phe
515 520 525
Thr Arg Val Phe Gln Ala Gly His Glu Val Pro Ser Tyr Gln Pro Gln
530 535 540
Ala Gly Tyr Glu Ile Phe Arg Arg Ala Met Ala Gly Leu Asp Leu Pro
545 550 555 560
Thr Gly Arg Val Arg Ala Gly Asp Asp Phe Val Thr Ala Gly Leu Arg
565 570 575
Asp Ala Trp Ala Val Lys Asn Ala Ala Pro Asp Met Val Glu Pro Arg
580 585 590
Cys Tyr Val Leu Lys Pro Glu Ser Cys Glu Pro Glu Val Trp Lys Thr
595 600 605
Val Val Asp Gly Thr Ala Ile Val Lys Asp Trp Phe Val Val Gly Ser
610 615 620
Thr Gly Gly Glu Gly Arg Gly Val Glu Gly Gly Ile Asp Gly Asp Glu
625 630 635 640
<210> 19
<211> 571
<212> PRT
<213> Thermothelomyces thermophilus
<400> 19
Met Leu Trp Thr Thr Leu Leu Ser Ala Leu Leu Leu Thr Gly Thr Ala
1 5 10 15
Glu Ala Ala Gly Arg Ser Ile Ala His Ala Gly Lys Arg His Val Glu
20 25 30
His Ala Ala Lys Arg Ala Lys Pro Ile Met Pro Ala Gly Pro Tyr His
35 40 45
Pro Val Ile Glu Arg Glu Glu Lys Ala Pro Lys Phe Leu Thr Pro Lys
50 55 60
Thr Glu Lys Phe Ala Val Asp Gly Lys Gly Ile Pro Asp Val Asp Phe
65 70 75 80
Asp Val Gly Glu Ser Tyr Ala Gly Leu Leu Pro Leu Ser Ser Asp Pro
85 90 95
Asn Asp Asp Lys Asn Leu Phe Phe Trp Phe Phe Pro Ser Thr Asn Pro
100 105 110
Ala Ala Glu Lys Glu Ile Leu Ile Trp Leu Asn Gly Gly Pro Gly Cys
115 120 125
Ser Ser Phe Glu Gly Leu Leu Gln Glu Asn Gly Pro Phe Leu Trp Gln
130 135 140
Tyr Gly Thr Tyr Lys Pro Val Gln Asn Pro Trp Ser Trp His Thr Leu
145 150 155 160
Thr Asn Ile Val Tyr Val Glu Gln Pro Val Gly Thr Gly Phe Thr Thr
165 170 175
Gly Thr Pro Thr Ile Thr Asn Glu Glu Glu Leu Ala Ala Glu Phe Met
180 185 190
Gly Phe Trp Lys Asn Phe Val Asp Thr Phe Gly Leu His Gly Tyr Lys
195 200 205
Val Tyr Ile Ala Gly Glu Ser Tyr Ala Gly Tyr Tyr Cys Pro Tyr Ile
210 215 220
Ala Ala Ala Phe Leu Asp Glu Glu Asp Lys Thr Tyr Tyr Asp Met Ser
225 230 235 240
Gly Met Thr Ile Tyr Asn Pro Ser Leu Ala Pro Asp Glu Ile Gln Glu
245 250 255
Pro Ile Pro Val Val Ala Phe Thr Glu Tyr Trp Ser Gly Leu Phe Pro
260 265 270
Phe Asn Asp Thr Phe Arg Ala Asp Ile Lys Arg Arg Glu Lys Glu Cys
275 280 285
Gly Tyr Ala Asp Phe Leu Ala Glu Tyr Leu Val Tyr Pro Pro Lys Gly
290 295 300
Pro Leu Pro Ser Arg Leu Pro Gly Thr His Arg Asp Gly Thr Thr Arg
305 310 315 320
Glu Glu Cys Trp Asn Ile Tyr Trp Asp Ile Phe Asp Ala Ile Ser Val
325 330 335
Leu Asn Pro Cys Phe Asp Ile Tyr Gln Val Ala Thr Thr Cys Pro Leu
340 345 350
Leu Trp Asp Val Leu Gly Phe Pro Gly Ser Met Pro Tyr Leu Pro Glu
355 360 365
Gly Thr Lys Val Tyr Phe Asp Arg Glu Asp Val Lys Arg Ala Ile His
370 375 380
Ala Pro Val Asn Ala Thr Trp Glu Glu Cys Ser Ser Arg Asp Val Phe
385 390 395 400
Val Asn Gly Thr Asp His Ser Val Pro Ser Thr Val Arg Ala Leu Pro
405 410 415
Arg Val Ile Asp Gly Thr Lys Asn Val Ile Ile Gly His Ser Ala Leu
420 425 430
Asp Met Ile Leu Leu Ala Asn Gly Thr Leu Leu Ala Leu Gln Asn Met
435 440 445
Thr Trp Gly Gly Lys Arg Gly Phe Gln Ser Arg Pro Asp Gln Pro Phe
450 455 460
Tyr Val Pro Leu Asn Asn Ile Thr Thr Leu Ser Thr Leu Ala Ala Ala
465 470 475 480
Gly Val Phe Gly Ser Leu Val Ser Glu Arg Gly Leu Thr Tyr Val Gly
485 490 495
Val Asp Leu Ala Gly His Met Val Pro Gln Tyr Ala Pro Ser Ala Ala
500 505 510
Tyr Arg His Val Glu Tyr Met Leu Gly Arg Val Asp Cys Met Asn Cys
515 520 525
Thr Lys Pro Phe Thr Thr Asp Pro Phe Thr Pro Gln Ser Lys Gly Lys
530 535 540
Leu Gly Lys Gly Thr Ala Pro Gln Gly Trp Ser Asn Ala Ser Gly His
545 550 555 560
Gly Lys Gly Asn Gly Pro Arg Arg Ile Arg Ala
565 570
<210> 20
<211> 8017
<212> DNA
<213> Thermothelomyces thermophilus
<400> 20
agggtaggtg ggatgggcgg ggtgtagggt aggtcggtgt agggtaggtc ggctgggcgg 60
ggtgtagggt aggtcggttg ggcggggtgt agggtaggtc ggttgggatg ggtgtagggt 120
aggtcggccg ggtgtagggt aggtcggctg ggcggggtgt agggtaggtc ggtgtagggt 180
aggtgggatg gggcgctatg tgcggccgcg agctcgcgag cccattttta gcgaaggcca 240
tacaaacgag ttttgcggaa cccgggattc cacccccgaa gccgccggcg cgtgcgcccc 300
gctgcgcatc ggtcggtggg tatatgagaa gggggcgggc aagccggaag ccagaggcaa 360
ctgctactgt tagctgccgc tggcctccgc ggcccagggc gcggcacggc tgcgttgaag 420
tctcccagtc tcccacccgt tggctgcgcg gatccgcccg tcttggtggt tgcgagctcg 480
cgagcccatt tttagcgaag gccatacaaa cgagttttgc ggggcccggg attccacccc 540
ggaacccgcc ggcgcgtgcg ccccgctgcg catcggtcgg tgggtatgtg agggaggaag 600
aagaaaaaaa aaaaaagctc ctgcgggggg gctgtcgggc acgcctactt tcgggcgacc 660
cggcacctct ccgcggcagc cttcgcaggc cgctgttggt cccatttcat acgtcgccgc 720
cttcgcgtgg tgccctacgg tctgccgggg taccgacgat tgcggcgagc accgcctcag 780
caccgctgct gccaccggcg cgacctcgcc cgggggtgcg cgcggcatct gggaagactc 840
tgcaggcgta agggaatacc ccatgtgcgc cgaggggtgg gctatgtggg tgcttggcgg 900
ttcgccagac ctttctaaag ccaccggggg tacctaccgg ttggggacgc ctacagggct 960
gaacctcccg gtcgggcctc ctcttggggc gcttaggcgg cgacttcggg gcgcgatcgc 1020
tccccgctct cgcccgccga cggcgctctg gggaattcag gaggggaaag cagatgtgac 1080
ccgcggctcg accggcgcat tgccggacga gctgcgcggc cacgcgggcc cccgcgcccg 1140
ccgacccagt aacttagtga actcttccgc cctgaaacac gggcggttgg ccctaaccgg 1200
ctcacgatag ttacctggtt gattctgcca gtagtcatat gcttgtctca aagattaagc 1260
catgcatgtc taagtataag caattataca gcgaaactgc gaatggctca ttaaatcagt 1320
tatcgtttat ttgatagtac cttactacat ggataaccgt ggtaattcta gagctaatac 1380
atgctaaaaa tcccgacttc ggaagggatg tatttattag attaaaaacc aatgccctcc 1440
ggggctctct ggtgattcat gataacttct cgaatcgcac ggccttgcgc cggcgatggt 1500
tcattcaaat ttctgcccta tcaactttcg acggctgggt cttggccagc cgtggtgaca 1560
acgggtaacg gagggttagg gctcgacccc ggagaaggag cctgagaaac ggctactaca 1620
tccaaggaag gcagcaggcg cgcaaattac ccaatcccga cacggggagg tagtgacaat 1680
aaatactgat acagggctct tttgggtctt gtaattggaa tgagtacaat ttaaatccct 1740
taacgaggaa caattggagg gcaagtctgg tgccagcagc cgcggtaatt ccagctccaa 1800
tagcgtatat taaagttgtt gaggttaaaa agctcgtagt tgaaccttgg gcctagccgg 1860
ccggtccgcc tcaccgcgtg cactggctcg gctgggtctt tccttctgga gaaccgcatg 1920
cccttcactg ggtgtgccgg ggaaccagga cttttactct gaacaaatta gatcgcttaa 1980
agaaggccta tgctcgaata cattagcatg gaataataga ataggacgtg tggttctatt 2040
ttgttggttt ctaggaccgc cgtaatgatt aatagggaca gtcgggggca tcagtattca 2100
attgtcagag gtgaaattct tggatttatt gaagactaac tactgcgaaa gcatttgcca 2160
aggatgtttt cattaatcag gaacgaaagt taggggatcg aagacgatca gataccgtcg 2220
tagtcttaac cataaactat gccgattagg gatcggacgg cgttattttt tgacccgttc 2280
ggcaccttac gataaatcaa aatgtttggg ctcctggggg agtatggtcg caaggctgaa 2340
acttaaagaa attgacggaa gggcaccacc aggggtggag cctgcggctt aatttgactc 2400
aacacgggga aactcaccag gtccagacac gatgaggatt gacagattga gagctctttc 2460
ttgatttcgt gggtggtggt gcatggccgt tcttagttgg tggagtgatt tgtctgctta 2520
attgcgataa cgaacgagac cttaacctgc taaatagccc gtattgcttt ggcagtacgc 2580
cggcttctta gagggactat cggctcaagc cgatggaagt ttgaggcaat aacaggtctg 2640
tgatgccctt agatgttctg ggccgcacgc gcgctacact gacagagcca gcgagtactc 2700
ccttggccgg aaggcccggg taatcttgtt aaactctgtc gtgctgggga tagagcattg 2760
caattattgc tcttcaacga ggaatcccta gtaagcgcaa gtcatcagct tgcgttgatt 2820
acgtccctgc cctttgtaca caccgcccgt cgctactacc gattgaatgg ctcagtgagg 2880
ctttcggact ggcccagaga ggtcggcaac gaccactcag ggccggaaag ttatccaaac 2940
tcggtcattt agaggaagta aaagtcgtaa caaggtctcc gttggtgaac cagcggaggg 3000
atcattacag agctgcaaaa ctccctaaac catcgtgaac gctacctaga ccgttgcttc 3060
ggcgggcggc gccctcgcgc gccccccctg gggcccgcac cgcgggcgcc cgccggaggt 3120
acaccaaact cttgatatgt tatggccact ctgagtctcc tgtactgaat aagtcaaaac 3180
tttcaacaac ggatctcttg gttctggcat cgatgaagaa cgcagcgaaa tgcgataagt 3240
aatgtgaatt gcagaattca gtgaatcatc gaatctttga acgcacattg cgcccgccag 3300
catcctggcg ggcatgcctg ttcgagcgtc atttcaaccc atcaagccca cggcttgtgt 3360
tggggacctg cggctgcccg caggccctga aaaccagtgg cgggctcgct agtcacaccg 3420
ggcgtagtag catacgacct cgctcagggc gtgctgcggg ttccagccgt aaaacgacct 3480
tcacaaccca aggttgacct cggatcaggt aggaggaccc gctgaactta agcatatcaa 3540
taagcggagg aaaagaaacc aacagggatt gccctagtaa cggcgagtga agcggcaaca 3600
gctcaaattt gaaatctggc ttcggcccga gttgtaattt gcagaggaag ctttaggcgc 3660
ggcaccttct gagtcccctg gaacggggcg ccatagaggg tgagagcccc gtatagttgg 3720
atgcctagcc tgtgtaaagc tccttcgacg agtcgagtag tttgggaatg ctgctcaaaa 3780
tgggaggtaa atttcttcta aagctaaata ccggccagag accgatagcg cacaagtaga 3840
gtgatcgaaa gatgaaaagc actttgaaaa gagggttaaa tagcacgtga aattgttgaa 3900
agggaagcgc ttgtgaccag acttgcgccg ggctgatcat ccggtgttct caccggtgca 3960
ctctgcccgg ctcaggccag catcggttct cgcgggggga taaaggcccg gggaatgtag 4020
ctcctccggg agtgttatag ccccgggtgt aataccctcg cggggaccga ggttcgcgca 4080
tctgcaagga tgctggcgta atggtcatca gcgacccgtc ttgaaacacg gaccaaggag 4140
tcaaggtttt gcgcgagtgt ttgggtgtaa aacccgcacg cgtaatgaaa gtgaacgtag 4200
gtgagagctt cggcgcatca tcgaccgatc ctgatgtttt cggatggatt tgagtaggag 4260
cgttaagcct tggacccgaa agatggtgaa ctatgcttgg atagggtgaa gccagaggaa 4320
actctggtgg aggctcgcag cggttctgac gtgcaaatcg atcgtcaaat ctgagcatgg 4380
gggcgaaaga ctaatcgaac catctagtag ctggttaccg ccgaagtttc cctcaggata 4440
gcagtgttgt cttcagtttt atgaggtaaa gcgaatgatt agggactcgg gggcgctttt 4500
tagccttcat ccattctcaa actttaaata tgtaagaagc ccttgttact tagttgaacg 4560
tgggccttcg aatgtatcaa cactagtggg ccatttttgg taagcagaac tggcgatgcg 4620
ggatgaaccg aacgcggggt taaggtgccg gagtggacgc tcatcagaca ccacaaaagg 4680
cgttagtaca tcttgacagc aggacggtgg ccatggaagt cggaatccgc taaggactgt 4740
gtaacaactc acctgccgaa tgtactagcc ctgaaaatgg atggcgctca agcgtcccac 4800
ccataccccg ccctcagggt agaaacgacg ccctgaggag taggcggccg tggaggtcag 4860
tgacgaagcc tagggcgtga gcccgggtcg aacggcctct agtgcagatc ttggtggtag 4920
tagcaaatac ttcaatgaga acttgaagga ccgaagtggg gaaaggttcc atgtgaacag 4980
cggttggaca tgggttagtc gatcctaagc catagggaag ttccgtttca aaggggcact 5040
cgtgccccgt gtggcgaaag ggaagccggt taacattccg gcacctggat gtgggttttg 5100
cgcggtaacg caactgaacg cggagacgac ggcgggggcc ccgggcagag ttctcttttc 5160
ttcttaacgg tctatcaccc tggaaacagt ttgtctggag atagggttta acggccggaa 5220
gagcccgaca cttctgtcgg gtccggtgcg ctctcgacgt cccttgaaaa tccgcgggag 5280
ggaataattc tcacgccagg tcgtactcat aaccgcagca ggtccccaag gtgaacagcc 5340
tctggttgat agaacaatgt agataaggga agtcggcaaa atagatccgt aacttcggga 5400
taaggattgg ctctaagggt tgggcacgtt gggctttggg cggacgccct gggagcaggt 5460
cgcctctagc cgggcaaccg gcggggggct tccagcatcc gggtgcagat gcccttagca 5520
ggcttcggcc gtccggcgcg cggttaacaa ccaacttaga actggtacgg acagggggaa 5580
tctgactgtc taattaaaac atagcattgc gatggccaga aagtggtgtt gacgcaatgt 5640
gatttctgcc cagtgctctg aatgtcaaag tgaagaaatt caaccaagcg cgggtaaacg 5700
gcgggagtaa ctatgactct cttaaggtag ccaaatgcct cgtcatctaa ttagtgacgc 5760
gcatgaatgg attaacgaga ttcccactgt ccctatctac tatctagcga aaccacagcc 5820
aagggaacgg gcttggcaga atcagcgggg aaagaagacc ctgttgagct tgactctagt 5880
ttgacattgt gaaaagacat aggaggtgta gaataggtgg gagcttcggc gccggtgaaa 5940
taccactact cctattgttt ttttacttat tcaatgaagc ggggctggat tttcgtccaa 6000
cttctggttt taaggtcctt cgcgggccga cccgggttga agacattgtc aggtggggag 6060
tttggctggg gcggcacatc tgttaaacca taacgcaggt gtcctaaggg gggctcatgg 6120
agaacagaaa tctccagtag aacaaaaggg taaaagtccc cttgattttg attttcagtg 6180
tgaatacaaa ccatgaaagt gtggcctatc gatcctttag tccctcgaaa tttgaggcta 6240
gaggtgccag aaaagttacc acagggataa ctggcttgtg gcggccaagc gttcatagcg 6300
acgtcgcttt ttgatccttc gatgtcggct cttcctatca taccgaagca gaattcggta 6360
agcgttggat tgttcaccca ctaataggga acgtgagctg ggtttagacc gtcgtgagac 6420
aggttagttt taccctactg atgaactcat cgcaatggta attcagctta gtacgagagg 6480
aaccgctgat tcagataatt ggtttttgcg gttgtccgac cgggcagtgc cgcgaagcta 6540
ccatctgctg gataatggct gaacgcctct aagtcagaat ccatgccaga acgcgatgat 6600
actacccgca cgttgtagac gtataagaat aggctccggc ctcgtatcct agcaggcgat 6660
tcctccgccg gcctcgaagt tggccggcgg taattcgcgt attgcaattt cgacacgcgc 6720
gggatcaaat cctttgcaga cgacttagat gtgcgaaagg gtcctgtaag cagtagagta 6780
gccttgttgt tacgatctgc tgagggtaag ccctccttcg cctagatttc ccagcgagag 6840
cccgccggcg gaacagccgg gcgagcctta cgggggaagc cttaagggga ttgagaagtg 6900
gtgccgtgcg ttcgcgcgcc cctaggtcct ttagccggcc gcaggtgtag ggtaggtcgg 6960
ttgggaggat ggggtgtagg gtaggtcggt gtagggtagg ttggttggga ggatggggtg 7020
tagggtaggt cggccgggtg tagggtaggt cggtgtaggg taggtgggat ggggcgctat 7080
atgcggccgc gagctcgcga gcctattttt agtgaaggct atataaataa gctttacgtt 7140
accgggcctt gctaccctcg agtggcgtgg gccgtgctgc ctactgggca ttgctcgccg 7200
ggctgtataa gggaggggtc ggggtcgcgg tctagggtag gtcgggtggg atggggtgta 7260
gggtaggaga agcgctctag tcgtgtgtct ttttctctag gtctattatt agtactggct 7320
gtagggcgac gtgccctgcc ttgttataat attatattgt atgtttaggc ctatactagc 7380
ttgtaatcta tttgtatctg gcttattagg tacggcttcc tttgtatata actagagagg 7440
ctctggtatg cttcttagta tagcggtata ggattcataa tcatagtaat gataatcata 7500
atagtaataa taataataat agtaatgata ataataataa tctatttata tcttatttaa 7560
aatgcttgta cggctgcctg ctcttaagga gtagctagat atgagatggt agggtagcta 7620
gctaacctag gctagacgtt ctcgtccctt agctatataa gtgctatata ttatagttag 7680
ttatctaacc taccttctta cttgagcaga agaggtaggg ttctagtata gctagtaggg 7740
cttctaggcc taagggcctg ttattcgagt tattataggt tagtatttaa tatagttata 7800
gggataggcc tcgattacgg gtataggata ggtaggatag gtatagggta ggtcggttag 7860
gaggataggg tgtaaggtag gtcggccggg tatagggtag gtagtaggtt aggcggggtg 7920
tagggtaggt cggtgtaggg taggtgggat gggcggggtg tagggtaggt cggttgggag 7980
gatggggtgt agggtaggtc ggtgtagggt aggtcgg 8017
<210> 21
<211> 8334
<212> DNA
<213> Artidicial sequence
<400> 21
gtttaaacga aaggatctct cgcccaggtg gacaacccgc ataatggagg cgccgtggtg 60
gattttgcca tgcaggagcc aaccgccagc ggccatgaac ccgcccagca cgatcactct 120
accaagtaac gttaaagagg cgatccctca tgcgccggag taactaacgg agtaccttct 180
cattgatctt actgacttgt tagtccgcgc tgacggccaa cagttcaacc agcccggtga 240
tcagcagctc gagggcttgc actggccatc cgccgggcgc ttggctgagc gagcatccgc 300
gggtcagcca cagccgccgg tctgatgtgg ccgtggcatg acctcagctt gtttatgggt 360
tattagatct ggcttagatc cggcttattt agatatctat ctagtcgagg cagggggttc 420
gagagaccgt ttggtttggt tcatccgacg tttgcctctc tgagctcggt gagtgagagc 480
ttcggttgcg acggccaagc atcgcggggc cgcactcgca ggctgcttcg caccacggaa 540
ctcatccgag ctacggagtc cctccgtacg ctactcgagt acgtccgtcc tctgtaggca 600
tctcgagccg tcgccagcat ttgagaccaa tggaaggggg tttcctcccg tgcaactttg 660
gttgaaacct tcaaagcgtc ccccgactgg ggcaaccgtt tgacttggat ccacacttca 720
ggggtagaga ggctcctctc gacaaccccc tgtatttctg taacccccct tgaacgccgt 780
acatggcacc acaacaccaa acaagccatg ctgcttggaa tcttcgctcc gaaaagagcc 840
ccccccgggc cctccaactt catgcgctcc ctcctcagtt aaatagcggc cgctctgctc 900
catggagtat tgctctcttc attaggctgt tgtgatttgc ttgcttgttt tcctttcctt 960
ttccgcacac ccattccctc ttttcactgg gtcgaggctc tctccaccga taaccttcga 1020
tccgcggcgc gccgttggcg gtaacagcag gtgccgttcg ctgctgctcg gtccttttcc 1080
cgaaagtacc ctgccttcct ggcctcgacc tccgcctgcg gggctctggg cactgtcaaa 1140
ctttcgcagt tttgcacccg cagcgattcg agcgggaccc gcttcgccaa cgcggatcag 1200
gagaggtaaa agtctcccct gtcctttctg ccggagcatc ctccgtccgt cgttcgctgg 1260
ttgttgtgtg tgtgtgtgtg tacagtactg taggtacata gtgctcaccc cagggcattt 1320
ccccaatccg cgattgcgca taccataggc gtcatctgaa tctgcgttac gtccggataa 1380
cactacgcag tacgaaggag tcggtgctac tacgcccgca agttcaagtc tacggtgtgg 1440
ctaaggtgct caagggcata gttacacgca ccccgggcga gcttctcgca cctcgaccct 1500
ttgccggggc gtcactggtc cgacaactca taatccacca tcgcttgggc aggcctgcat 1560
cccccgtggg tcgcatccaa gccgccggta aataccggcc gacacacaca cacacacacg 1620
caccctgtct agcgcgacgc tacaaaagag accggcaggc actccccgcg accgcttgtt 1680
ctggccatcc cgtctctcgc ctctgcagtt atcgcctgcc tcatctctgc gtcctgataa 1740
cttttgtcac ctctgatccc cccccgacga gacggtctcg ccgaccagga cccgagatgg 1800
cggaccgcca tcctactctg tcccagtcct tcgccgagcg ggcgaagacg gctagccacc 1860
cgctcacccg ctacctcttt cggctcatgg acctcaaggc ctcgaacctg tgcctgagcg 1920
ccgacgtgtc caccgcgcgc gagcttctga cgctggccga ccgggtcggc ccctcgatcg 1980
tcgtgctcaa gacgcactac gacctgatct cgggctggga ctacaacccg caaaccggca 2040
ccggcgcgaa gctggccgcc ctggcgagga agcatggctt cctcatcttt gaggaccgca 2100
agtttgtcga cattggtaag acggtgcaga tgcagtacac ggctggcact gcgcgcataa 2160
tagagtgggc gcacatcacc aacgccaaca tcgacgccgg caaggacatg gtgcgcgcca 2220
tggccgaggc ggccgccaag tggaaggaac gcatcaacta cgaggtcaag acctccgtca 2280
cggtgggcac gcccgtctcg gaccagttcg acgatgcgga agagcaagcg cagtggccgc 2340
agcaccagca gcaccagcac cagcaccagc accagcaaca gcgagatgaa aaaggtgggc 2400
cccgcaggct cggcactcgg gaggagcagc accaacagga caacggagac ggtgacggcc 2460
ggaaagggag cattgtctcg atcactacgg tgacgcagtc atttgagccc gctcactccc 2520
cacgcctgtc caagagcaac gagctgggcg acgacgccgt cttccccggc atcgaggagg 2580
cccccgtcga ccgcggcctg cttctgctcg cccagatgtc gtccaagggc tgcctcatga 2640
ccaaggagta cacccaggcc tgcgtcgagg ccgcgcgcga gcataaggat tttgtcatgg 2700
gcttcgtctc acaggagtcg ctcaactcgg ccccggacga cactttcatc cacatgaccc 2760
ccggatgcaa gcttccgccg ccaggcgagg acgaagagag cggccagatc gagtttaaac 2820
ggcgcgccgc tgtttcctgt gtgaaattgt tatccgctca caattccaca caacatagga 2880
gccggaagca taaagtgtaa agcctggggt gcctaatgag tgaggtaact cacattaatt 2940
gcgttgcgct cactgcccgc tttccagtcg ggaaacctgt cgtgccagct gcattaatga 3000
atcggccaac gcgcggggag aggcggtttg cgtattgggc gctcttccgc ttcctcgctc 3060
actgactcgc tgcgctcggt cgttcggctg cggcgagcgg tatcagctca ctcaaaggcg 3120
gtaatacggt tatccacaga atcaggggat aacgcaggaa agaacatgtg agcaaaaggc 3180
cagcaaaagg ccaggaaccg taaaaaggcc gcgttgctgg cgtttttcca taggctccgc 3240
ccccctgacg agcatcacaa aaatcgacgc tcaagtcaga ggtggcgaaa cccgacagga 3300
ctataaagat accaggcgtt tccccctgga agctccctcg tgcgctctcc tgttccgacc 3360
ctgccgctta ccggatacct gtccgccttt ctcccttcgg gaagcgtggc gctttctcat 3420
agctcacgct gtaggtatct cagttcggtg taggtcgttc gctccaagct gggctgtgtg 3480
cacgaacccc ccgttcagcc cgaccgctgc gccttatccg gtaactatcg tcttgagtcc 3540
aacccggtaa gacacgactt atcgccactg gcagcagcca ctggtaacag gattagcaga 3600
gcgaggtatg taggcggtgc tacagagttc ttgaagtggt ggcctaacta cggctacact 3660
agaaggacag tatttggtat ctgcgctctg ctgaagccag ttaccttcgg aaaaagagtt 3720
ggtagctctt gatccggcaa acaaaccacc gctggtagcg gtggtttttt tgtttgcaag 3780
cagcagatta cgcgcagaaa aaaaggatct caagaagatc ctttgatctt ttctacgggg 3840
tctgacgctc agtggaacga aaactcacgt taagggattt tggtcatgag attatcaaaa 3900
aggatcttca cctagatcct tttaaattaa aaatgaagtt ttaaatcaat ctaaagtata 3960
tatgagtaaa cttggtctga cagttaccaa tgcttaatca gtgaggcacc tatctcagcg 4020
atctgtctat ttcgttcatc catagttgcc tgactccccg tcgtgtagat aactacgata 4080
cgggagggct taccatctgg ccccagtgct gcaatgatac cgcgagaccc acgctcaccg 4140
gctccagatt tatcagcaat aaaccagcca gccggaaggg ccgagcgcag aagtggtcct 4200
gcaactttat ccgcctccat ccagtctatt aattgttgcc gggaagctag agtaagtagt 4260
tcgccagtta atagtttgcg caacgttgtt gccattgcta caggcatcgt ggtgtcacgc 4320
tcgtcgtttg gtatggcttc attcagctcc ggttcccaac gatcaaggcg agttacatga 4380
tcccccatgt tgtgcaaaaa agcggttagc tccttcggtc ctccgatcgt tgtcagaagt 4440
aagttggccg cagtgttatc actcatggtt atggcagcac tgcataattc tcttactgtc 4500
atgccatccg taagatgctt ttctgtgact ggtgagtact caaccaagtc attctgagaa 4560
tagtgtatgc ggcgaccgag ttgctcttgc ccggcgtcaa tacgggataa taccgcgcca 4620
catagcagaa ctttaaaagt gctcatcatt ggaaaacgtt cttcggggcg aaaactctca 4680
aggatcttac cgctgttgag atccagttcg atgtaaccca ctcgtgcacc caactgatct 4740
tcagcatctt ttactttcac cagcgtttct gggtgagcaa aaacaggaag gcaaaatgcc 4800
gcaaaaaagg gaataagggc gacacggaaa tgttgaatac tcatactctt cctttttcaa 4860
tattattgaa gcatttatca gggttattgt ctcatgagcg gatacatatt tgaatgtatt 4920
tagaaaaata aacaaatagg ggttccgcgc acatttcccc gaaaagtgcc acctgaacga 4980
agcatctgtg cttcattttg tagaacaaaa atgcaacgcg agagcgctaa tttttcaaac 5040
aaagaatctg agctgcattt ttacagaaca gaaatgcaac gcgaaagcgc tattttacca 5100
acgaagaatc tgtgcttcat ttttgtaaaa caaaaatgca acgcgagagc gctaattttt 5160
caaacaaaga atctgagctg catttttaca gaacagaaat gcaacgcgag agcgctattt 5220
taccaacaaa gaatctatac ttcttttttg ttctacaaaa atgcatcccg agagcgctat 5280
ttttctaaca aagcatctta gattactttt tttctccttt gtgcgctcta taatgcagtc 5340
tcttgataac tttttgcact gtaggtccgt taaggttaga agaaggctac tttggtgtct 5400
attttctctt ccataaaaaa agcctgactc cacttcccgc gtttactgat tactagcgaa 5460
gctgcgggtg cattttttca agataaaggc atccccgatt atattctata ccgatgtgga 5520
ttgcgcatac tttgtgaaca gaaagtgata gcgttgatga ttcttcattg gtcagaaaat 5580
tatgaacggt ttcttctatt ttgtctctat atactacgta taggaaatgt ttacattttc 5640
gtattgtttt cgattcactc tatgaatagt tcttactaca atttttttgt ctaaagagta 5700
atactagaga taaacataaa aaatgtagag gtcgagttta gatgcaagtt caaggagcga 5760
aaggtggatg ggtaggttat atagggatat agcacagaga tatatagcaa agagatactt 5820
ttgagcaatg tttgtggaag cggtattcgc aatattttag tagctcgtta cagtccggtg 5880
cgtttttggt tttttgaaag tgcgtcttca gagcgctttt ggttttcaaa agcgctctga 5940
agttcctata ctttctagag aataggaact tcggaatagg aacttcaaag cgtttccgaa 6000
aacgagcgct tccgaaaatg caacgcgagc tgcgcacata cagctcactg ttcacgtcgc 6060
acctatatct gcgtgttgcc tgtatatata tatacatgag aagaacggca tagtgcgtgt 6120
ttatgcttaa atgcgtactt atatgcgtct atttatgtag gatgaaaggt agtctagtac 6180
ctcctgtgat attatcccat tccatgcggg gtatcgtatg cttccttcag cactaccctt 6240
tagctgttct atatgctgcc actcctcaat tggattagtc tcatccttca atgctatcat 6300
ttcctttgat attggatcat actaagaaac cattattatc atgacattaa cctataaaaa 6360
taggcgtatc acgaggccct ttcgtctcgc gcgtttcggt gatgacggtg aaaacctctg 6420
acacatgcag ctcccggaga cggtcacagc ttgtctgtaa gcggatgccg ggagcagaca 6480
agcccgtcag ggcgcgtcag cgggtgttgg cgggtgtcgg ggctggctta actatgcggc 6540
atcagagcag attgtactga gagtgcacca taccacagct tttcaattca attcatcatt 6600
ttttttttat tctttttttt gatttcggtt tctttgaaat ttttttgatt cggtaatctc 6660
cgaacagaag gaagaacgaa ggaaggagca cagacttaga ttggtatata tacgcatatg 6720
tagtgttgaa gaaacatgaa attgcccagt attcttaacc caactgcaca gaacaaaaac 6780
ctgcaggaaa cgaagataaa tcatgtcgaa agctacatat aaggaacgtg ctgctactca 6840
tcctagtcct gttgctgcca agctatttaa tatcatgcac gaaaagcaaa caaacttgtg 6900
tgcttcattg gatgttcgta ccaccaagga attactggag ttagttgaag cattaggtcc 6960
caaaatttgt ttactaaaaa cacatgtgga tatcttgact gatttttcca tggagggcac 7020
agttaagccg ctaaaggcat tatccgccaa gtacaatttt ttactcttcg aagacagaaa 7080
atttgctgac attggtaata cagtcaaatt gcagtactct gcgggtgtat acagaatagc 7140
agaatgggca gacattacga atgcacacgg tgtggtgggc ccaggtattg ttagcggttt 7200
gaagcaggcg gcagaagaag taacaaagga acctagaggc cttttgatgt tagcagaatt 7260
gtcatgcaag ggctccctat ctactggaga atatactaag ggtactgttg acattgcgaa 7320
gagcgacaaa gattttgtta tcggctttat tgctcaaaga gacatgggtg gaagagatga 7380
aggttacgat tggttgatta tgacacccgg tgtgggttta gatgacaagg gagacgcatt 7440
gggtcaacag tatagaaccg tggatgatgt ggtctctaca ggatctgaca ttattattgt 7500
tggaagagga ctatttgcaa agggaaggga tgctaaggta gagggtgaac gttacagaaa 7560
agcaggctgg gaagcatatt tgagaagatg cggccagcaa aactaaaaaa ctgtattata 7620
agtaaatgca tgtatactaa actcacaaat tagagcttca atttaattat atcagttatt 7680
accctatgcg gtgtgaaata ccgcacagat gcgtaaggag aaaataccgc atcaggaaat 7740
tgtaaacgtt aatattttgt taaaattcgc gttaaatttt tgttaaatca gctcattttt 7800
taaccaatag gccgaaatcg gcaaaatccc ttataaatca aaagaataga ccgagatagg 7860
gttgagtgtt gttccagttt ggaacaagag tccactatta aagaacgtgg actccaacgt 7920
caaagggcga aaaaccgtct atcagggcga tggcccacta cgtgaaccat caccctaatc 7980
aagttttttg gggtcgaggt gccgtaaagc actaaatcgg aaccctaaag ggagcccccg 8040
atttagagct tgacggggaa agccggcgaa cgtggcgaga aaggaaggga agaaagcgaa 8100
aggagcgggc gctagggcgc tggcaagtgt agcggtcacg ctgcgcgtaa ccaccacacc 8160
cgccgcgctt aatgcgccgc tacagggcgc gtcgcgccat tcgccattca ggctgcgcaa 8220
ctgttgggaa gggcgatcgg tgcgggcctc ttcgctatta cgccagctgg cgaaaggggg 8280
atgtgctgca aggcgattaa gttgggtaac gccagggttt tcccagtcac gacg 8334
<210> 22
<211> 8273
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 22
ggcgcgccgt ttaaacgaac ctgtgcctga gcgccgacgt gtccaccgcg cgcgagcttc 60
tgacgctggc cgaccgggtc ggcccctcga tcgtcgtgct caagacgcac tacgacctga 120
tctcgggctg ggactacaac ccgcaaaccg gcaccggcgc gaagctggcc gccctggcga 180
ggaagcatgg cttcctcatc tttgaggacc gcaagtttgt cgacattggt aagacggtgc 240
agatgcagta cacggctggc actgcgcgca taatagagtg ggcgcacatc accaacgcca 300
acatcgacgc cggcaaggac atggtgcgcg ccatggccga ggcggccgcc aagtggaagg 360
aacgcatcaa ctacgaggtc aagacctccg tcacggtggg cacgcccgtc tcggaccagt 420
tcgacgatgc ggaagagcaa gcgcagtggc cgcagcacca gcagcaccag caccagcacc 480
agcaccagca acagcgagat gaaaaaggtg ggccccgcag gctcggcact cgggaggagc 540
agcaccaaca ggacaacgga gacggtgacg gccggaaagg gagcattgtc tcgatcacta 600
cggtgacgca gtcatttgag cccgctcact ccccacgcct gtccaagagc aacgagctgg 660
gcgacgacgc cgtcttcccc ggcatcgagg aggcccccgt cgaccgcggc ctgcttctgc 720
tcgcccagat gtcgtccaag ggctgcctca tgaccaagga gtacacccag gcctgcgtcg 780
aggccgcgcg cgagcataag gattttgtca tgggcttcgt ctcacaggag tcgctcaact 840
cggccccgga cgacactttc atccacatga cccccggatg caagcttccg ccgccaggcg 900
aggacgaaga gagcggccag atcgagggcg acggcctcgg ccagcagtac aactcgccca 960
gcaagttgat caacatttgc ggcaccgaca ttgtcatcgt agggcgtggc atcaccgccg 1020
ccggcgaccc gccctccgag gctgagaggt acaggagaaa agcctggaag gcctatctgg 1080
cgcgtctggc gtgatttggg gggaggggga gaggagatgg gggacgggag gggtcgcctt 1140
ggtcagtctt gtgcgtgtcc tgcagcggat tcgtcaccgg ggcagcaccc aaaagaggga 1200
gaaaaagggg aaaaaaaata aataaataaa aagggttaag ttgttgaaaa aagtgttgtg 1260
agctctctgg caaggcgcgc cttcgcacca cggaactcat ccgagctacg gagtccctcc 1320
gtacgctact cgagtacgtc cgtcctctgt aggcatctcg agccgtcgcc agcatttgag 1380
accaatggaa gggggtttcc tcccgtgcaa ctttggttga aaccttcaaa gcgtcccccg 1440
actggggcaa ccgtttgact tggatccaca cttcaggggt agagaggctc ctctcgacaa 1500
ccccctgtat ttctgtaacc ccccttgaac gccgtacatg gcaccacaac accaaacaag 1560
ccatgctgct tggaatcttc gctccgaaaa gagccccccc cgggccctcc aacttcatgc 1620
gctccctcct cagttaaata gcggccgctc tgctccatgg agtattgctc tcttcattag 1680
gctgttgtga tttgcttgct tgttttcctt tccttttccg cacacccatt ccctcttttc 1740
actgggtcga ggctctctcc accgataacc ttcgatccgc aggcgcgccc cccatgtttc 1800
ccaaagggtc ctgtttgttt gttttttctt cctcttcttt aagggctcgg gtgacagctg 1860
gagagccgag caagcagcac ataaaatggc ttgcgaattc aggatacatt gattatgtca 1920
tggacccaag gaaacaccct cttcctgcgc cgtccactgc accaacttct cctcaaacac 1980
gatcaaccac gtaggaacag cagacgaaaa cgtcacctgg ccgcgattga catacccaaa 2040
gtgagacgtg gaggagacgg gggttgcgtg cttcggccgg atgaggtttt cagaccgact 2100
acggtactgg atcttagcag cacaaagatc acctacccag agtaagtagt tggacaagcg 2160
ctttcactcg gaactcagag ccaacggaaa tcggatgagg catcaagatt tttcgagggg 2220
caactactcc gtcggacaac cgagtcctgt gtgcaagcgc cgcatttcgt cattgtagat 2280
gttggagaca tgtttgcagt ccgccctaag caggccattc cgtcggagaa gagggaaaga 2340
cccggccgag ggcgtgcccg ggttccaggc tacttgccac gagggtttca tatcagcaca 2400
tcttcggcac aaccacagcc attgagcccg attgccccga gaggggaaag ggcggctgaa 2460
ttgcaatttg acatccgtgc ttgttgttac ccttgtttag caaagccagt gggggtcatc 2520
aataccacct ccaaggcgcg catatcacgg caacacctgg cccgataaaa cagaagccaa 2580
acacgtgtgt attatgttgg tattagatgt tcgcttctcc caaccggagc tgatgcccgc 2640
gccagatccc gcgcccaaca gttcactcgt aatcgttgta tacatgaccg cctgtatcga 2700
agggtatgtg tcattagcaa ggtatataga aacgtgaacc gaaaatgctc atctcgccgg 2760
tttaaacgct gtttcctgtg tgaaattgtt atccgctcac aattccacac aacataggag 2820
ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt gaggtaactc acattaattg 2880
cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc gtgccagctg cattaatgaa 2940
tcggccaacg cgcggggaga ggcggtttgc gtattgggcg ctcttccgct tcctcgctca 3000
ctgactcgct gcgctcggtc gttcggctgc ggcgagcggt atcagctcac tcaaaggcgg 3060
taatacggtt atccacagaa tcaggggata acgcaggaaa gaacatgtga gcaaaaggcc 3120
agcaaaaggc caggaaccgt aaaaaggccg cgttgctggc gtttttccat aggctccgcc 3180
cccctgacga gcatcacaaa aatcgacgct caagtcagag gtggcgaaac ccgacaggac 3240
tataaagata ccaggcgttt ccccctggaa gctccctcgt gcgctctcct gttccgaccc 3300
tgccgcttac cggatacctg tccgcctttc tcccttcggg aagcgtggcg ctttctcata 3360
gctcacgctg taggtatctc agttcggtgt aggtcgttcg ctccaagctg ggctgtgtgc 3420
acgaaccccc cgttcagccc gaccgctgcg ccttatccgg taactatcgt cttgagtcca 3480
acccggtaag acacgactta tcgccactgg cagcagccac tggtaacagg attagcagag 3540
cgaggtatgt aggcggtgct acagagttct tgaagtggtg gcctaactac ggctacacta 3600
gaaggacagt atttggtatc tgcgctctgc tgaagccagt taccttcgga aaaagagttg 3660
gtagctcttg atccggcaaa caaaccaccg ctggtagcgg tggttttttt gtttgcaagc 3720
agcagattac gcgcagaaaa aaaggatctc aagaagatcc tttgatcttt tctacggggt 3780
ctgacgctca gtggaacgaa aactcacgtt aagggatttt ggtcatgaga ttatcaaaaa 3840
ggatcttcac ctagatcctt ttaaattaaa aatgaagttt taaatcaatc taaagtatat 3900
atgagtaaac ttggtctgac agttaccaat gcttaatcag tgaggcacct atctcagcga 3960
tctgtctatt tcgttcatcc atagttgcct gactccccgt cgtgtagata actacgatac 4020
gggagggctt accatctggc cccagtgctg caatgatacc gcgagaccca cgctcaccgg 4080
ctccagattt atcagcaata aaccagccag ccggaagggc cgagcgcaga agtggtcctg 4140
caactttatc cgcctccatc cagtctatta attgttgccg ggaagctaga gtaagtagtt 4200
cgccagttaa tagtttgcgc aacgttgttg ccattgctac aggcatcgtg gtgtcacgct 4260
cgtcgtttgg tatggcttca ttcagctccg gttcccaacg atcaaggcga gttacatgat 4320
cccccatgtt gtgcaaaaaa gcggttagct ccttcggtcc tccgatcgtt gtcagaagta 4380
agttggccgc agtgttatca ctcatggtta tggcagcact gcataattct cttactgtca 4440
tgccatccgt aagatgcttt tctgtgactg gtgagtactc aaccaagtca ttctgagaat 4500
agtgtatgcg gcgaccgagt tgctcttgcc cggcgtcaat acgggataat accgcgccac 4560
atagcagaac tttaaaagtg ctcatcattg gaaaacgttc ttcggggcga aaactctcaa 4620
ggatcttacc gctgttgaga tccagttcga tgtaacccac tcgtgcaccc aactgatctt 4680
cagcatcttt tactttcacc agcgtttctg ggtgagcaaa aacaggaagg caaaatgccg 4740
caaaaaaggg aataagggcg acacggaaat gttgaatact catactcttc ctttttcaat 4800
attattgaag catttatcag ggttattgtc tcatgagcgg atacatattt gaatgtattt 4860
agaaaaataa acaaataggg gttccgcgca catttccccg aaaagtgcca cctgaacgaa 4920
gcatctgtgc ttcattttgt agaacaaaaa tgcaacgcga gagcgctaat ttttcaaaca 4980
aagaatctga gctgcatttt tacagaacag aaatgcaacg cgaaagcgct attttaccaa 5040
cgaagaatct gtgcttcatt tttgtaaaac aaaaatgcaa cgcgagagcg ctaatttttc 5100
aaacaaagaa tctgagctgc atttttacag aacagaaatg caacgcgaga gcgctatttt 5160
accaacaaag aatctatact tcttttttgt tctacaaaaa tgcatcccga gagcgctatt 5220
tttctaacaa agcatcttag attacttttt ttctcctttg tgcgctctat aatgcagtct 5280
cttgataact ttttgcactg taggtccgtt aaggttagaa gaaggctact ttggtgtcta 5340
ttttctcttc cataaaaaaa gcctgactcc acttcccgcg tttactgatt actagcgaag 5400
ctgcgggtgc attttttcaa gataaaggca tccccgatta tattctatac cgatgtggat 5460
tgcgcatact ttgtgaacag aaagtgatag cgttgatgat tcttcattgg tcagaaaatt 5520
atgaacggtt tcttctattt tgtctctata tactacgtat aggaaatgtt tacattttcg 5580
tattgttttc gattcactct atgaatagtt cttactacaa tttttttgtc taaagagtaa 5640
tactagagat aaacataaaa aatgtagagg tcgagtttag atgcaagttc aaggagcgaa 5700
aggtggatgg gtaggttata tagggatata gcacagagat atatagcaaa gagatacttt 5760
tgagcaatgt ttgtggaagc ggtattcgca atattttagt agctcgttac agtccggtgc 5820
gtttttggtt ttttgaaagt gcgtcttcag agcgcttttg gttttcaaaa gcgctctgaa 5880
gttcctatac tttctagaga ataggaactt cggaatagga acttcaaagc gtttccgaaa 5940
acgagcgctt ccgaaaatgc aacgcgagct gcgcacatac agctcactgt tcacgtcgca 6000
cctatatctg cgtgttgcct gtatatatat atacatgaga agaacggcat agtgcgtgtt 6060
tatgcttaaa tgcgtactta tatgcgtcta tttatgtagg atgaaaggta gtctagtacc 6120
tcctgtgata ttatcccatt ccatgcgggg tatcgtatgc ttccttcagc actacccttt 6180
agctgttcta tatgctgcca ctcctcaatt ggattagtct catccttcaa tgctatcatt 6240
tcctttgata ttggatcata ctaagaaacc attattatca tgacattaac ctataaaaat 6300
aggcgtatca cgaggccctt tcgtctcgcg cgtttcggtg atgacggtga aaacctctga 6360
cacatgcagc tcccggagac ggtcacagct tgtctgtaag cggatgccgg gagcagacaa 6420
gcccgtcagg gcgcgtcagc gggtgttggc gggtgtcggg gctggcttaa ctatgcggca 6480
tcagagcaga ttgtactgag agtgcaccat accacagctt ttcaattcaa ttcatcattt 6540
tttttttatt cttttttttg atttcggttt ctttgaaatt tttttgattc ggtaatctcc 6600
gaacagaagg aagaacgaag gaaggagcac agacttagat tggtatatat acgcatatgt 6660
agtgttgaag aaacatgaaa ttgcccagta ttcttaaccc aactgcacag aacaaaaacc 6720
tgcaggaaac gaagataaat catgtcgaaa gctacatata aggaacgtgc tgctactcat 6780
cctagtcctg ttgctgccaa gctatttaat atcatgcacg aaaagcaaac aaacttgtgt 6840
gcttcattgg atgttcgtac caccaaggaa ttactggagt tagttgaagc attaggtccc 6900
aaaatttgtt tactaaaaac acatgtggat atcttgactg atttttccat ggagggcaca 6960
gttaagccgc taaaggcatt atccgccaag tacaattttt tactcttcga agacagaaaa 7020
tttgctgaca ttggtaatac agtcaaattg cagtactctg cgggtgtata cagaatagca 7080
gaatgggcag acattacgaa tgcacacggt gtggtgggcc caggtattgt tagcggtttg 7140
aagcaggcgg cagaagaagt aacaaaggaa cctagaggcc ttttgatgtt agcagaattg 7200
tcatgcaagg gctccctatc tactggagaa tatactaagg gtactgttga cattgcgaag 7260
agcgacaaag attttgttat cggctttatt gctcaaagag acatgggtgg aagagatgaa 7320
ggttacgatt ggttgattat gacacccggt gtgggtttag atgacaaggg agacgcattg 7380
ggtcaacagt atagaaccgt ggatgatgtg gtctctacag gatctgacat tattattgtt 7440
ggaagaggac tatttgcaaa gggaagggat gctaaggtag agggtgaacg ttacagaaaa 7500
gcaggctggg aagcatattt gagaagatgc ggccagcaaa actaaaaaac tgtattataa 7560
gtaaatgcat gtatactaaa ctcacaaatt agagcttcaa tttaattata tcagttatta 7620
ccctatgcgg tgtgaaatac cgcacagatg cgtaaggaga aaataccgca tcaggaaatt 7680
gtaaacgtta atattttgtt aaaattcgcg ttaaattttt gttaaatcag ctcatttttt 7740
aaccaatagg ccgaaatcgg caaaatccct tataaatcaa aagaatagac cgagataggg 7800
ttgagtgttg ttccagtttg gaacaagagt ccactattaa agaacgtgga ctccaacgtc 7860
aaagggcgaa aaaccgtcta tcagggcgat ggcccactac gtgaaccatc accctaatca 7920
agttttttgg ggtcgaggtg ccgtaaagca ctaaatcgga accctaaagg gagcccccga 7980
tttagagctt gacggggaaa gccggcgaac gtggcgagaa aggaagggaa gaaagcgaaa 8040
ggagcgggcg ctagggcgct ggcaagtgta gcggtcacgc tgcgcgtaac caccacaccc 8100
gccgcgctta atgcgccgct acagggcgcg tcgcgccatt cgccattcag gctgcgcaac 8160
tgttgggaag ggcgatcggt gcgggcctct tcgctattac gccagctggc gaaaggggga 8220
tgtgctgcaa ggcgattaag ttgggtaacg ccagggtttt cccagtcacg acg 8273
<210> 23
<211> 8375
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 23
gtttaaacgt ttaaacggtg gacacaaaca gttgccaatt agatctcctg aacttaataa 60
agcgccattc tgttgaaaga cgagatcgcc gagcgtacca agtcttgttc gggctctgaa 120
caaaactgga accaccactc caaaacggta gttgatgcga atacctatat cctccagatc 180
gagtctgcag tgcagcgtgg atatgggtat cggcacttgc gtgcacagta gtgtagctcc 240
gtagtacgga gtgctgcagg atatcaactt ctaagccaca gccgttccga gcggaacatt 300
tcttcattgg ctccctcgcg catggggcag gtcgtgcagt gttcgtggct atttgcggat 360
catacagaca ccttttgggg tccgcttcgg gaaactgccg cccccctaca ctacggagta 420
gtgcgacgcc gcattcccgt tcggcgcttg gcagccaatt ctaccactcg gggccgtctg 480
caaggccacc tctgcatttt caagtcgaat agtcaatagt cacaaaaact ggtcaaactg 540
gccaaactgg tcaacccggt tgccaccttt tggaaagagc accgcttctt tttcgttcct 600
cggcctgagc cgtcgaatgc gaacgtcaaa aggcgaacta gaaattctga aacatagtac 660
ggattactcc gtacccggtt gttttgcacc gggattttgc ttcaatcgcc accgagttcc 720
acccactttc gccaaggtac ggattacagt aatccgtaca tacctacgga cgtactccgt 780
cgtgtatcta ggtgttcccc cttggcacgc tttccacctg cgacaacgcg gcctcagatc 840
ccgacctcga accccccccc cccccccccc aaacaacaac ccagctcttc ggctgtgcgc 900
ccgccaactc gacaaacaac aacatccaac aagtgcgaat ttgaattcga ctcgacagcc 960
catcgattcg tctctcttca tgcgcatcaa tccgatccgg aaccgccgac tttaacaaca 1020
cccgtgccgg gctcgaccac ggggctcccg tagtccgcca aatacaggcg cgccgttggc 1080
ggtaacagca ggtgccgttc gctgctgctc ggtccttttc ccgaaagtac cctgccttcc 1140
tggcctcgac ctccgcctgc ggggctctgg gcactgtcaa actttcgcag ttttgcaccc 1200
gcagcgattc gagcgggacc cgcttcgcca acgcggatca ggagaggtaa aagtctcccc 1260
tgtcctttct gccggagcat cctccgtccg tcgttcgctg gttgttgtgt gtgtgtgtgt 1320
gtacagtact gtaggtacat agtgctcacc ccagggcatt tccccaatcc gcgattgcgc 1380
ataccatagg cgtcatctga atctgcgtta cgtccggata acactacgca gtacgaagga 1440
gtcggtgcta ctacgcccgc aagttcaagt ctacggtgtg gctaaggtgc tcaagggcat 1500
agttacacgc accccgggcg agcttctcgc acctcgaccc tttgccgggg cgtcactggt 1560
ccgacaactc ataatccacc atcgcttggg caggcctgca tcccccgtgg gtcgcatcca 1620
agccgccggt aaataccggc cgacacacac acacacacac gcaccctgtc tagcgcgacg 1680
ctacaaaaga gaccggcagg cactccccgc gaccgcttgt tctggccatc ccgtctctcg 1740
cctctgcagt tatcgcctgc ctcatctctg cgtcctgata acttttgtca cctctgatcc 1800
ccccccgacg agacggtctc gccgaccagg acccgagatg gcggaccgcc atcctactct 1860
gtcccagtcc ttcgccgagc gggcgaagac ggctagccac ccgctcaccc gctacctctt 1920
tcggctcatg gacctcaagg cctcgaacct gtgcctgagc gccgacgtgt ccaccgcgcg 1980
cgagcttctg acgctggccg accgggtcgg cccctcgatc gtcgtgctca agacgcacta 2040
cgacctgatc tcgggctggg actacaaccc gcaaaccggc accggcgcga agctggccgc 2100
cctggcgagg aagcatggct tcctcatctt tgaggaccgc aagtttgtcg acattggtaa 2160
gacggtgcag atgcagtaca cggctggcac tgcgcgcata atagagtggg cgcacatcac 2220
caacgccaac atcgacgccg gcaaggacat ggtgcgcgcc atggccgagg cggccgccaa 2280
gtggaaggaa cgcatcaact acgaggtcaa gacctccgtc acggtgggca cgcccgtctc 2340
ggaccagttc gacgatgcgg aagagcaagc gcagtggccg cagcaccagc agcaccagca 2400
ccagcaccag caccagcaac agcgagatga aaaaggtggg ccccgcaggc tcggcactcg 2460
ggaggagcag caccaacagg acaacggaga cggtgacggc cggaaaggga gcattgtctc 2520
gatcactacg gtgacgcagt catttgagcc cgctcactcc ccacgcctgt ccaagagcaa 2580
cgagctgggc gacgacgccg tcttccccgg catcgaggag gcccccgtcg accgcggcct 2640
gcttctgctc gcccagatgt cgtccaaggg ctgcctcatg accaaggagt acacccaggc 2700
ctgcgtcgag gccgcgcgcg agcataagga ttttgtcatg ggcttcgtct cacaggagtc 2760
gctcaactcg gccccggacg acactttcat ccacatgacc cccggatgca agcttccgcc 2820
gccaggcgag gacgaagaga gcggccagat cgagtttaaa cggcgcgccg ctgtttcctg 2880
tgtgaaattg ttatccgctc acaattccac acaacatagg agccggaagc ataaagtgta 2940
aagcctgggg tgcctaatga gtgaggtaac tcacattaat tgcgttgcgc tcactgcccg 3000
ctttccagtc gggaaacctg tcgtgccagc tgcattaatg aatcggccaa cgcgcgggga 3060
gaggcggttt gcgtattggg cgctcttccg cttcctcgct cactgactcg ctgcgctcgg 3120
tcgttcggct gcggcgagcg gtatcagctc actcaaaggc ggtaatacgg ttatccacag 3180
aatcagggga taacgcagga aagaacatgt gagcaaaagg ccagcaaaag gccaggaacc 3240
gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg cccccctgac gagcatcaca 3300
aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg actataaaga taccaggcgt 3360
ttccccctgg aagctccctc gtgcgctctc ctgttccgac cctgccgctt accggatacc 3420
tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca tagctcacgc tgtaggtatc 3480
tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt gcacgaaccc cccgttcagc 3540
ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc caacccggta agacacgact 3600
tatcgccact ggcagcagcc actggtaaca ggattagcag agcgaggtat gtaggcggtg 3660
ctacagagtt cttgaagtgg tggcctaact acggctacac tagaaggaca gtatttggta 3720
tctgcgctct gctgaagcca gttaccttcg gaaaaagagt tggtagctct tgatccggca 3780
aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa gcagcagatt acgcgcagaa 3840
aaaaaggatc tcaagaagat cctttgatct tttctacggg gtctgacgct cagtggaacg 3900
aaaactcacg ttaagggatt ttggtcatga gattatcaaa aaggatcttc acctagatcc 3960
ttttaaatta aaaatgaagt tttaaatcaa tctaaagtat atatgagtaa acttggtctg 4020
acagttacca atgcttaatc agtgaggcac ctatctcagc gatctgtcta tttcgttcat 4080
ccatagttgc ctgactcccc gtcgtgtaga taactacgat acgggagggc ttaccatctg 4140
gccccagtgc tgcaatgata ccgcgagacc cacgctcacc ggctccagat ttatcagcaa 4200
taaaccagcc agccggaagg gccgagcgca gaagtggtcc tgcaacttta tccgcctcca 4260
tccagtctat taattgttgc cgggaagcta gagtaagtag ttcgccagtt aatagtttgc 4320
gcaacgttgt tgccattgct acaggcatcg tggtgtcacg ctcgtcgttt ggtatggctt 4380
cattcagctc cggttcccaa cgatcaaggc gagttacatg atcccccatg ttgtgcaaaa 4440
aagcggttag ctccttcggt cctccgatcg ttgtcagaag taagttggcc gcagtgttat 4500
cactcatggt tatggcagca ctgcataatt ctcttactgt catgccatcc gtaagatgct 4560
tttctgtgac tggtgagtac tcaaccaagt cattctgaga atagtgtatg cggcgaccga 4620
gttgctcttg cccggcgtca atacgggata ataccgcgcc acatagcaga actttaaaag 4680
tgctcatcat tggaaaacgt tcttcggggc gaaaactctc aaggatctta ccgctgttga 4740
gatccagttc gatgtaaccc actcgtgcac ccaactgatc ttcagcatct tttactttca 4800
ccagcgtttc tgggtgagca aaaacaggaa ggcaaaatgc cgcaaaaaag ggaataaggg 4860
cgacacggaa atgttgaata ctcatactct tcctttttca atattattga agcatttatc 4920
agggttattg tctcatgagc ggatacatat ttgaatgtat ttagaaaaat aaacaaatag 4980
gggttccgcg cacatttccc cgaaaagtgc cacctgaacg aagcatctgt gcttcatttt 5040
gtagaacaaa aatgcaacgc gagagcgcta atttttcaaa caaagaatct gagctgcatt 5100
tttacagaac agaaatgcaa cgcgaaagcg ctattttacc aacgaagaat ctgtgcttca 5160
tttttgtaaa acaaaaatgc aacgcgagag cgctaatttt tcaaacaaag aatctgagct 5220
gcatttttac agaacagaaa tgcaacgcga gagcgctatt ttaccaacaa agaatctata 5280
cttctttttt gttctacaaa aatgcatccc gagagcgcta tttttctaac aaagcatctt 5340
agattacttt ttttctcctt tgtgcgctct ataatgcagt ctcttgataa ctttttgcac 5400
tgtaggtccg ttaaggttag aagaaggcta ctttggtgtc tattttctct tccataaaaa 5460
aagcctgact ccacttcccg cgtttactga ttactagcga agctgcgggt gcattttttc 5520
aagataaagg catccccgat tatattctat accgatgtgg attgcgcata ctttgtgaac 5580
agaaagtgat agcgttgatg attcttcatt ggtcagaaaa ttatgaacgg tttcttctat 5640
tttgtctcta tatactacgt ataggaaatg tttacatttt cgtattgttt tcgattcact 5700
ctatgaatag ttcttactac aatttttttg tctaaagagt aatactagag ataaacataa 5760
aaaatgtaga ggtcgagttt agatgcaagt tcaaggagcg aaaggtggat gggtaggtta 5820
tatagggata tagcacagag atatatagca aagagatact tttgagcaat gtttgtggaa 5880
gcggtattcg caatatttta gtagctcgtt acagtccggt gcgtttttgg ttttttgaaa 5940
gtgcgtcttc agagcgcttt tggttttcaa aagcgctctg aagttcctat actttctaga 6000
gaataggaac ttcggaatag gaacttcaaa gcgtttccga aaacgagcgc ttccgaaaat 6060
gcaacgcgag ctgcgcacat acagctcact gttcacgtcg cacctatatc tgcgtgttgc 6120
ctgtatatat atatacatga gaagaacggc atagtgcgtg tttatgctta aatgcgtact 6180
tatatgcgtc tatttatgta ggatgaaagg tagtctagta cctcctgtga tattatccca 6240
ttccatgcgg ggtatcgtat gcttccttca gcactaccct ttagctgttc tatatgctgc 6300
cactcctcaa ttggattagt ctcatccttc aatgctatca tttcctttga tattggatca 6360
tactaagaaa ccattattat catgacatta acctataaaa ataggcgtat cacgaggccc 6420
tttcgtctcg cgcgtttcgg tgatgacggt gaaaacctct gacacatgca gctcccggag 6480
acggtcacag cttgtctgta agcggatgcc gggagcagac aagcccgtca gggcgcgtca 6540
gcgggtgttg gcgggtgtcg gggctggctt aactatgcgg catcagagca gattgtactg 6600
agagtgcacc ataccacagc ttttcaattc aattcatcat ttttttttta ttcttttttt 6660
tgatttcggt ttctttgaaa tttttttgat tcggtaatct ccgaacagaa ggaagaacga 6720
aggaaggagc acagacttag attggtatat atacgcatat gtagtgttga agaaacatga 6780
aattgcccag tattcttaac ccaactgcac agaacaaaaa cctgcaggaa acgaagataa 6840
atcatgtcga aagctacata taaggaacgt gctgctactc atcctagtcc tgttgctgcc 6900
aagctattta atatcatgca cgaaaagcaa acaaacttgt gtgcttcatt ggatgttcgt 6960
accaccaagg aattactgga gttagttgaa gcattaggtc ccaaaatttg tttactaaaa 7020
acacatgtgg atatcttgac tgatttttcc atggagggca cagttaagcc gctaaaggca 7080
ttatccgcca agtacaattt tttactcttc gaagacagaa aatttgctga cattggtaat 7140
acagtcaaat tgcagtactc tgcgggtgta tacagaatag cagaatgggc agacattacg 7200
aatgcacacg gtgtggtggg cccaggtatt gttagcggtt tgaagcaggc ggcagaagaa 7260
gtaacaaagg aacctagagg ccttttgatg ttagcagaat tgtcatgcaa gggctcccta 7320
tctactggag aatatactaa gggtactgtt gacattgcga agagcgacaa agattttgtt 7380
atcggcttta ttgctcaaag agacatgggt ggaagagatg aaggttacga ttggttgatt 7440
atgacacccg gtgtgggttt agatgacaag ggagacgcat tgggtcaaca gtatagaacc 7500
gtggatgatg tggtctctac aggatctgac attattattg ttggaagagg actatttgca 7560
aagggaaggg atgctaaggt agagggtgaa cgttacagaa aagcaggctg ggaagcatat 7620
ttgagaagat gcggccagca aaactaaaaa actgtattat aagtaaatgc atgtatacta 7680
aactcacaaa ttagagcttc aatttaatta tatcagttat taccctatgc ggtgtgaaat 7740
accgcacaga tgcgtaagga gaaaataccg catcaggaaa ttgtaaacgt taatattttg 7800
ttaaaattcg cgttaaattt ttgttaaatc agctcatttt ttaaccaata ggccgaaatc 7860
ggcaaaatcc cttataaatc aaaagaatag accgagatag ggttgagtgt tgttccagtt 7920
tggaacaaga gtccactatt aaagaacgtg gactccaacg tcaaagggcg aaaaaccgtc 7980
tatcagggcg atggcccact acgtgaacca tcaccctaat caagtttttt ggggtcgagg 8040
tgccgtaaag cactaaatcg gaaccctaaa gggagccccc gatttagagc ttgacgggga 8100
aagccggcga acgtggcgag aaaggaaggg aagaaagcga aaggagcggg cgctagggcg 8160
ctggcaagtg tagcggtcac gctgcgcgta accaccacac ccgccgcgct taatgcgccg 8220
ctacagggcg cgtcgcgcca ttcgccattc aggctgcgca actgttggga agggcgatcg 8280
gtgcgggcct cttcgctatt acgccagctg gcgaaagggg gatgtgctgc aaggcgatta 8340
agttgggtaa cgccagggtt ttcccagtca cgacg 8375
<210> 24
<211> 8196
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 24
ggcgcgccgt ttaaacgaac ctgtgcctga gcgccgacgt gtccaccgcg cgcgagcttc 60
tgacgctggc cgaccgggtc ggcccctcga tcgtcgtgct caagacgcac tacgacctga 120
tctcgggctg ggactacaac ccgcaaaccg gcaccggcgc gaagctggcc gccctggcga 180
ggaagcatgg cttcctcatc tttgaggacc gcaagtttgt cgacattggt aagacggtgc 240
agatgcagta cacggctggc actgcgcgca taatagagtg ggcgcacatc accaacgcca 300
acatcgacgc cggcaaggac atggtgcgcg ccatggccga ggcggccgcc aagtggaagg 360
aacgcatcaa ctacgaggtc aagacctccg tcacggtggg cacgcccgtc tcggaccagt 420
tcgacgatgc ggaagagcaa gcgcagtggc cgcagcacca gcagcaccag caccagcacc 480
agcaccagca acagcgagat gaaaaaggtg ggccccgcag gctcggcact cgggaggagc 540
agcaccaaca ggacaacgga gacggtgacg gccggaaagg gagcattgtc tcgatcacta 600
cggtgacgca gtcatttgag cccgctcact ccccacgcct gtccaagagc aacgagctgg 660
gcgacgacgc cgtcttcccc ggcatcgagg aggcccccgt cgaccgcggc ctgcttctgc 720
tcgcccagat gtcgtccaag ggctgcctca tgaccaagga gtacacccag gcctgcgtcg 780
aggccgcgcg cgagcataag gattttgtca tgggcttcgt ctcacaggag tcgctcaact 840
cggccccgga cgacactttc atccacatga cccccggatg caagcttccg ccgccaggcg 900
aggacgaaga gagcggccag atcgagggcg acggcctcgg ccagcagtac aactcgccca 960
gcaagttgat caacatttgc ggcaccgaca ttgtcatcgt agggcgtggc atcaccgccg 1020
ccggcgaccc gccctccgag gctgagaggt acaggagaaa agcctggaag gcctatctgg 1080
cgcgtctggc gtgatttggg gggaggggga gaggagatgg gggacgggag gggtcgcctt 1140
ggtcagtctt gtgcgtgtcc tgcagcggat tcgtcaccgg ggcagcaccc aaaagaggga 1200
gaaaaagggg aaaaaaaata aataaataaa aagggttaag ttgttgaaaa aagtgttgtg 1260
agctctctgg caaggcgcgc cccttttgga aagagcaccg cttctttttc gttcctcggc 1320
ctgagccgtc gaatgcgaac gtcaaaaggc gaactagaaa ttctgaaaca tagtacggat 1380
tactccgtac ccggttgttt tgcaccggga ttttgcttca atcgccaccg agttccaccc 1440
actttcgcca aggtacggat tacagtaatc cgtacatacc tacggacgta ctccgtcgtg 1500
tatctaggtg ttcccccttg gcacgctttc cacctgcgac aacgcggcct cagatcccga 1560
cctcgaaccc cccccccccc ccccccaaac aacaacccag ctcttcggct gtgcgcccgc 1620
caactcgaca aacaacaaca tccaacaagt gcgaatttga attcgactcg acagcccatc 1680
gattcgtctc tcttcatgcg catcaatccg atccggaacc gccgacttta acaacacccg 1740
tgccgggctc gaccacgggg ctcccgtagt ccgccaaata catcgggtct gggatgtctt 1800
ttttttattt tattttttta tttttgtcgc ggtgtgagtg tgtttgtcgg gtccggttcg 1860
gcagttcatg atcattcctc tataaataag gtatggatcg tatatattat atattacata 1920
cagttgaagc cttagcacag tatgaatctc catataaatc tcttttttct tttcttttct 1980
tctttttttt ttttttttgc accccaccca cgtgctttcc ttatattcat catgcccttc 2040
atggctaggt gagttgatac caggactacg agatgtatat atatctcttg aacgattctc 2100
ctagagtttg tttagacgtg cactgtcctc tgataataat aaatcagctg ctgcattcat 2160
ccacgtgcga aaccagcttt gttaggttcg aatgtagacc gttttggtat ttcaaacggc 2220
agccattgcc tccgccttta gaatctgtcc aagctattgt tcagcaacta atgtcaaaaa 2280
aaaaaaaaaa aaaacgccta agcccccaac gtccggatag ataagaatac agcagggtga 2340
cgggttgggg ggacggggag gttgtcttcc gctgagcatg ccaccacatc acatgaatgc 2400
tttttcttcg ctgcctggac ctgaaccacc cccggagggg ctttcctccc cccgcttgac 2460
tactgcgctg acctccagac ctcggacgga tcctcaatgg cggctaacca ggggtaagtt 2520
cccatcaggc taccaccacc accagaaggg ccggaactcg cgctccccgc gtccgaaact 2580
tcgccgtctc tctcggtctc ggcctcggtc tcggtctcgg cagaagcacc gtggccgccc 2640
ccaatcacca tccacccgtc cctcgtctcg cgaggatcgg ccgtttaaac gctgtttcct 2700
gtgtgaaatt gttatccgct cacaattcca cacaacatag gagccggaag cataaagtgt 2760
aaagcctggg gtgcctaatg agtgaggtaa ctcacattaa ttgcgttgcg ctcactgccc 2820
gctttccagt cgggaaacct gtcgtgccag ctgcattaat gaatcggcca acgcgcgggg 2880
agaggcggtt tgcgtattgg gcgctcttcc gcttcctcgc tcactgactc gctgcgctcg 2940
gtcgttcggc tgcggcgagc ggtatcagct cactcaaagg cggtaatacg gttatccaca 3000
gaatcagggg ataacgcagg aaagaacatg tgagcaaaag gccagcaaaa ggccaggaac 3060
cgtaaaaagg ccgcgttgct ggcgtttttc cataggctcc gcccccctga cgagcatcac 3120
aaaaatcgac gctcaagtca gaggtggcga aacccgacag gactataaag ataccaggcg 3180
tttccccctg gaagctccct cgtgcgctct cctgttccga ccctgccgct taccggatac 3240
ctgtccgcct ttctcccttc gggaagcgtg gcgctttctc atagctcacg ctgtaggtat 3300
ctcagttcgg tgtaggtcgt tcgctccaag ctgggctgtg tgcacgaacc ccccgttcag 3360
cccgaccgct gcgccttatc cggtaactat cgtcttgagt ccaacccggt aagacacgac 3420
ttatcgccac tggcagcagc cactggtaac aggattagca gagcgaggta tgtaggcggt 3480
gctacagagt tcttgaagtg gtggcctaac tacggctaca ctagaaggac agtatttggt 3540
atctgcgctc tgctgaagcc agttaccttc ggaaaaagag ttggtagctc ttgatccggc 3600
aaacaaacca ccgctggtag cggtggtttt tttgtttgca agcagcagat tacgcgcaga 3660
aaaaaaggat ctcaagaaga tcctttgatc ttttctacgg ggtctgacgc tcagtggaac 3720
gaaaactcac gttaagggat tttggtcatg agattatcaa aaaggatctt cacctagatc 3780
cttttaaatt aaaaatgaag ttttaaatca atctaaagta tatatgagta aacttggtct 3840
gacagttacc aatgcttaat cagtgaggca cctatctcag cgatctgtct atttcgttca 3900
tccatagttg cctgactccc cgtcgtgtag ataactacga tacgggaggg cttaccatct 3960
ggccccagtg ctgcaatgat accgcgagac ccacgctcac cggctccaga tttatcagca 4020
ataaaccagc cagccggaag ggccgagcgc agaagtggtc ctgcaacttt atccgcctcc 4080
atccagtcta ttaattgttg ccgggaagct agagtaagta gttcgccagt taatagtttg 4140
cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac gctcgtcgtt tggtatggct 4200
tcattcagct ccggttccca acgatcaagg cgagttacat gatcccccat gttgtgcaaa 4260
aaagcggtta gctccttcgg tcctccgatc gttgtcagaa gtaagttggc cgcagtgtta 4320
tcactcatgg ttatggcagc actgcataat tctcttactg tcatgccatc cgtaagatgc 4380
ttttctgtga ctggtgagta ctcaaccaag tcattctgag aatagtgtat gcggcgaccg 4440
agttgctctt gcccggcgtc aatacgggat aataccgcgc cacatagcag aactttaaaa 4500
gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct caaggatctt accgctgttg 4560
agatccagtt cgatgtaacc cactcgtgca cccaactgat cttcagcatc ttttactttc 4620
accagcgttt ctgggtgagc aaaaacagga aggcaaaatg ccgcaaaaaa gggaataagg 4680
gcgacacgga aatgttgaat actcatactc ttcctttttc aatattattg aagcatttat 4740
cagggttatt gtctcatgag cggatacata tttgaatgta tttagaaaaa taaacaaata 4800
ggggttccgc gcacatttcc ccgaaaagtg ccacctgaac gaagcatctg tgcttcattt 4860
tgtagaacaa aaatgcaacg cgagagcgct aatttttcaa acaaagaatc tgagctgcat 4920
ttttacagaa cagaaatgca acgcgaaagc gctattttac caacgaagaa tctgtgcttc 4980
atttttgtaa aacaaaaatg caacgcgaga gcgctaattt ttcaaacaaa gaatctgagc 5040
tgcattttta cagaacagaa atgcaacgcg agagcgctat tttaccaaca aagaatctat 5100
acttcttttt tgttctacaa aaatgcatcc cgagagcgct atttttctaa caaagcatct 5160
tagattactt tttttctcct ttgtgcgctc tataatgcag tctcttgata actttttgca 5220
ctgtaggtcc gttaaggtta gaagaaggct actttggtgt ctattttctc ttccataaaa 5280
aaagcctgac tccacttccc gcgtttactg attactagcg aagctgcggg tgcatttttt 5340
caagataaag gcatccccga ttatattcta taccgatgtg gattgcgcat actttgtgaa 5400
cagaaagtga tagcgttgat gattcttcat tggtcagaaa attatgaacg gtttcttcta 5460
ttttgtctct atatactacg tataggaaat gtttacattt tcgtattgtt ttcgattcac 5520
tctatgaata gttcttacta caattttttt gtctaaagag taatactaga gataaacata 5580
aaaaatgtag aggtcgagtt tagatgcaag ttcaaggagc gaaaggtgga tgggtaggtt 5640
atatagggat atagcacaga gatatatagc aaagagatac ttttgagcaa tgtttgtgga 5700
agcggtattc gcaatatttt agtagctcgt tacagtccgg tgcgtttttg gttttttgaa 5760
agtgcgtctt cagagcgctt ttggttttca aaagcgctct gaagttccta tactttctag 5820
agaataggaa cttcggaata ggaacttcaa agcgtttccg aaaacgagcg cttccgaaaa 5880
tgcaacgcga gctgcgcaca tacagctcac tgttcacgtc gcacctatat ctgcgtgttg 5940
cctgtatata tatatacatg agaagaacgg catagtgcgt gtttatgctt aaatgcgtac 6000
ttatatgcgt ctatttatgt aggatgaaag gtagtctagt acctcctgtg atattatccc 6060
attccatgcg gggtatcgta tgcttccttc agcactaccc tttagctgtt ctatatgctg 6120
ccactcctca attggattag tctcatcctt caatgctatc atttcctttg atattggatc 6180
atactaagaa accattatta tcatgacatt aacctataaa aataggcgta tcacgaggcc 6240
ctttcgtctc gcgcgtttcg gtgatgacgg tgaaaacctc tgacacatgc agctcccgga 6300
gacggtcaca gcttgtctgt aagcggatgc cgggagcaga caagcccgtc agggcgcgtc 6360
agcgggtgtt ggcgggtgtc ggggctggct taactatgcg gcatcagagc agattgtact 6420
gagagtgcac cataccacag cttttcaatt caattcatca tttttttttt attctttttt 6480
ttgatttcgg tttctttgaa atttttttga ttcggtaatc tccgaacaga aggaagaacg 6540
aaggaaggag cacagactta gattggtata tatacgcata tgtagtgttg aagaaacatg 6600
aaattgccca gtattcttaa cccaactgca cagaacaaaa acctgcagga aacgaagata 6660
aatcatgtcg aaagctacat ataaggaacg tgctgctact catcctagtc ctgttgctgc 6720
caagctattt aatatcatgc acgaaaagca aacaaacttg tgtgcttcat tggatgttcg 6780
taccaccaag gaattactgg agttagttga agcattaggt cccaaaattt gtttactaaa 6840
aacacatgtg gatatcttga ctgatttttc catggagggc acagttaagc cgctaaaggc 6900
attatccgcc aagtacaatt ttttactctt cgaagacaga aaatttgctg acattggtaa 6960
tacagtcaaa ttgcagtact ctgcgggtgt atacagaata gcagaatggg cagacattac 7020
gaatgcacac ggtgtggtgg gcccaggtat tgttagcggt ttgaagcagg cggcagaaga 7080
agtaacaaag gaacctagag gccttttgat gttagcagaa ttgtcatgca agggctccct 7140
atctactgga gaatatacta agggtactgt tgacattgcg aagagcgaca aagattttgt 7200
tatcggcttt attgctcaaa gagacatggg tggaagagat gaaggttacg attggttgat 7260
tatgacaccc ggtgtgggtt tagatgacaa gggagacgca ttgggtcaac agtatagaac 7320
cgtggatgat gtggtctcta caggatctga cattattatt gttggaagag gactatttgc 7380
aaagggaagg gatgctaagg tagagggtga acgttacaga aaagcaggct gggaagcata 7440
tttgagaaga tgcggccagc aaaactaaaa aactgtatta taagtaaatg catgtatact 7500
aaactcacaa attagagctt caatttaatt atatcagtta ttaccctatg cggtgtgaaa 7560
taccgcacag atgcgtaagg agaaaatacc gcatcaggaa attgtaaacg ttaatatttt 7620
gttaaaattc gcgttaaatt tttgttaaat cagctcattt tttaaccaat aggccgaaat 7680
cggcaaaatc ccttataaat caaaagaata gaccgagata gggttgagtg ttgttccagt 7740
ttggaacaag agtccactat taaagaacgt ggactccaac gtcaaagggc gaaaaaccgt 7800
ctatcagggc gatggcccac tacgtgaacc atcaccctaa tcaagttttt tggggtcgag 7860
gtgccgtaaa gcactaaatc ggaaccctaa agggagcccc cgatttagag cttgacgggg 7920
aaagccggcg aacgtggcga gaaaggaagg gaagaaagcg aaaggagcgg gcgctagggc 7980
gctggcaagt gtagcggtca cgctgcgcgt aaccaccaca cccgccgcgc ttaatgcgcc 8040
gctacagggc gcgtcgcgcc attcgccatt caggctgcgc aactgttggg aagggcgatc 8100
ggtgcgggcc tcttcgctat tacgccagct ggcgaaaggg ggatgtgctg caaggcgatt 8160
aagttgggta acgccagggt tttcccagtc acgacg 8196
<210> 25
<211> 20
<212> DNA
<213> primer
<400> 25
cctgcattgc aagttcccac 20
<210> 26
<211> 20
<212> DNA
<213> Primer
<400> 26
agtttgacag tgcccagagc 20
<210> 27
<211> 20
<212> DNA
<213> Primer
<400> 27
agcctggaag gcctatctgg 20
<210> 28
<211> 20
<212> DNA
<213> Primer
<400> 28
ggtcggattg gcttggtaca 20
<210> 29
<211> 20
<212> DNA
<213> Primer
<400> 29
accaccgtca acacgtacaa 20
<210> 30
<211> 20
<212> DNA
<213> Primer
<400> 30
caaaggtctt gccaccgatg 20
<210> 31
<211> 20
<212> DNA
<213> Primer
<400> 31
ttcgttgcta acactccccc 20
<210> 32
<211> 20
<212> DNA
<213> Primer
<400> 32
ctggttgatg gccgagttga 20
<210> 33
<211> 20
<212> DNA
<213> Primer
<400> 33
ggcagattat tccggaccgt 20
<210> 34
<211> 20
<212> DNA
<213> Primer
<400> 34
agtttgacag tgcccagagc 20
<210> 35
<211> 20
<212> DNA
<213> Primer
<400> 35
agcctggaag gcctatctgg 20
<210> 36
<211> 20
<212> DNA
<213> Primer
<400> 36
tcaacgtgtg ggagcagtac 20
<210> 37
<211> 20
<212> DNA
<213> Primer
<400> 37
gggctccatc tacgtcttcg 20
<210> 38
<211> 20
<212> DNA
<213> Primer
<400> 38
tggatccagg gcgagtagaa 20
<210> 39
<211> 20
<212> DNA
<213> Primer
<400> 39
tgggctcgta cgacttcaac 20
<210> 40
<211> 20
<212> DNA
<213> Primer
<400> 40
cggcgatgtt ggagtcgtat 20
<210> 41
<211> 20
<212> DNA
<213> Primer
<400> 41
cgagaccgac aagaccaaca 20
<210> 42
<211> 20
<212> DNA
<213> Primer
<400> 42
gaagagcacg atgagcacga 20
<210> 43
<211> 20
<212> DNA
<213> Primer
<400> 43
ttggtaagac ggtgcagatg 20
<210> 44
<211> 21
<212> DNA
<213> Primer
<400> 44
gtagttgatg cgttccttcc a 21
<210> 45
<211> 221
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 45
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Thr Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe
20 25 30
Ala Ser Val Tyr Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala
35 40 45
Asp Tyr Ser Val Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys
50 55 60
Tyr Gly Val Ser Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val
65 70 75 80
Tyr Ala Asp Ser Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala
85 90 95
Pro Gly Gln Thr Gly Lys Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp
100 105 110
Asp Phe Thr Gly Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser
115 120 125
Lys Val Gly Gly Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser
130 135 140
Asn Leu Lys Pro Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala
145 150 155 160
Gly Ser Thr Pro Cys Asn Gly Val Glu Gly Phe Asn Cys Tyr Phe Pro
165 170 175
Leu Gln Ser Tyr Gly Phe Gln Pro Thr Asn Gly Val Gly Tyr Gln Pro
180 185 190
Tyr Arg Val Val Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr
195 200 205
Val Cys Gly Pro Gly Gly Gly Gly Ser Glu Pro Glu Ala
210 215 220
<210> 46
<211> 666
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 46
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc taccaacctc 60
tgcccgttcg gcgaggtctt caacgccacc cgcttcgcct ccgtctacgc ctggaaccgc 120
aagcgcatct ccaactgcgt cgccgactac agcgtcctgt acaacagcgc ctcgttctcc 180
accttcaagt gctacggcgt cagccccacc aagctcaacg acctgtgctt caccaacgtc 240
tacgccgact ccttcgtcat ccgcggcgac gaggtccgcc agatcgcccc cggccagacc 300
ggcaagatcg ccgactacaa ctacaagctc cccgacgact tcaccggctg cgtcatcgcc 360
tggaacagca acaacctgga ctcgaaggtc ggcggcaact acaactacct ctaccgcctg 420
ttccgcaagt cgaacctcaa gccgttcgag cgcgacatct cgaccgagat ctaccaggcc 480
ggctccaccc cctgcaacgg cgtcgagggc ttcaactgct acttccccct ccagtcctac 540
ggcttccagc ccaccaacgg cgtcggctac cagccctacc gcgtcgtcgt cctctccttc 600
gagctcctgc acgcccccgc caccgtctgc ggccctggcg gcggcggcag cgagccggag 660
gcctaa 666
<210> 47
<211> 239
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 47
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Thr Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe
20 25 30
Ala Ser Val Tyr Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala
35 40 45
Asp Tyr Ser Val Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys
50 55 60
Tyr Gly Val Ser Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val
65 70 75 80
Tyr Ala Asp Ser Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala
85 90 95
Pro Gly Gln Thr Gly Lys Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp
100 105 110
Asp Phe Thr Gly Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser
115 120 125
Lys Val Gly Gly Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser
130 135 140
Asn Leu Lys Pro Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala
145 150 155 160
Gly Ser Thr Pro Cys Asn Gly Val Glu Gly Phe Asn Cys Tyr Phe Pro
165 170 175
Leu Gln Ser Tyr Gly Phe Gln Pro Thr Asn Gly Val Gly Tyr Gln Pro
180 185 190
Tyr Arg Val Val Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr
195 200 205
Val Cys Gly Pro Gly Gly Gly Gly Ser Ala His Ile Val Met Val Asp
210 215 220
Ala Tyr Lys Pro Thr Lys Gly Gly Gly Gly Ser Glu Pro Glu Ala
225 230 235
<210> 48
<211> 720
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 48
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc taccaacctc 60
tgcccgttcg gcgaggtctt caacgccacc cgcttcgcct ccgtctacgc ctggaaccgc 120
aagcgcatct ccaactgcgt cgccgactac agcgtcctgt acaacagcgc ctcgttctcc 180
accttcaagt gctacggcgt cagccccacc aagctcaacg acctgtgctt caccaacgtc 240
tacgccgact ccttcgtcat ccgcggcgac gaggtccgcc agatcgcccc cggccagacc 300
ggcaagatcg ccgactacaa ctacaagctc cccgacgact tcaccggctg cgtcatcgcc 360
tggaacagca acaacctgga ctcgaaggtc ggcggcaact acaactacct ctaccgcctg 420
ttccgcaagt ccaacctcaa gccgttcgag cgcgacatct cgaccgagat ctaccaggcc 480
ggctccaccc cctgcaacgg cgtcgagggc ttcaactgct acttccccct ccagagctac 540
ggcttccagc ccaccaacgg cgtcggctac cagccctacc gcgtcgtcgt cctctccttc 600
gagctcctgc acgccccggc caccgtctgc ggccctggcg gcggcggcag cgcccacatc 660
gtcatggtcg acgcctacaa gccgaccaag ggcggcggcg gctcggagcc cgaggcctaa 720
<210> 49
<211> 448
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 49
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Thr Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe
20 25 30
Ala Ser Val Tyr Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala
35 40 45
Asp Tyr Ser Val Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys
50 55 60
Tyr Gly Val Ser Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val
65 70 75 80
Tyr Ala Asp Ser Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala
85 90 95
Pro Gly Gln Thr Gly Lys Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp
100 105 110
Asp Phe Thr Gly Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser
115 120 125
Lys Val Gly Gly Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser
130 135 140
Asn Leu Lys Pro Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala
145 150 155 160
Gly Ser Thr Pro Cys Asn Gly Val Glu Gly Phe Asn Cys Tyr Phe Pro
165 170 175
Leu Gln Ser Tyr Gly Phe Gln Pro Thr Asn Gly Val Gly Tyr Gln Pro
180 185 190
Tyr Arg Val Val Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr
195 200 205
Val Cys Gly Pro Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Asp Lys
210 215 220
Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Ala Ala Gly Gly Pro
225 230 235 240
Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met Ile Ser
245 250 255
Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His Glu Asp
260 265 270
Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val His Asn
275 280 285
Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr Arg Val
290 295 300
Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly Lys Glu
305 310 315 320
Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile Glu Lys
325 330 335
Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val Tyr Thr
340 345 350
Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser Leu Thr
355 360 365
Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu Trp Glu
370 375 380
Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro Val Leu
385 390 395 400
Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val Asp Lys
405 410 415
Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met His Glu
420 425 430
Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser Pro Gly
435 440 445
<210> 50
<211> 1347
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 50
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc taccaacctc 60
tgcccgttcg gcgaggtctt caacgccacc cgcttcgcct ccgtctacgc ctggaaccgc 120
aagcgcatct ccaactgcgt cgccgactac agcgtcctgt acaacagcgc ctcgttctcc 180
accttcaagt gctacggcgt cagccccacc aagctcaacg acctgtgctt caccaacgtc 240
tacgccgact ccttcgtcat ccgcggcgac gaggtccgcc agatcgcccc cggccagacc 300
ggcaagatcg ccgactacaa ctacaagctc cccgacgact tcaccggctg cgtcatcgcc 360
tggaacagca acaacctgga ctcgaaggtc ggcggcaact acaactacct ctaccgcctg 420
ttccgcaagt cgaacctcaa gccgttcgag cgcgacatct cgaccgagat ctaccaggcc 480
ggctccaccc cctgcaacgg cgtcgagggc ttcaactgct acttccccct ccagtcctac 540
ggcttccagc ccaccaacgg cgtcggctac cagccctacc gcgtcgtcgt cctctccttc 600
gagctcctgc acgcccccgc caccgtctgc ggccctggcg gcggcggcag cggcggcggc 660
ggcagcgaca agacccacac ctgcccgccc tgccccgccc cggaggccgc tggcggcccc 720
agcgtcttcc tcttcccgcc caagccgaag gacaccctga tgatctcgcg caccccggag 780
gtcacctgcg tcgtcgtcga cgtcagccac gaggacccgg aggtcaagtt caactggtac 840
gtcgacggcg tcgaggtcca caacgccaag accaagccgc gcgaggagca gtacaactcg 900
acctaccgcg tcgtctccgt cctcaccgtc ctgcaccagg actggctcaa cggcaaggag 960
tacaagtgca aggtctcgaa caaggccctg cccgccccga tcgagaagac catctcgaag 1020
gccaagggcc agccccgcga gccccaggtc tacaccctcc cgcccagccg cgacgagctg 1080
accaagaacc aggtctcgct cacctgcctg gtcaagggct tctacccctc cgacatcgcc 1140
gtcgagtggg agagcaacgg ccagccggag aacaactaca agaccacccc gcccgtcctg 1200
gactccgacg gctccttctt cctctacagc aagctgaccg tcgacaagtc gcgctggcag 1260
cagggcaacg tcttcagctg ctcggtcatg cacgaggccc tgcacaacca ctacacccag 1320
aagtccctca gcctgtcgcc cggctaa 1347
<210> 51
<211> 448
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 51
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Asp Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Ala Ala
20 25 30
Gly Gly Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu
35 40 45
Met Ile Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser
50 55 60
His Glu Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu
65 70 75 80
Val His Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr
85 90 95
Tyr Arg Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn
100 105 110
Gly Lys Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro
115 120 125
Ile Glu Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln
130 135 140
Val Tyr Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val
145 150 155 160
Ser Leu Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val
165 170 175
Glu Trp Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro
180 185 190
Pro Val Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr
195 200 205
Val Asp Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val
210 215 220
Met His Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu
225 230 235 240
Ser Pro Gly Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Thr Asn Leu
245 250 255
Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe Ala Ser Val Tyr
260 265 270
Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala Asp Tyr Ser Val
275 280 285
Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys Tyr Gly Val Ser
290 295 300
Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val Tyr Ala Asp Ser
305 310 315 320
Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala Pro Gly Gln Thr
325 330 335
Gly Lys Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp Asp Phe Thr Gly
340 345 350
Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser Lys Val Gly Gly
355 360 365
Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser Asn Leu Lys Pro
370 375 380
Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala Gly Ser Thr Pro
385 390 395 400
Cys Asn Gly Val Glu Gly Phe Asn Cys Tyr Phe Pro Leu Gln Ser Tyr
405 410 415
Gly Phe Gln Pro Thr Asn Gly Val Gly Tyr Gln Pro Tyr Arg Val Val
420 425 430
Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr Val Cys Gly Pro
435 440 445
<210> 52
<211> 1347
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 52
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc tgacaagacc 60
cacacctgcc cgccctgccc cgccccggag gccgctggcg gccccagcgt cttcctcttc 120
ccgcccaagc cgaaggacac cctgatgatc tcgcgcaccc cggaggtcac ctgcgtcgtc 180
gtcgacgtca gccacgagga cccggaggtc aagttcaact ggtacgtcga cggcgtcgag 240
gtccacaacg ccaagaccaa gccgcgcgag gagcagtaca actcgaccta ccgcgtcgtc 300
tccgtcctca ccgtcctgca ccaggactgg ctcaacggca aggagtacaa gtgcaaggtc 360
tcgaacaagg ccctgcccgc cccgatcgag aagaccatct cgaaggccaa gggccagccc 420
cgcgagcccc aggtctacac cctcccgccc agccgcgacg agctgaccaa gaaccaggtc 480
tcgctcacct gcctggtcaa gggcttctac ccctccgaca tcgccgtcga gtgggagagc 540
aacggccagc cggagaacaa ctacaagacc accccgcccg tcctggactc cgacggctcc 600
ttcttcctct acagcaagct gaccgtcgac aagtcgcgct ggcagcaggg caacgtcttc 660
agctgctcgg tcatgcacga ggccctgcac aaccactaca cccagaagtc cctcagcctg 720
tcgcccggcg gcggcggcgg cagcggcggc ggcggcagca ccaacctctg cccgttcggc 780
gaggtcttca acgccacccg cttcgcctcc gtctacgcct ggaaccgcaa gcgcatctcc 840
aactgcgtcg ccgactacag cgtcctgtac aacagcgcct cgttctccac cttcaagtgc 900
tacggcgtca gccccaccaa gctcaacgac ctgtgcttca ccaacgtcta cgccgactcc 960
ttcgtcatcc gcggcgacga ggtccgccag atcgcccccg gccagaccgg caagatcgcc 1020
gactacaact acaagctccc cgacgacttc accggctgcg tcatcgcctg gaacagcaac 1080
aacctggact cgaaggtcgg cggcaactac aactacctct accgcctgtt ccgcaagtcg 1140
aacctcaagc cgttcgagcg cgacatctcg accgagatct accaggccgg ctccaccccc 1200
tgcaacggcg tcgagggctt caactgctac ttccccctcc agtcctacgg cttccagccc 1260
accaacggcg tcggctacca gccctaccgc gtcgtcgtcc tctccttcga gctcctgcac 1320
gcccccgcca ccgtctgcgg cccttaa 1347
<210> 53
<211> 219
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 53
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Thr Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe
20 25 30
Ala Ser Val Tyr Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala
35 40 45
Asp Tyr Ser Val Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys
50 55 60
Tyr Gly Val Ser Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val
65 70 75 80
Tyr Ala Asp Ser Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala
85 90 95
Pro Gly Gln Thr Gly Lys Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp
100 105 110
Asp Phe Thr Gly Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser
115 120 125
Lys Val Gly Gly Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser
130 135 140
Asn Leu Lys Pro Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala
145 150 155 160
Gly Ser Thr Pro Cys Asn Gly Val Glu Gly Phe Asn Cys Tyr Phe Pro
165 170 175
Leu Gln Ser Tyr Gly Phe Gln Pro Thr Tyr Gly Val Gly Tyr Gln Pro
180 185 190
Tyr Arg Val Val Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr
195 200 205
Val Cys Gly Pro Gly Ser Gly Glu Pro Glu Ala
210 215
<210> 54
<211> 660
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 54
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc taccaacctc 60
tgcccgttcg gcgaggtctt caacgccacc cgcttcgcct ccgtctacgc ctggaaccgc 120
aagcgcatct ccaactgcgt cgccgactac agcgtcctgt acaacagcgc ctcgttctcc 180
accttcaagt gctacggcgt cagccccacc aagctcaacg acctgtgctt caccaacgtc 240
tacgccgact ccttcgtcat ccgcggcgac gaggtccgcc agatcgcccc cggccagacc 300
ggcaagatcg ccgactacaa ctacaagctc cccgacgact tcaccggctg cgtcatcgcc 360
tggaacagca acaacctgga ctcgaaggtc ggcggcaact acaactacct ctaccgcctg 420
ttccgcaagt cgaacctcaa gccgttcgag cgcgacatct cgaccgagat ctaccaggcc 480
ggctccaccc cctgcaacgg cgtcgagggc ttcaactgct acttccccct ccagtcctac 540
ggcttccagc ccacctacgg cgtcggctac cagccctacc gcgtcgtcgt cctctccttc 600
gagctcctgc acgcccccgc caccgtctgc ggccctggca gcggcgagcc ggaggcctaa 660
<210> 55
<211> 219
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 55
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Thr Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe
20 25 30
Ala Ser Val Tyr Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala
35 40 45
Asp Tyr Ser Val Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys
50 55 60
Tyr Gly Val Ser Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val
65 70 75 80
Tyr Ala Asp Ser Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala
85 90 95
Pro Gly Gln Thr Gly Asn Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp
100 105 110
Asp Phe Thr Gly Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser
115 120 125
Lys Val Gly Gly Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser
130 135 140
Asn Leu Lys Pro Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala
145 150 155 160
Gly Ser Thr Pro Cys Asn Gly Val Lys Gly Phe Asn Cys Tyr Phe Pro
165 170 175
Leu Gln Ser Tyr Gly Phe Gln Pro Thr Tyr Gly Val Gly Tyr Gln Pro
180 185 190
Tyr Arg Val Val Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr
195 200 205
Val Cys Gly Pro Gly Ser Gly Glu Pro Glu Ala
210 215
<210> 56
<211> 660
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 56
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc taccaacctc 60
tgcccgttcg gcgaggtctt caacgccacc cgcttcgcct ccgtctacgc ctggaaccgc 120
aagcgcatct ccaactgcgt cgccgactac agcgtcctgt acaacagcgc ctcgttctcc 180
accttcaagt gctacggcgt cagccccacc aagctcaacg acctgtgctt caccaacgtc 240
tacgccgact ccttcgtcat ccgcggcgac gaggtccgcc agatcgcccc cggccagacc 300
ggcaacatcg ccgactacaa ctacaagctc cccgacgact tcaccggctg cgtcatcgcc 360
tggaacagca acaacctgga ctcgaaggtc ggcggcaact acaactacct ctaccgcctg 420
ttccgcaagt cgaacctcaa gccgttcgag cgcgacatct cgaccgagat ctaccaggcc 480
ggctccaccc cctgcaacgg cgtcaagggc ttcaactgct acttccccct ccagtcctac 540
ggcttccagc ccacctacgg cgtcggctac cagccctacc gcgtcgtcgt cctctccttc 600
gagctcctgc acgcccccgc caccgtctgc ggccctggca gcggcgagcc ggaggcctaa 660
<210> 57
<211> 219
<212> PRT
<213> Artificial sequence
<220>
<223> Amino acids
<400> 57
Met Tyr Ala Lys Phe Ala Thr Leu Ala Ala Leu Val Ala Gly Ala Ala
1 5 10 15
Ala Thr Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe
20 25 30
Ala Ser Val Tyr Ala Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala
35 40 45
Asp Tyr Ser Val Leu Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys
50 55 60
Tyr Gly Val Ser Pro Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val
65 70 75 80
Tyr Ala Asp Ser Phe Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala
85 90 95
Pro Gly Gln Thr Gly Thr Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp
100 105 110
Asp Phe Thr Gly Cys Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser
115 120 125
Lys Val Gly Gly Asn Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser
130 135 140
Asn Leu Lys Pro Phe Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala
145 150 155 160
Gly Ser Thr Pro Cys Asn Gly Val Lys Gly Phe Asn Cys Tyr Phe Pro
165 170 175
Leu Gln Ser Tyr Gly Phe Gln Pro Thr Tyr Gly Val Gly Tyr Gln Pro
180 185 190
Tyr Arg Val Val Val Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr
195 200 205
Val Cys Gly Pro Gly Ser Gly Glu Pro Glu Ala
210 215
<210> 58
<211> 660
<212> DNA
<213> Artificial sequence
<220>
<223> DNA sequence
<400> 58
atgtacgcca agttcgcgac cctcgccgcc cttgtggctg gcgccgctgc taccaacctc 60
tgcccgttcg gcgaggtctt caacgccacc cgcttcgcct ccgtctacgc ctggaaccgc 120
aagcgcatct ccaactgcgt cgccgactac agcgtcctgt acaacagcgc ctcgttctcc 180
accttcaagt gctacggcgt cagccccacc aagctcaacg acctgtgctt caccaacgtc 240
tacgccgact ccttcgtcat ccgcggcgac gaggtccgcc agatcgcccc cggccagacc 300
ggcaccatcg ccgactacaa ctacaagctc cccgacgact tcaccggctg cgtcatcgcc 360
tggaacagca acaacctgga ctcgaaggtc ggcggcaact acaactacct ctaccgcctg 420
ttccgcaagt cgaacctcaa gccgttcgag cgcgacatct cgaccgagat ctaccaggcc 480
ggctccaccc cctgcaacgg cgtcaagggc ttcaactgct acttccccct ccagtcctac 540
ggcttccagc ccacctacgg cgtcggctac cagccctacc gcgtcgtcgt cctctccttc 600
gagctcctgc acgcccccgc caccgtctgc ggccctggca gcggcgagcc ggaggcctaa 660

Claims (50)

1.一种用于生产感兴趣的外源蛋白的遗传修饰的子囊菌类丝状真菌,所述遗传修饰的丝状真菌包含至少一个具有KEX2和/或ALP7降低的表达和/或蛋白酶活性的细胞,所述至少一个细胞包含编码所述感兴趣的蛋白质的外源多核苷酸。
2.权利要求1所述的遗传修饰的子囊菌类丝状真菌,其具有降低的KEX2表达和/或活性。
3.权利要求1所述的遗传修饰的子囊菌类丝状真菌,其具有降低的ALP7表达和/或活性。
4.权利要求1所述的遗传修饰的子囊菌类丝状真菌,其具有KEX2和ALP7降低的表达和/或活性。
5.权利要求1至4中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中KEX2包含与Thermothelomyces heterothallica KEX2的氨基酸序列具有至少75%、或至少80%、或至少85%、或至少90%、或至少95%、或至少99%或100%同一性的氨基酸序列。
6.权利要求5所述的遗传修饰的子囊菌类丝状真菌,其中所述Thermothelomycesheterothallica KEX2包含SEQ ID NO:14的氨基酸序列。
7.权利要求1至6中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中ALP7包含与Thermothelomyces heterothallica ALP7的氨基酸序列具有至少75%、或至少80%、或至少85%、或至少90%、或至少95%、或至少99%或100%同一性的氨基酸序列。
8.权利要求7所述的遗传修饰的子囊菌类丝状真菌,其中所述Thermothelomycesheterothallica ALP7包含SEQ ID NO:13的氨基酸序列。
9.权利要求1至8中的任一项所述的遗传修饰的子囊菌类丝状真菌,其具有至少一种另外的蛋白酶的降低的表达和/或活性。
10.权利要求9所述的遗传修饰的子囊菌类丝状真菌,其中所述另外的蛋白酶选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4。
11.权利要求10所述的遗传修饰的子囊菌类丝状真菌,所述真菌具有选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4的至少2、3、4、5、6、7、8、9、10或11种蛋白酶的降低的表达和/或活性。
12.权利要求1至11中的任一项所述的遗传修饰的子囊菌类丝状真菌,其具有ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4和KEX2的降低的表达和/或活性。
13.权利要求1至11中的任一项所述的遗传修饰的子囊菌类丝状真菌,其具有ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4和ALP7的降低的表达和/或活性。
14.权利要求1至13中的任一项所述的遗传修饰的子囊菌类丝状真菌,其具有ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6、ALP4、ALP7和KEX2的降低的表达和/或活性。
15.权利要求1至14中的任一项所述的遗传修饰的子囊菌类丝状真菌,其具有选自ALP5、ALP6、SRP3、SRP5和SRP8的至少一种另外的蛋白酶的降低的表达和/或活性。
16.权利要求1至15中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中所述遗传修饰的子囊菌类丝状真菌以与在类似条件下培养的其未遗传修饰的亲本子囊菌类丝状真菌菌株产生的量相比增加的量产生所述感兴趣的蛋白质。
17.权利要求1至16中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中由所述遗传修饰的子囊菌类丝状真菌产生的蛋白质与由在类似条件下培养的未遗传修饰的亲本子囊菌类丝状真菌菌株产生的所述蛋白质相比具有提高的稳定性。
18.权利要求1至17中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中所述子囊菌类丝状真菌属于盘菌亚门(Pezizomycotina)中的属。
19.权利要求18所述的遗传修饰的子囊菌类丝状真菌,所述子囊菌类丝状真菌属于选自Thermothelomyces、毁丝霉属(Myceliophthora)、木霉属(Trichoderma)、曲霉属(Aspergillus)、青霉属(Penicillium)、Rasamsonia、金孢霉属(Chrysosporium)、棒囊壳属(Corynascus)、镰刀菌属(Fusarium)、脉孢菌属(Neurospora)和篮状菌属(Talaromyces)的属。
20.权利要求19所述的遗传修饰的子囊菌类丝状真菌,所述子囊菌类丝状真菌属于选自Thermothelomyces heterothallica、黄毁丝霉(Myceliophthora lutea)、构巢曲霉(Aspergillus nidulans)、绳状曲霉(Aspergillus funiculosus)、黑曲霉(Aspergillusniger)、米曲霉(Aspergillus oryzae)、里氏木霉(Trichoderma reesei)、哈茨木霉(Trichoderma harzianum)、长枝木霉(Trichoderma longibrachiatum)、绿色木霉(Trichoderma viride)、Rasamsonia emersonii、产黄青霉(Penicillium chrysogenum)、疣梗青霉(Penicillium verrucosum)、嗜热侧孢霉(Sporotrichum thermophile)、Corynascus fumimontanus、嗜热棒囊壳(Corynascus thermophilus)、Chrysosporiumlucknowense、禾谷镰刀菌(Fusarium graminearum)、Fusarium venenatum、粗糙脉孢菌(Neurospora crassa)和Talaromyces piniphilus的菌种。
21.权利要求20所述的遗传修饰的子囊菌类丝状真菌,所述子囊菌类丝状真菌是Thermothelomyces heterothallica菌株,其包含与SEQ ID NO:20中阐述的核酸序列具有至少95%、或至少96%、或至少97%、或至少98%、或至少99%或100%同一性的rDNA序列。
22.权利要求21所述的遗传修饰的子囊菌类丝状真菌,其中所述子囊菌类丝状真菌是Thermothelomyces heterothallica C1。
23.权利要求1至22中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中所述至少一种外源多核苷酸是还包含至少一个在所述子囊菌类丝状真菌中可操作的调控元件的DNA构建体或表达载体。
24.权利要求1至23中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中所述感兴趣的蛋白质选自抗原、抗体、酶、疫苗和结构蛋白。
25.权利要求24所述的遗传修饰的子囊菌类丝状真菌,其中所述感兴趣的蛋白质是抗体。
26.权利要求1-25中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中所述感兴趣的蛋白质与标签融合。
27.权利要求26所述的遗传修饰的子囊菌类丝状真菌,其中所述标签选自Spy标签、HA标签、几丁质结合蛋白(CBP)、麦芽糖结合蛋白(MBP)、Strep标签、谷胱甘肽-S-转移酶(GST)、FLAG标签、C标签、ALFA标签、V5标签、Myc标签、Spot标签、T7标签、NE标签和聚(His)标签。
28.权利要求24所述的遗传修饰的子囊菌类丝状真菌,其中所述感兴趣的蛋白质是病毒组分。
29.权利要求28所述的遗传修饰的子囊菌类丝状真菌,其中所述病毒组分是SARS-CoV2刺突结构域的受体结合结构域(RBD)或其片段。
30.权利要求26-29中的任一项所述的遗传修饰的子囊菌类丝状真菌,其中所述感兴趣的蛋白质包含选自SEQ ID NO:45、SEQ ID NO:47、SEQ ID NO:49、SEQ ID NO:51、SEQ IDNO:53、SEQ ID NO:55和SEQ ID NO:57的氨基酸序列。
31.权利要求28所述的遗传修饰的子囊菌类丝状真菌,其中所述病毒组分是来自于裂谷热病毒(RVFV)的抗原蛋白。
32.权利要求28所述的遗传修饰的子囊菌类丝状真菌,其中所述病毒组分是流感病毒蛋白。
33.权利要求24所述的遗传修饰的子囊菌类丝状真菌,其中所述感兴趣的蛋白质是纤维蛋白原。
34.一种产生能够生产感兴趣的蛋白质的真菌的方法,所述方法包括用至少一种编码所述感兴趣的蛋白质的外源多核苷酸转化所述真菌的至少一个细胞;所述真菌的至少一个细胞具有KEX2和/或ALP7的降低的表达和/或蛋白酶活性。
35.权利要求34所述的方法,所述方法还包括对所述真菌进行工程化改造以具有KEX2或ALP7的抑制的表达和/或蛋白酶活性。
36.权利要求35所述的方法,所述方法还包括对所述真菌进行工程化改造以在所述至少一个细胞中具有选自ALP1、PEP4、ALP2、PRT1、SRP1、ALP3、PEP1、MTP2、PEP5、MTP4、PEP6和ALP4的至少一种另外的蛋白酶的抑制的表达和/或活性。
37.权利要求34至36中的任一项所述的方法,其中所述遗传修饰的真菌以与由在相似条件下培养的相应的亲本未转化真菌菌株产生的量相比提高的量产生所述感兴趣的蛋白质。
38.权利要求34至37中的任一项所述的方法,其中所述子囊菌类丝状真菌属于盘菌亚门(Pezizomycotina)中的属。
39.权利要求38所述的方法,其中所述子囊菌类丝状真菌属于选自Thermothelomyces、毁丝霉属(Myceliophthora)、木霉属(Trichoderma)、曲霉属(Aspergillus)、青霉属(Penicillium)、Rasamsonia、金孢霉属(Chrysosporium)、棒囊壳属(Corynascus)、镰刀菌属(Fusarium)、脉孢菌属(Neurospora)和篮状菌属(Talaromyces)的属。
40.权利要求39所述的方法,其中所述子囊菌类丝状真菌属于选自Thermothelomycesheterothallica、黄毁丝霉(Myceliophthora lutea)、构巢曲霉(Aspergillus nidulans)、绳状曲霉(Aspergillus funiculosus)、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、里氏木霉(Trichoderma reesei)、哈茨木霉(Trichodermaharzianum)、长枝木霉(Trichoderma longibrachiatum)、绿色木霉(Trichodermaviride)、Rasamsonia emersonii、产黄青霉(Penicillium chrysogenum)、疣梗青霉(Penicillium verrucosum)、嗜热侧孢霉(Sporotrichum thermophile)、Corynascusfumimontanus、嗜热棒囊壳(Corynascus thermophilus)、Chrysosporium lucknowense、禾谷镰刀菌(Fusarium graminearum)、Fusarium venenatum、粗糙脉孢菌(Neurosporacrassa)和Talaromyces piniphilus的菌种。
41.权利要求40所述的方法,其中所述子囊菌类丝状真菌是Thermothelomycesheterothallica菌株,其包含与SEQ ID NO:20中阐述的核酸序列具有至少95%、或至少96%、或至少97%、或至少98%、或至少99%或100%同一性的rDNA序列。
42.权利要求41所述的方法,其中所述子囊菌类丝状真菌是Thermothelomycesheterothallica C1。
43.一种生产至少一种感兴趣的蛋白质的方法,所述方法包括将权利要求1至33中的任一项所述的遗传修饰的真菌在适合的培养基中培养;和回收所述产生的感兴趣的蛋白质。
44.权利要求43所述的方法,其中所述培养基包含选自葡萄糖、蔗糖、木糖、阿拉伯糖、半乳糖、果糖、乳糖、纤维二糖、甘油及其任何组合的碳源。
45.权利要求34-44中的任一项所述的方法,其中所述至少一种感兴趣的蛋白质是病毒组分。
46.权利要求45所述的方法,其中所述病毒组分属于冠状病毒。
47.权利要求46所述的方法,其中所述冠状病毒是SARS-CoV-2。
48.一种蛋白质,其通过根据权利要求34至47中的任一项所述的方法来生产。
49.权利要求48所述的至少两种蛋白质的组合。
50.权利要求49所述的组合,其中所述至少两种蛋白质中的每一者是冠状病毒的病毒组分,并且其中每种病毒组分属于不同的冠状病毒变体。
CN202180049398.6A 2020-05-14 2021-05-13 用于生产外源蛋白的修饰的丝状真菌 Pending CN115812105A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063024550P 2020-05-14 2020-05-14
US63/024,550 2020-05-14
PCT/IB2021/054082 WO2021229483A1 (en) 2020-05-14 2021-05-13 Modified filamentous fungi for production of exogenous proteins

Publications (1)

Publication Number Publication Date
CN115812105A true CN115812105A (zh) 2023-03-17

Family

ID=78525459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180049398.6A Pending CN115812105A (zh) 2020-05-14 2021-05-13 用于生产外源蛋白的修饰的丝状真菌

Country Status (11)

Country Link
US (1) US20230313121A1 (zh)
EP (1) EP4150050A4 (zh)
JP (1) JP2023525833A (zh)
KR (1) KR20230011965A (zh)
CN (1) CN115812105A (zh)
AU (1) AU2021271311A1 (zh)
BR (1) BR112022023104A2 (zh)
CA (1) CA3182806A1 (zh)
IL (1) IL298190A (zh)
WO (1) WO2021229483A1 (zh)
ZA (1) ZA202212243B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0894126B1 (en) * 1996-03-27 2006-02-01 Novozymes A/S Alkaline protease deficient filamentous fungi
MX2016000306A (es) * 2013-07-10 2016-08-08 Novartis Ag Celulas de hongos filamentosos deficientes en multiples proteasas y métodos de uso de las mismas.
CA3073646A1 (en) * 2017-08-21 2019-02-28 Dyadic International Inc. Production of flu vaccine in myceliophthora thermophila

Also Published As

Publication number Publication date
KR20230011965A (ko) 2023-01-25
AU2021271311A1 (en) 2023-01-19
ZA202212243B (en) 2023-07-26
EP4150050A4 (en) 2024-08-28
EP4150050A1 (en) 2023-03-22
JP2023525833A (ja) 2023-06-19
CA3182806A1 (en) 2021-11-18
WO2021229483A1 (en) 2021-11-18
IL298190A (en) 2023-01-01
US20230313121A1 (en) 2023-10-05
BR112022023104A2 (pt) 2023-01-17

Similar Documents

Publication Publication Date Title
US20040013648A1 (en) Vector system
KR20220141332A (ko) 홍역-벡터화된 covid-19 면역원성 조성물 및 백신
CN102002105B (zh) Hpv 16型e7e6融合蛋白基因、表达载体、方法、细胞和用途
US20030167538A1 (en) Use of the maize x112 mutant ahas 2 gene and imidazolinone herbicides for selection of transgenic monocots, maize, rice and wheat plants resistant to the imidazolinone herbicides
CN101842479A (zh) 用于改良宿主细胞内蛋白质生产的信号序列和共表达的分子伴侣
US20200157570A1 (en) Enhanced modified viral capsid proteins
CA3109035A1 (en) Microorganisms engineered to use unconventional sources of nitrogen
US6130070A (en) Induction promoter gene and secretory signal gene usable in Schizosaccharomyces pombe, expression vectors having the same, and use thereof
KR101274790B1 (ko) 코로나바이러스 생산용 세포주
US20040132133A1 (en) Methods and compositions for the production, identification and purification of fusion proteins
KR20210005167A (ko) 리소좀 축적병을 완화시키기 위한 렌티벡터-형질도입된 t-rapa 세포의 용도
CN102286512A (zh) 一种基于位点特异性重组的多片段dna串联重组拼装方法
CN100577807C (zh) 用于植物中表皮特异性转基因表达的启动子
KR20140004744A (ko) 시클로클라빈의 생합성을 위한 유전자 클러스터
KR102287880B1 (ko) 세포에서 이중 가닥 dna의 표적 부위를 변형시키기 위한 방법
KR20220116173A (ko) 밀의 게놈에의 dna 또는 돌연변이의 정확한 도입
KR20230011965A (ko) 외인성 단백질의 생산을 위한 변형된 사상균
CN111378626B (zh) 一种cho细胞系、构建方法、重组蛋白表达系统、应用
US20040077573A1 (en) Method for regulating the activity of an expression product of a gene transferred into living body
CN110423736B (zh) 碱基编辑工具及其应用以及在真核细胞内进行宽窗口和无序列偏好性碱基编辑的方法
CN111518838A (zh) 一种真核细胞单碱基基因编辑的引物、试剂盒及使用方法、用途
TW202228728A (zh) 用於同時調節基因表現之組合物及方法
JPH11192094A (ja) シゾサッカロミセス・ポンベで使用可能な誘導プロモータ、誘導発現ベクター、およびそれらの利用
CN108753727A (zh) 一种gpcr靶向药物筛选系统及其构建和应用
KR100696904B1 (ko) 이노비리대 바이러스 ssDNA-결합 단백질을 사용한 ssDNA 바이러스에 의한 감염에 대한 식물의 내성, 이를 위한 조성물 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination