KR20080105034A

KR20080105034A - Selection of host cells expressing protein at high levels

Info

Publication number: KR20080105034A
Application number: KR1020087018437A
Authority: KR
Inventors: 아리 피터 오떼; 헨리쿠그 요하네스 마리아 반 블로크란트; 테오도루스 헨드리쿠스 야코부스 곽스; 리차드 게오르그 안토니우스 베르나르도스 세발트
Original assignee: 크로마제닉스 비.브이.
Priority date: 2006-02-21
Filing date: 2007-02-21
Publication date: 2008-12-03
Also published as: PL1987150T3; EP2013349B1; CA2651088C; CN101437946B; WO2007128685A1; CN101437946A; EP1987150A2; CA2637271A1; PT1987150E; WO2007096399A3; AU2007247242B2; SI1987150T1; DK2013349T3; AU2007247242A1; CA2651088A1; CA2637271C; KR101328300B1; HK1128490A1; DK1987150T3; JP5225107B2

Abstract

The invention provides a DNA molecule comprising a multicistronic transcription unit coding for i) a polypeptide of interest, and for ii) a selectable marker polypeptide functional in a eukaryotic host cell, wherein the polypeptide of interest has a translation initiation sequence separate from that of the selectable marker polypeptide, and wherein the coding sequence for the polypeptide of interest is upstream from the coding sequence for the selectable marker polypeptide in said multicistronic transcription unit, and wherein an internal ribosome entry site (IRES) is present downstream from the coding sequence for the polypeptide of interest and upstream from the coding sequence for the selectable marker polypeptide, and wherein the nucleic acid sequence coding for the selectable marker polypeptide in the coding strand comprises a GTG or a TTG startcodon. The invention also provides methods for obtaining host cells expressing a polypeptide of interest, said host cells comprising the DNA molecules of the invention. The invention further provides the production of polypeptides of interest, comprising culturing host cells comprising the DNA molecules according to the invention. ® KIPO & WIPO 2009

Description

Selection of host cells expressing protein at high levels

본 발명은 분자생물학과 생물공학 분야에 관한 것이다. 더욱 특별히는 본 발명은 고수준으로 단백질을 발현하는 숙주세포의 선택을 개선하기 위한 수단 및 방법에 관한 것이다. The present invention relates to the field of molecular biology and biotechnology. More particularly, the present invention relates to means and methods for improving the selection of host cells expressing proteins at high levels.

단백질은 예를 들면 생물약제학과 같이, 생물과 생물공학에서 광범위한 적용을 위해 다양한 숙주세포에서 생산될 수 있다. 진핵세포와 특히 포유동물 숙주세포는, 예를 들면, 단백질이 글리코실화와 같은 특정 후번역 변형 (posttranslational modifications)을 가질 때, 이와 같은 여러 단백질을 발현하기 위한 본 목적에 바람직하다. 이와 같은 생산 방법은 잘 확립되어있고, 일반적으로 관심있는 단백질을 암호화하는 핵산의 숙주세포(또한 "트란스유전자"로도 언급된다)에서 발현을 필요로 한다. 일반적으로, 트란스유전자는 선택가능한 마커 유전자와 함께 전구체 세포에 도입되고, 세포들은 선택가능한 마커 유전자의 발현을 위해 선택되고, 고수준으로 관심있는 단백질을 발현하는 하나 이상의 클론이 동정되고, 관심의 단백질의 발현에 사용된다. Proteins can be produced in a variety of host cells for a wide range of applications in biology and biotechnology, for example in biopharmaceuticals. Eukaryotic cells and particularly mammalian host cells are preferred for this purpose to express several such proteins, for example when the protein has certain posttranslational modifications such as glycosylation. Such production methods are well established and generally require expression in host cells of nucleic acids encoding proteins of interest (also referred to as "transgenes"). In general, transgenes are introduced into precursor cells along with selectable marker genes, cells are selected for expression of the selectable marker gene, one or more clones are identified that express the protein of interest at high levels, and Used for expression.

트란스유전자의 발현과 관련된 하나의 문제는, 트란스유전자가 유전자 침 묵(McBurney et al., 2002)으로 인해 불활성화될 것이라는 높은 가능성으로부터 유래하는 것을 예상할 수 없고, 그러므로 많은 숙주세포 클론은 트란스유전자의 높은 발현에 대해 시험되어야 한다.One problem with the expression of transgenes cannot be expected to stem from the high likelihood that transgenes will be inactivated due to gene silencing (McBurney et al., 2002), and therefore many host cell clones are transgenic. Should be tested for high expression of.

비교적 높은 수준의 원하는 단백질을 발현하는 재조합 숙주세포가 알려져 있고, 여러 이와 같은 방법은 WO 2006/048459에 논의되었고, 본 명세서에 참조로 병합된다.Recombinant host cells expressing relatively high levels of the desired protein are known and several such methods are discussed in WO 2006/048459 and are incorporated herein by reference.

선행기술의 어느 유리한 방법에서, 이중시스트론성(bicistronic) 발현벡터는 재조합 단백질을 발현하는 안전한 포유동물 세포주의 신속하고 효율적인 생산에 대해 기재하고 있다. 이들 벡터는 관심의 단백질에 대한 상류 암호화 서열과 선택 마커의 하류 암호화 서열 사이에 내부 리보솜 엔트리 부위(IRES)를 함유한다(Rees et al, 1996). 이와 같은 벡터는 시판되고 있고, 예를 들면, Clontech 사의 pIRES1 벡터이다(CLONTECHniques, October 1996). 숙주세포에 도입하기 위해 이와 같은 벡터를 사용하는, 하류 마커 단백질의 충분한 발현의 선택은 그리고 나서 다중시스트론성 mRNA의 높은 전사 수준을 자동적으로 선택하고, 따라서 크게 증가된, 관심의 단백질의 고발현 가능성은 이와 같은 벡터를 사용하는 것으로 예상된다. 바람직하기는 이와 같은 방법에서, 사용된 IRES는, 선택 마커 단백질의 발현을 선택함으로써 관심의 단백질의 고발현 수준을 갖는 숙주세포를 선택하는 기회를 더욱 증가시키기 위해, 선택 마커 유전자의 비교적 낮은 수준의 전사를 제공하는 IRES이다 (예를 들면, WO 03/106684 및 WO 2006/005718 참조).In one advantageous method of the prior art, bicistronic expression vectors describe the rapid and efficient production of safe mammalian cell lines expressing recombinant proteins. These vectors contain an internal ribosomal entry site (IRES) between the upstream coding sequence for the protein of interest and the downstream coding sequence of the selection marker (Rees et al, 1996). Such vectors are commercially available and are, for example, pIRES1 vectors from Clontech (CLONTECHniques, October 1996). Using such a vector to introduce into a host cell, the selection of sufficient expression of the downstream marker protein then automatically selects the high transcription level of the multicistronic mRNA, thus greatly increasing the high expression of the protein of interest. The possibility is expected to use such vectors. Preferably in such a method, the IRES used is characterized by a relatively low level of the selectable marker gene in order to further increase the chance of selecting a host cell having a high expression level of the protein of interest by selecting the expression of the selectable marker protein. IRES providing transcription (see, eg, WO 03/106684 and WO 2006/005718).

본 발명은 고수준의 관심의 단백질을 발현하는 숙주세포의 선택을 위한 개선 된 수단 및 방법을 제공하는 것을 목적으로 한다.It is an object of the present invention to provide improved means and methods for the selection of host cells expressing high levels of a protein of interest.

WO 2006/048459는 가출원의 우선일 전에 출원되고 우선일 후에 공개되었고, 그 전체는 참조에 의해 본 명세서에 병합된다. WO 2006/048459는 관심의 폴리펩티드의 고수준을 발현하는 숙주세포를 선택하기 위한 개념을 기재하고, 이 개념은 본 명세서에서 '상호 의존적 번역'으로 불리운다. 이 개념에서, 다중시스트론성 전사 유니트가 사용되고, 여기서 선택가능한 마커 폴리펩티드를 암호화하는 서열은 관심의 폴리펩티드를 암호화하는 서열의 상류에 있고, 여기서 선택가능한 마커 폴리펩티드의 번역은 그 안의 돌연변이에 의해 약화되고, 반면 관심의 폴리펩티드의 번역은 매우 높다(예를 들면, 도해로서 도 13 참조). 본 발명은 폴리펩티드를 고수준으로 발현하는 숙주세포를 선택하는 대체적 수단과 방법을 제공한다.WO 2006/048459 was filed before the priority date of the provisional application and published after the priority date, the entirety of which is incorporated herein by reference. WO 2006/048459 describes the concept for selecting host cells expressing high levels of a polypeptide of interest, which concept is referred to herein as 'interdependent translation'. In this concept, a multicistronic transcriptional unit is used wherein the sequence encoding the selectable marker polypeptide is upstream of the sequence encoding the polypeptide of interest, wherein the translation of the selectable marker polypeptide is attenuated by a mutation therein. While the translation of the polypeptide of interest is very high (see, eg, FIG. 13 as a diagram). The present invention provides alternative means and methods for selecting host cells that express high levels of a polypeptide.

한 면에서, 본 발명은 i) 관심의 폴리펩티드 및 ii) 진핵 숙주세포에서 기능성인 선택가능한 마커 폴리펩티드를 암호화하는 다중시스트론성 전사 유니트를 포함하는 DNA 분자를 제공하고, 여기서 관심의 폴리펩티드는 선택가능한 마커 폴리펩티드의 것과 구별되는 전사 개시 서열을 갖고, 여기서 관심의 폴리펩티드에 대한 암호화 서열은 상기 다중시스트론성 전사 유니트에서 선택가능한 마커 폴리펩티드의 암호화 서열의 상류에 있고, 그리고 여기서 내부 리보솜 엔트리 부위(IRES)는 관심의 폴리펩티드의 암호화 서열로부터 하류 및 선택가능한 마커 폴리펩티드의 암호화 서열로부터 상류에 존재하고, 여기서 암호화 가닥에서 선택가능한 마커 폴리펩티드를 암호화하는 핵산 서열은 a) GTG 시작 코돈; b) TTG 시작 코돈; c) CTG 시작 코돈; d) ATT 시작 코돈; 및 e) ACG 시작 코돈으로 이루어진 군으로부터 선택된 전사 시작 서열을 포함한다.In one aspect, the invention provides a DNA molecule comprising i) a polypeptide of interest and ii) a multicistronic transcriptional unit encoding a selectable marker polypeptide functional in a eukaryotic host cell, wherein the polypeptide of interest is selectable. Having a transcription initiation sequence that is distinct from that of the marker polypeptide, wherein the coding sequence for the polypeptide of interest is upstream of the coding sequence of the selectable marker polypeptide in the multicistronic transcriptional unit, and wherein the internal ribosome entry site (IRES) Is downstream from the coding sequence of the polypeptide of interest and upstream from the coding sequence of the selectable marker polypeptide, wherein the nucleic acid sequence encoding the selectable marker polypeptide in the coding strand comprises a) a GTG start codon; b) TTG start codon; c) CTG start codon; d) ATT start codon; And e) a transcription start sequence selected from the group consisting of ACG start codons.

선택가능한 마커 폴리펩티드에 대한 암호화 가닥 중의 전사 시작 서열은 GTG, TTG, CTG, ATT, 또는 ACG 서열과 같은 ATG 시작 서열과 다른 시작 코돈을 포함하고, 그들 중 처음 두 개가 가장 바람직하다. 이와 같은 비-ATG 시작 코돈은 바람직하기는 시작코돈으로서 비-ATG 서열의 비교적 양호한 인식을 제공하는 서열로 플랭크되고, 적어도 몇몇 리보솜은 이들 시작코돈으로부터 번역을 시작하고, 즉 번역 시작 서열은 바람직하기는 서열 ACC[비-ATG 시작코돈]G 또는 GCC[비-ATG 시작코돈]G을 포함한다. The transcription start sequence in the coding strand for the selectable marker polypeptide comprises a start codon different from the ATG start sequence, such as a GTG, TTG, CTG, ATT, or ACG sequence, the first two of which are most preferred. Such non-ATG start codons are preferably flanked with sequences that provide a relatively good recognition of non-ATG sequences as start codons, and at least some ribosomes start translation from these start codons, ie the translation start sequence is preferred. Comprises the sequence ACC [non-ATG start codon] G or GCC [non-ATG start codon] G.

바람직한 구현예에서, 선택가능한 마커 단백질은 항생물질과 같이, 선택제의 치사 및/또는 성장-억제 효과에 대한 내성을 제공한다. In a preferred embodiment, the selectable marker protein, like antibiotics, provides resistance to the lethal and / or growth-inhibitory effects of the selector.

본 발명은 추가로 본 발명에 따른 DNA 분자를 포함하는 발현 카세트를 제공하고, 상기 발현 카세트는 추가로 다중시스트론성 발현 유니트의 상류의 프로모터를 포함하고 다중시스트론성 발현 유니트의 초기 전사를 위한 진핵 숙주 세포에서의 작용성이고, 그리고 상기 발현 카세트는 추가로 다중시스트론성 발현 유니트의 하류에 전사 중단 서열을 포함한다.The invention further provides an expression cassette comprising the DNA molecule according to the invention, said expression cassette further comprising a promoter upstream of the multicistronic expression unit and for initial transcription of the multicistronic expression unit. It is functional in eukaryotic host cells, and the expression cassette further comprises a transcriptional disruption sequence downstream of the multicistronic expression unit.

본 발명의 바람직한 구현예에서, 이와 같은 발현 카세트는 추가로, 매트릭스 또는 골격 부착 영역(MAR/SAR), 절연체 서열, 편재성 크로마틴 개방 요소(UCOE), 및 항-억제제 서열로 이루어진 군으로부터 선택되는 적어도 하나의 크로마틴 조절 요소를 포함한다. 이 면에서 항-억제제 서열이 바람직하고, 특정 구현예에서 상기 항-억제제 서열은: a) SEQ. ID. NO. 1 내지 SEQ. ID. NO. 66 중 어느 하나; b) SEQ. ID. NO. 1 내지 SEQ. ID. NO. 66 중 어느 하나의 단편, 여기서 상기 단편은 항-억제제 활성을 갖는다; c) a) 또는 b)와 핵산 서열이 적어도 70% 동일한 서열, 여기서 상기 서열은 항-억제제 활성을 갖는다; 및 d) a) 내지 c)중 어느 하나의 보체로 이루어진 군으로부터 선택된다. In a preferred embodiment of the invention, such expression cassettes are further selected from the group consisting of matrix or skeletal attachment regions (MAR / SAR), insulator sequences, ubiquitous chromatin open element (UCOE), and anti-inhibitor sequences. At least one chromatin regulatory element. In this respect anti-inhibitor sequences are preferred, and in certain embodiments the anti-inhibitor sequences are: a) SEQ. ID. NO. 1 to SEQ. ID. NO. Any one of 66; b) SEQ. ID. NO. 1 to SEQ. ID. NO. Any one of 66, wherein said fragment has anti-inhibitor activity; c) a sequence at least 70% identical to a) or b) with a nucleic acid sequence, wherein said sequence has anti-inhibitor activity; And d) the complement of any one of a) to c).

본 발명은 또한 본 발명에 따른 DNA 분자를 포함하는 숙주세포를 제공한다. The invention also provides a host cell comprising a DNA molecule according to the invention.

본 발명은 추가로, 관심의 폴리펩티드를 발현하는 숙주세포를 발생시키는 방법을 제공하고, 상기 방법은: 본 발명에 따른 DNA 분자 또는 발현 카세트를 다수의 전구체 숙주 세포에 도입하는 단계, 선택가능한 마커 폴리펩티드의 발현을 위해 선택된 조건하에서 상기 세포를 배양하는 단계, 및 관심의 폴리펩티드를 생산하는 적어도 하나의 숙주세포를 선택하는 단계를 포함한다.The invention further provides a method of generating a host cell expressing a polypeptide of interest, said method comprising the steps of: introducing a DNA molecule or expression cassette according to the invention into a plurality of precursor host cells, the selectable marker polypeptide Culturing the cells under conditions selected for expression of and selecting at least one host cell that produces the polypeptide of interest.

추가의 면에서, 본 발명은 관심의 폴리펩티드를 생산하는 방법을 제공하고, 상기 방법은 숙주 세포를 배양하고, 상기 숙주 세포는 본 발명에 따른 발현 카세트를 포함하고, 그리고 상기 발현 카세트로부터 관심의 폴리펩티드를 발현하는 것을 포함한다. 본 발명의 바람직한 구현예에서, 관심의 폴리펩티드는 추가로 숙주세포 및/또는 숙주세포 배지로부터 단리된다. In a further aspect, the invention provides a method of producing a polypeptide of interest, said method culturing a host cell, said host cell comprising an expression cassette according to the invention, and from said expression cassette It includes expressing. In a preferred embodiment of the invention, the polypeptide of interest is further isolated from the host cell and / or host cell medium.

도 1은 본 발명에 따른 발현 구조물에 의한 결과를 나타낸다. 상기 발현 구조물은 IRES의 상류에 관심의 폴리펩티드를 암호화하는 서열(d2EGFP로 예시된다)을 함유하고, 이것은 본 발명에 따른 선택가능한 마커를 암호화하는 서열의 상류이 다(TTG 시작코돈을 갖는 제오신 내성 유전자(TTG Zeo) (또는 대조로 그것의 정상 ATG 시작 코돈을 갖는 제오신 내성 유전자(ATG Zeo)로 예시된다). 더욱 상세히는 실시예 1을 참조하라. 점은 개별적인 데이터 점을 나타내고; 선은 평균 발현 수준을 나타내고; 사용된 구조물은 수평축에 표시하였고 그리고 상기 그래프 위에 개략적으로 표시하였고; 수직축은 d2EGFP 신호를 나타낸다.1 shows the results by the expression construct according to the invention. The expression construct contains a sequence encoding the polypeptide of interest (exemplified by d2EGFP) upstream of the IRES, which is upstream of the sequence encoding the selectable marker according to the invention (zeosin resistance gene with TTG start codon) (TTG Zeo) (or exemplified by the zeocin resistance gene (ATG Zeo) with its normal ATG start codon as a control), see Example 1 in more detail, the dots represent individual data points; Expression levels; constructs used are plotted on the horizontal axis and schematically on the graph; vertical axis represents the d2EGFP signal.

도 2는 유지 마커로서 dhfr을 갖는 삼중시스트론성 발현 벡터에 의한 결과를 나타낸다. 발현 구조물은 TTG 시작코돈을 갖고 관심의 폴리펩티드를 암호화하는 서열의 상류의 내부 ATG 서열이 없는 제오신 선택가능한 마커 유전자(d2EGFP로 예시됨)를 함유하고, 이것은 추가로 IRES를 거쳐 (ATG 시작 코돈을 갖는) 하류 대사성 선택 마커 dhfr 유전자에 기능적으로 연결된다. 점은 개별적인 데이터 점( 수직축 상의 Zeo^R 콜로니에서 GFP 형광 신호), 선은 평균 발현 수준을 나타낸다. 사용된 구조물을 상기 그래프에 나타내었고, 조건은 수평 축에 표시하였다(d: 일). 더욱 상세히는 실시예 2를 참조하라.2 shows the results with triple cistronic expression vectors with dhfr as a maintenance marker. The expression construct contains a zeocin selectable marker gene (illustrated as d2EGFP) that has a TTG start codon and does not have an internal ATG sequence upstream of the sequence encoding the polypeptide of interest, which is further via IRES (ATG start codon) Downstream metabolic selection marker) is functionally linked to the dhfr gene. Dots represent individual data points (GFP fluorescence signal in Zeo ^R colonies on the vertical axis), lines represent mean expression levels. The structures used are shown in the graph above and the conditions are indicated on the horizontal axis (d: days). See Example 2 for more details.

도 3은 도 2와 같으나, GTG 시작코돈을 갖는 dhfr 유전자를 사용한 것이다. Figure 3 is the same as Figure 2, but using the dhfr gene having a GTG start codon.

도 4는 도 2와 같으나, TTG 시작코돈을 갖는 dhfr 유전자를 사용한 것이다. Figure 4 is the same as Figure 2, but using the dhfr gene having a TTG start codon.

도 5는 다양한 조건하에서, dhfr 효소 (ATG 시작 코돈)을 갖는 클론에서의 사본의 수이다. 더욱 상세히는 실시예 3을 참조하라.5 is the number of copies in clones with dhfr enzyme (ATG start codon), under various conditions. See Example 3 for further details.

도 6은 도 5와 같으나, GTG 시작코돈을 갖는 dhfr 유전자를 사용한 것이다.Figure 6 is the same as Figure 5, but using the dhfr gene having a GTG start codon.

도 7는 도 5와 같으나, TTG 시작코돈을 갖는 dhfr 유전자를 사용한 것이다. Figure 7 is the same as Figure 5, but using the dhfr gene having a TTG start codon.

한 면에서, 본 발명은 청구항 1에 따른 DNA 분자를 제공한다. 이와 같은 DNA 분자는 본 발명에 따라, 선택가능한 마커 폴리펩티드의 발현을 위해 선택함으로써, 관심의 폴리펩티드의 고수준을 발현하는 진핵 숙주세포를 얻는데 사용될 수 있다. 순차적으로 또는 동시에, 관심의 폴리펩티드를 발현하는 하나 이상의 숙주세포(들)를 동정할 수 있고, 추가로 관심의 폴리펩티드의 고수준 발현을 위해 사용될 수 있다. In one aspect, the invention provides a DNA molecule according to claim 1. Such DNA molecules can be used to obtain eukaryotic host cells expressing high levels of the polypeptide of interest by selecting for expression of the selectable marker polypeptide, according to the present invention. Sequentially or simultaneously, one or more host cell (s) expressing the polypeptide of interest can be identified and further used for high level expression of the polypeptide of interest.

용어 "단일시스트론성 유전자"는 하나의 폴리펩티드를 암호화하는 RNA 분자를 제공할 수 있는 유전자로 정의된다. "다중시스트론성 전사 유니트"는, 또한 다중시스트론성 유전자로도 언급되고, 적어도 2개의 폴리펩티드를 암호화하는 RNA 분자를 제공할 수 있는 유전자로 정의된다. 용어 "이중시스트론성 유전자"는 2개의 폴리펩티드를 암호화하는 RNA 분자를 제공할 수 있는 유전자로 정의된다. 그러므로, 이중시스트론성 유전자는 다중시스트론성 유전자의 정의 내에 포함된다. 본 명세서에 사용되는 "폴리펩티드"는 펩티드 결합에 의해 연결된 적어도 5개의 아미노산을 포함하고, 예를 들면, 단백질 또는 서브유니트로서 그것의 일부일 수 있다. 주로, 용어 폴리펩티드와 단백질은 본 명세서에서 서로 교환되어 사용된다. 본 발명에 사용되는 "유전자" 또는 "전사 유니트"는 염색체 DNA, cDNA, 인공 DNA, 그들의 결합물 등을 포함할 수 있다. 여러 시스트론을 포함하는 전사 유니트는 단일 mRNA로서 전사된다.The term “monocystronic gene” is defined as a gene capable of providing an RNA molecule encoding one polypeptide. A "multicystronic transcriptional unit", also referred to as a multicistronic gene, is defined as a gene capable of providing an RNA molecule encoding at least two polypeptides. The term “bicystronic gene” is defined as a gene capable of providing an RNA molecule encoding two polypeptides. Therefore, bicistronic genes are included within the definition of multicistronic genes. As used herein, a "polypeptide" comprises at least five amino acids linked by peptide bonds, and can be part of it, for example, as a protein or subunit. Mainly, the terms polypeptide and protein are used interchangeably herein. As used herein, a "gene" or "transcription unit" may include chromosomal DNA, cDNA, artificial DNA, combinations thereof, and the like. Transcription units containing several cystrons are transcribed as a single mRNA.

본 발명에 따른 다중시스트론성 전사 유니트는 바람직하기는 관심의 폴리펩 티드에 대해 그리고 선택가능한 마커 폴리펩티드에 대해 5' 내지 3'을 암호화하는 이중시스트론성 전사 유니트이다. 따라서, 관심의 폴리펩티드는 선택가능한 마커 폴리펩티드에 대해 암호화 서열로부터 상류를 암호화한다. IREA는 선택가능한 마커 폴리펩티드를 암호화하는 서열에 기능적으로 연결되고, 따라서, 선택가능한 마커 폴리펩티드는 번역을 위해 IRES에 의존한다.Multicistronic transcriptional units according to the invention are preferably bicistronic transcriptional units encoding 5 'to 3' for the polypeptide of interest and for the selectable marker polypeptide. Thus, the polypeptide of interest encodes upstream from the coding sequence for the selectable marker polypeptide. The IREA is functionally linked to the sequence encoding the selectable marker polypeptide, and thus the selectable marker polypeptide depends on the IRES for translation.

다양한 관심의 폴리펩티드의 발현을 위해, 또한 이들이 다중결합 단백질의 일부를 형성할 때, 개별적인 전사 유니트를 사용하는 것이 바람직하다 (예를 들면, 본 명세서에 참조로서 병합된 WO 2006/048459를 참조하라: 각 항체의 중사슬과 경사슬은 개별적인 전사 유니트에 의해 암호화되고, 이들 각각의 발현 유니트는 이중시스트론성 발현 유니트이다).For the expression of polypeptides of various interests, it is also preferred to use separate transcription units when they form part of a multiple binding protein (see, eg, WO 2006/048459, incorporated herein by reference: The heavy and light chains of each antibody are encoded by separate transcription units, each of which is a dual cystronic expression unit).

본 발명의 DNA 분자는 선택가능한 마커 폴리펩티드와 관심의 폴리펩티드에 대해 암호화 가닥과 비-암호화 가닥을 갖는, 이중가닥 DNA의 형태로 존재할 수 있고, 암호화 가닥은 U 대신 T가 존재하는 것을 제외하고는 번역된 RNA와 동일한 서열을 갖는 가닥이다. 그러므로, AUG 시작코돈은 ATG 서열에 의해 암호화 가닥에서 암호하되고 RNA에서 AUG 시작코돈에 상응하는 ATG 서열을 함유하는 가닥은 DNA의 암호화 가닥으로 언급된다. 시작코돈 또는 번역 개시 서열이 실제로 RNA 분자에 존재하지만, 이들은 이와 같은 RNA 분자를 암호화하는 DNA 분자에 동등하게 구체화된다고 고려될 수 있다는 것은 당업자에게 명백할 것이다; 그러므로, 본 발명이 시작코돈 또는 번역 개시 서열을 언급하는 경우, DNA 분자의 암호화 가닥에서 U 대신 T가 존재하지 않는다면, RNA 서열과 동일한 서열을 갖는 상응하는 DNA 분자를 포함 하는 것을 의미하고, 그리고 명백히 다르다고 특정되는 경우를 제외하고, 그 반대도 같다. 다시 말하면, 시작 코돈은 예를 들면, RNA 중의 AUG 서열이지만, DNA의 암호화 가닥의 상응하는 ATG 서열은 본 발명에서 시작코돈으로도 언급된다. 동일한 것이 '인 프레임(in frame)' 암호화 서열의 참조로 사용되고, 아미노산으로 번역되는 RNA 분자의 3중체(3개의 염기)를 의미하고, 또한 DNA 분자의 암호화 가닥에서 트리뉴클레오티드 서열로 해석될 수 있다. The DNA molecules of the invention may exist in the form of double-stranded DNA, with the selectable and non-coding strands coding for the selectable marker polypeptide and the polypeptide of interest, the coding strand being translated except that T is present instead of U. Strand having the same sequence as the RNA. Therefore, the AUG start codon is encoded in the coding strand by the ATG sequence and the strand containing the ATG sequence corresponding to the AUG start codon in RNA is referred to as the coding strand of DNA. Although start codons or translation initiation sequences are actually present in RNA molecules, it will be apparent to those skilled in the art that they may be considered to be equivalently embodied in DNA molecules encoding such RNA molecules; Therefore, when the present invention refers to a start codon or a translation initiation sequence, it means to include a corresponding DNA molecule having the same sequence as the RNA sequence, unless T is present instead of U in the coding strand of the DNA molecule. The opposite is also true except when specified differently. In other words, the start codon is, for example, an AUG sequence in RNA, but the corresponding ATG sequence of the coding strand of DNA is also referred to herein as a start codon. The same is used as a reference to the 'in frame' coding sequence and means a triplet (three bases) of RNA molecules translated into amino acids and can also be interpreted as a trinucleotide sequence in the coding strand of a DNA molecule. .

선택가능한 마커 폴리펩티드와 다중시스트론성 유전자에 의해 암호화된 관심의 폴리펩티드는 각각 그들 자신의 (정지코돈 뿐 아니라) 시작코돈을 갖는다, 즉, 그들은 개별적인 개방형 해독틀에 의해 암호화된다.The polypeptides of interest encoded by the selectable marker polypeptide and the polycistronic genes each have their own (as well as stop codons) start codons, ie they are encoded by separate open reading frames.

용어 "선택 마커" 또는 "선택가능한 마커"는 통상적으로 존재가 직접 또는 간접적으로 세포에서 검출될 수 있는 유전자 및/또는 단백질, 예를 들면 선택 약제를 불활성화하고 상기 약제의 치사 또는 성장-억제 효과로부터 숙주세포를 보호하는 폴리펩티드(예를 들면, 항생물질 내성 유전자 및/또는 단백질)를 말한다. 또 다른 가능성은 상기 선택 마커가 형광 또는 착색을 유도하는 것으로(예를 들면, 녹색형광단백질(GFP) 및 그 유도체 (예를 들면, d2EGFP), 루시페라제, lacZ, 알칼라인 포스파타제 등), 이것은 GFP를 발현하는 세포를 선택하기 위해, 예를 들면 형광 활성화 세포 분별기(FACS)를 사용하여 색의 침착을 유도하는 폴리펩티드를 발현하는 세포를 선택하는데 사용될 수 있다. 바람직하기는, 본 발명에 따른 선택가능한 마커 폴리펩티드는 선택 약제의 치사 및/또는 성장-억제 효과에 대한 내성을 제공한다. 선택가능한 마커 폴리펩티드는 본 발명의 DNA에 의해 암호화된다. 본 발명에 따른 선택가능한 마커 폴리펩티드는 진핵 숙주세포에서 기능성이어야 하고, 따라서 진핵 숙주세포에서 선택될 수 있어야 한다. 이 기준을 만족하는 어느 선택가능한 마커 폴리펩티드는 기본적으로 본 발명에 따라 사용될 수 있다. 이와 같은 선택가능한 마커 폴리펩티드는 본 분야에 잘 알려져 있고 진핵 숙주세포를 얻으려 할 때 일상적으로 사용되고, 몇몇 예가 본 명세서에 제공된다. 특정 구현예에서, 본 발명에서 사용되는 선택 마커는 제오신이다. 다른 구현예에서는 블라스티시딘이 사용된다. 본 분야의 당업자는 다른 선택 마커, 예를 들면, 네오마이신, 퓨로마이신, 블레오마이신, 히그로마이신 등이 이용가능하고 사용될 수 있음을 알 것이다. 다른 구현예에서, 카나마이신이 사용된다. 또 다른 구현예에서, DHFR 유전자가 선택가능한 마커로서 사용되고, 이것은 메토트렉세이트(methotrexate)에 의해, 특히 메토트렉세이트의 농도를 증가시킴에 의해 선택될 수 있고 세포는 DHFR 유전자의 증가된 사본 수에 대해 선택될 수 있다. DHFR 유전자는, 예를 들면, dhfr^- 표현형을 갖는 CHO 세포에서 그리고 폴레이트를 갖고 글리신, 히로크산틴 및 티미딘이 부족한 배지에서, dhfr-부족을 보충하기 위해 사용될 수 있다. 유사하기는, 글루타민 합성효소(GS) 유전자가 사용될 수 있고, 그것을 위해 선택은 불충분한 GS(예를 들면, NS-O 세포)를 갖는 세포에서 글루타민 없이 매질에서 배양함에 의해, 또는 선택적으로 GS가 충분한 세포에서(예를 들면, CHO 세포) GS에 대한 억제제, 메티오닌 술폭시민(MSX)을 첨가함에 의해 가능하다. 다른 사용할 수 있는 선택적인 마커 유전자, 및 그들의 선택 약제는 예를 들면, 본 명세서에 참조로서 병합된 미국특허 제 5,561,053호의 표1에 기재되어 있고; 또한 이들을 검토하기 위해 Kaufman, Methods in Enzymology, 185:537-566 (1990)을 참조하라. 선택가능한 마커 폴리펩티드가 dhfr이면, 바람직하 구현예의 숙주세포는 폴레이트를 함유하는 배지에서 배양되고, 그 배지는 본질적으로 히포크산틴과 티미드, 바람직하기는 또한 글리신이 전혀 없다.The term “selection marker” or “selectable marker” typically inactivates genes and / or proteins whose presence can be detected in the cell, directly or indirectly, such as a selection agent and has a lethal or growth-inhibitory effect of the agent. Polypeptides that protect host cells from (eg, antibiotic resistance genes and / or proteins). Another possibility is that the selection marker induces fluorescence or coloration (eg green fluorescent protein (GFP) and its derivatives (eg d2EGFP), luciferase, lacZ, alkaline phosphatase, etc.), which is GFP In order to select cells expressing VE, it can be used to select cells expressing polypeptides that induce color deposition, for example using a fluorescence activated cell fractionator (FACS). Preferably, the selectable marker polypeptide according to the invention provides resistance to the lethal and / or growth-inhibitory effects of the selected agent. Selectable marker polypeptides are encoded by the DNA of the invention. Selectable marker polypeptides according to the invention must be functional in eukaryotic host cells and therefore be able to be selected in eukaryotic host cells. Any selectable marker polypeptide that meets this criterion can be used in accordance with the present invention. Such selectable marker polypeptides are well known in the art and routinely used to obtain eukaryotic host cells, some examples of which are provided herein. In certain embodiments, the selection marker used in the present invention is zeocin. In another embodiment blasticidine is used. Those skilled in the art will appreciate that other selection markers are available and can be used, such as neomycin, puromycin, bleomycin, hygromycin and the like. In another embodiment, kanamycin is used. In another embodiment, the DHFR gene is used as a selectable marker, which can be selected by methotrexate, in particular by increasing the concentration of methotrexate and the cells can be selected for an increased number of copies of the DHFR gene. have. The DHFR gene can be used to compensate for dhfr-deficiency, for example, in CHO cells with the dhfr ^- phenotype and in media with folate and lacking glycine, hydroxyxanthin and thymidine. Similarly, glutamine synthetase (GS) genes can be used, for which selection is by culturing in a medium without glutamine in cells with insufficient GS (eg NS-O cells), or optionally GS In sufficient cells (eg CHO cells) this is possible by adding an inhibitor to GS, methionine sulfoximine (MSX). Other selectable marker genes, and their selection agents, are described, for example, in Table 1 of US Pat. No. 5,561,053, which is incorporated herein by reference; See also Kaufman, Methods in Enzymology, 185: 537-566 (1990) for a review of these. If the selectable marker polypeptide is dhfr , preferably the host cell of an embodiment is cultured in a medium containing folate, the medium being essentially free of hypoxanthine and thymid, preferably also glycine.

두 개의 다중시스트론성 전사 유니트가 단일 숙주세포에서 본 발명에 따라 선택되어질 때, 각각은 바람직하기는 다른 선택가능한 마커에 대한 암호화 서열을 함유하여, 둘 다의 다중시스트론성 전사 유니트에 대한 선택을 허용한다. 물론, 둘 다의 다중시스트론성 전사 유니트가 하나의 핵산 분자에 존재할 수 있고, 선택적으로 각각이 개별적인 핵산 분자에 존재할 수 있다.When two multicistronic transcriptional units are selected according to the invention in a single host cell, each preferably contains coding sequences for other selectable markers, so that the selection for both multicistronic transcriptional units Allow. Of course, both multicistronic transcriptional units may be present in one nucleic acid molecule, and optionally each may be present in an individual nucleic acid molecule.

용어 "선택"은 통상적으로 선택 마커/선택가능한 마커 및 선택 약제를 사용하여 특정 유전적 특성을 갖는 숙주세포를 동정하는 방법으로 정의된다 (예를 들면, 숙주세포는 그것의 게놈으로 집적된 트란스유전자를 함유한다). 본 분야의 당업자에게 수많은 선택 마커의 결합이 가능하다는 것이 명확하다. 특히 유리한 하나의 항생물질은 제오신으로, 제오신-내성 단백질(zeocin-R)은 약물과 결합하여 약물을 무해하게 작용한다. 그러므로, 고-발현자는 생존시키면서, 낮은 수준의 제오신-R 발현을 갖는 세포를 사멸하는 약물의 양을 적정하는 것을 용이하게 한다. 일반적으로 사용되는 모든 다른 항생물질-내성 단백질은 효소이고, 그러므로, 촉매적으로 작용한다(약물과 1:1이 아니다). 따라서, 항생물질 제오신은 바람직한 선택 마커이다. 또 다른 바람직한 선택 마커는 5,6,7,8-테트라히드로폴레이트 합성 효소(dhfr) 이다. 그러나, 본 발명은 또한 다른 선택 마커에 의해서도 작업된다.The term “selection” is typically defined as a method of identifying host cells with specific genetic properties using selection markers / selectable markers and selection agents (eg, a host cell is a transgene integrated into its genome). It contains). It is clear to those skilled in the art that the combination of a number of selection markers is possible. One particularly advantageous antibiotic is zeosin, and zeocin-R binds to the drug to make the drug harmless. Therefore, high-expressors facilitate survival of titrating the amount of drug that kills cells with low levels of zecin-R expression. All other antibiotic-resistant proteins commonly used are enzymes and, therefore, act catalytically (not 1: 1 with the drug). Thus, antibiotic zeocin is the preferred selection marker. Another preferred selection marker is 5,6,7,8-tetrahydrofolate synthetase (dhfr). However, the present invention also works with other selection markers.

본 발명에 따른 선택가능한 마커 폴리펩티드는 본 발명의 핵산에 의해 암호화되는 단백질로, 상기 폴리펩티드는, 예를 들면, 이것은 항생물질과 같은 선택 약물에 내성을 제공하므로, 선택을 위해 기능적으로 사용될 수 있다. 그러므로, 항생물질이 선택 약물로 사용되면, DNA는 선택 약물에 대한 내성을 제공하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 선택가능한 마커 폴리펩티드이다. 이와 같은 선택가능한 마커 폴리펩티드를 암호화하는 DNA 서열이 알려져 있고, 선택가능한 마커 단백질을 암호화하는 DNA의 야생형 서열의 여러 예가 본 명세서에 제공된다 (예를 들면, 본 명세서에 참조로서 병합된, WO 2006/048459의 도 26 ~ 도 32를 참조하라). 선택가능한 마커의 돌연변이 또는 유도체가 또한 본 발명에 따라 사용하기에 적합하다는 것이 명백하고, 그러므로, 상기 선택가능한 마커 단백질이 여전히 기능적인 한, 용어 '선택가능한 마커 폴리펩티드'의 범위에 속한다.Selectable marker polypeptides according to the invention are proteins encoded by the nucleic acids of the invention, which polypeptides can be used functionally for selection, for example, because they provide resistance to selection drugs such as antibiotics. Therefore, when antibiotics are used as the selection drug, the DNA encodes a polypeptide that provides resistance to the selection drug and the polypeptide is a selectable marker polypeptide. DNA sequences encoding such selectable marker polypeptides are known and several examples of wild-type sequences of DNA encoding selectable marker proteins are provided herein (eg, WO 2006 /, incorporated herein by reference). See FIGS. 26-32 of 048459). It is evident that mutations or derivatives of the selectable markers are also suitable for use according to the invention and, therefore, so long as the selectable marker protein is still functional, it is within the scope of the term 'selectable marker polypeptide'.

편리함을 위해 그리고 당업자에게 일반적으로 허용되는 바와 같이, 본 명세서뿐만 아니라 많은 문헌에서, 종종 선택 약제에 대한 내성을 암호화하는 유전자와 단백질은 비록 공식 명칭은 다르지만, 각각 '선택가능한 약물 (내성) 유전자' 또는 '선택 약물 (내성) 단백질'로 불리고, 예를 들면 네오마이신(뿐 아니라 G418와 카나마이신)에 대한 내성을 제공하는 단백질을 암호화하는 유전자는 종종 네오마이신 (내성) (또는 neo^r) 유전자로 언급되는 반면, 공식적 명칭은 아미노글리코시드 3'-포스포트란스퍼라제이다.For convenience and as generally accepted by one of ordinary skill in the art, in this document as well as in many documents, genes and proteins that often encode resistance to a selection agent are each 'selectable drug (resistant) gene', although with different official names. Or 'selective drug (resistant) proteins', for example genes encoding proteins that provide resistance to neomycin (as well as G418 and kanamycin) are often referred to as neomycin (resistant) (or neo ^r ) genes. While the official name is aminoglycoside 3'-phosphortransferase.

본 발명의 경우, 선택가능한 마커 폴리펩티드의 발현 수준이 낮은 것이 유리하고, 따라서 엄격한 선택이 가능하다. 본 발명에서, 비-ATG 시작코돈을 갖는 선택가능한 마커 암호화 서열을 사용하여 얻어진다. 선택 후, 그럼에도 불구하고 선택가능한 마커 폴리펩티드의 충분한 수준을 갖는 세포들만이 선택될 수 있고, 이것은 이와 같은 세포가 다중시스트론성 전사 유니트의 충분한 전사와 선택가능한 마커 폴리펩티드의 충분한 번역을 가져야 하고, 이것은 다중시스트론성 전사 유니트가 집적된 또는 그렇지 않으면 이 전사 유니트로부터의 발현 수준이 높은 곳에서 숙주세포에 존재하는 세포에 대한 선택을 제공한다는 것을 의미한다. In the case of the present invention, it is advantageous for the expression level of the selectable marker polypeptide to be low, thus enabling strict selection. In the present invention, a selectable marker coding sequence having a non-ATG start codon is obtained. After selection, only cells with a sufficient level of selectable marker polypeptide can nevertheless be selected, which means that such cells must have sufficient transcription of the multicistronic transcriptional unit and sufficient translation of the selectable marker polypeptide, which This means that the multicistronic transcriptional unit provides a selection for the cells present in the host cell where the level of expression from the integrated or otherwise high transcriptional unit is high.

본 발명에 따른 DNA 분자는 관심의 폴리펩티드에 대한 암호화 서열의 선택가능한 마커 폴리펩티드 하류에 대한 암호화 서열을 갖는다. 따라서, 다중시스트론성 전사 유니트는 5'에서 3' 방향으로(DNA의 전사된 가닥과 그 결과 전사된 RNA 모두에서) 관심의 폴리펩티드를 암호화하는 서열과 선택가능한 마커 폴리펩티드에 대한 암호화 서열을 포함한다. The DNA molecule according to the invention has a coding sequence for the selectable marker polypeptide downstream of the coding sequence for the polypeptide of interest. Thus, the multicistronic transcriptional unit comprises a sequence encoding the polypeptide of interest in the 5 'to 3' direction (both in the transcribed strand of DNA and consequently transcribed RNA) and the coding sequence for the selectable marker polypeptide. .

본 발명에 따라, 관심의 유전자의 암호화 영역은 바람직하기는 cap-의존 ORF로부터 번역되고, 그리고 관심의 폴리펩티드는 충분히 생성된다. 선택가능한 마커 폴리펩티드는 IRES로부터 번역된다. 선택가능한 마커 시스트론의 번역을 감소시키기 위해, 본 발명에 따라, 선택가능한 마커 폴리펩티드에 대해 암호화하는 핵산 서열은 진핵 숙주세포에서 선택가능한 마커 폴리펩티드의 번역 개시 효율을 감소시키는 시작코돈에서의 돌연변이를 포함한다. 바람직하기는, GTG 시작코돈 또는 더욱 바람직하기는 TTG 시작코돈은 선택가능한 마커 폴리펩티드로 설계된다. 번역 효율 은 동일 세포에서 상응하는 야생형 서열의 효율보다 낮고, 즉 돌연변이는 세포/시간 당 폴리펩티드를 덜 가져오고, 따라서 선택가능한 마커 폴리펩티드를 덜 가져온다.According to the invention, the coding region of the gene of interest is preferably translated from a cap-dependent ORF, and the polypeptide of interest is produced sufficiently. Selectable marker polypeptides are translated from IRES. In order to reduce the translation of the selectable marker cistron, according to the present invention, the nucleic acid sequence encoding for the selectable marker polypeptide comprises a mutation in the start codon that reduces the translation initiation efficiency of the selectable marker polypeptide in the eukaryotic host cell. do. Preferably, the GTG start codon or more preferably the TTG start codon is designed as a selectable marker polypeptide. The translational efficiency is lower than that of the corresponding wild type sequence in the same cell, ie the mutation results in less polypeptide per cell / hour, and therefore less selectable marker polypeptide.

번역 시작 서열은 종종 본 분야에서 '코자크(Kozak) 서열'로 불리고, 최적의 코자크 서열은 RCCATGG이고, 시작코돈은 밑줄그어졌고, R은 퓨린이고, 즉 A 또는 G이다 (Kozak M, 1986, 1987, 1989, 1990, 1997, 2002 참조). 그러므로, 개시코돈 자체 이외에, 그것의 컨텍스트, 특히 뉴클레오티드 -3 내지 -1 그리고 +4이 중요하고, 최적의 번역 시작서열은 최적의 컨텍스트(즉, RCC가 직접 선행되고 G가 바로 뒤따르는 ATG)에 최적의 시작코돈(즉, ATG)를 포함한다. 리보솜에 의한 번역은 최적 코자크 서열이 존재할 때 가장 효율적이다(Kozak M, 1986, 1987, 1989, 1990, 1997, 2002 참조). 그러나, 사상의 작은 비율에서, 비-최적 번역 개시 서열이 인식되고 리보솜에 의해 번역을 개시하도록 사용된다. 본 발명은 이 원리를 사용하고 번역의 양을 감소시키고 심지어 미세조정하여 선택가능한 마커 폴리펩티드를 발현시키고, 이것은 그러므로 선택 시스템의 엄격성을 증가시킨다. The translation start sequence is often referred to in the art as the 'Kozak sequence' and the optimal cossack sequence is RCC ATG G, the start codon is underlined, R is purine, ie A or G (Kozak M , 1986, 1987, 1989, 1990, 1997, 2002). Therefore, in addition to the initiation codon itself, its context, in particular nucleotides -3 to -1 and +4, is important, and the optimal translation initiation sequence is in the optimal context (i.e., ATG directly preceded by RCC and immediately followed by G). Optimal start codons (ie, ATG). Translation by ribosomes is most efficient when there is an optimal Cossack sequence (see Kozak M, 1986, 1987, 1989, 1990, 1997, 2002). However, in a small proportion of events, non-optimal translation initiation sequences are recognized and used to initiate translation by ribosomes. The present invention uses this principle and reduces the amount of translation and even fine tunes to express selectable marker polypeptides, which thus increases the stringency of the selection system.

본 발명의 선택가능한 마커 폴리펩티드의 ATG 시작코돈은 또 다른 코돈, 예를 들면, GTG, TTG, CTG, ATT, 또는 ACG (본 명세서에서 모두 함께 '비-ATG 시작 코돈'으로 불린다)로 돌연변이되고, 이것은 약간의 번역 개시를 제공하는 것으로 보고된 바 있다. 바람직한 구현예에서, ATG 시작코돈은 GTG 시작코돈으로 돌연변이된다. 이것은 비-최적 컨텍스트인 것을 제외하고는 손상되지 않은 ATG 시작코돈에 의한 것보다 여전히 낮은 발현 수준(낮은 번역)을 제공한다. 더욱 바람직하기는, ATG 시작코돈은 TTG 시작코돈으로 돌연변이되고, 이것은 GTG 시작코돈에 의한 것 보다도 더 낮은 선택가능한 마커 폴리펩티드의 발현수준을 제공한다((Kozak M, 1986, 1987, 1989, 1990, 1997, 2002; 또한 본 명세서에 참조로 병합된 WO 2006/048459의 실시예 9~13 참조). 본 발명에 따른 다중시스트론성 전사 유니트에서 선택가능한 마커 폴리펩티드에 대한 암호화 서열에서의 비-ATG 시작코돈의 사용은 선행기술분야에 기재되지도 제안되지도 않았고, 본 명세서에 참조로서 기재된 WO 2006/048459에 나타난 바와 같이, 바람직하기는 크로마틴 조절 요소와 결합하여, 관심의 폴리펩티드의 매우 높은 수준의 발현을 가져왔다ATG start codons of the selectable marker polypeptides of the invention are mutated to another codon, eg, GTG, TTG, CTG, ATT, or ACG (all together herein referred to as 'non-ATG start codons'), This has been reported to provide some initiation of translation. In a preferred embodiment, the ATG start codon is mutated to a GTG start codon. This still provides a lower expression level (lower translation) than by an intact ATG start codon, except in a non-optimal context. More preferably, the ATG start codon is mutated to a TTG start codon, which gives a lower level of expression of the selectable marker polypeptide than by the GTG start codon (Kozak M, 1986, 1987, 1989, 1990, 1997). , 2002; see also Examples 9-13 of WO 2006/048459, incorporated herein by reference.Non-ATG start codons in the coding sequence for a selectable marker polypeptide in a multicistronic transcriptional unit according to the invention. The use of has not been described or suggested in the prior art and, as indicated in WO 2006/048459 described herein by reference, preferably in combination with chromatin regulatory elements, very high levels of expression of the polypeptide of interest Brought

본 발명에 따른 비-ATG 시작코돈의 사용을 위해, 이와 같은 시작코돈에 대한 최적의 컨텍스트를 제공하는 것이 매우 바람직하고, 즉, 비-ATG 시작코돈은 바람직하기는 위치 -3 에서 -1의 뉴클레오티드 RCC가 직접 선행되고 G 뉴클레오티드(위치 +4)가 바로 따라오는 것이 바람직하다. 그러나, 서열 TTTGTGG (시작코돈은 밑줄그어짐)을 사용하여, 비록 비-ATG 시작 코돈을 위한 최적의 컨텍스트를 제공하기 위해 절대적으로 요구되는 것이 매우 바람직하지만, 몇몇 개시가 적어도 인 비트로에서 관찰된다는 것이 보고되어 왔다.For the use of non-ATG start codons according to the invention, it is highly desirable to provide an optimal context for such start codons, ie the non-ATG start codons are preferably nucleotides of position -3 to -1 It is preferred that the RCC is directly preceded and followed immediately by G nucleotides (position +4). However, using the sequence TTT GTG G (start codon is underlined) it is highly desirable that some disclosures be observed at least in vitro, although it is highly desirable to provide the optimal context for non-ATG start codons. Has been reported.

ATG 시작코돈을 제외하고, 폴리펩티드에 대한 암호화 서열 내의 ATG 서열은 '내부 ATG'로 불리고, 이들이 ORF를 갖는 프레임에 있고 따라서 메티오닌에 대해 암호화한다면, 폴리펩티드 중의 생성된 메티오닌은 '내부 메티오닌'으로 언급된다. WO 2006/048459의 발명에서, 선택가능한 마커 폴리펩티드를 암호화하는 암호 영역(시작코돈을 뒤따르고, 시작코돈을 반드시 포함하지 않음)은, 관심의 폴리펩티드의 시작코돈까지(그러나 포함하지는 않고) DNA의 암호화 가닥의 어느 ATG 서열이 전혀 없다. WO 2006/048459호는 이것을 가져오는 방법과 생성된 선택가능한 마커 폴리펩티드를 기능성에 대해 시험하는 방법을 기재한다. 본 발명을 위해, 선택가능한 마커 폴리펩티드 암호화 서열이 IRES의 하류이고 관심의 폴리펩티드에 대한 암호화 서열의 하류에 있는 경우, 선택가능한 마커 폴리펩티드를 암호화하는 서열에서의 내부 ATG는 손상되지 않고 남을 수 있다.Except for the ATG start codon, the ATG sequence in the coding sequence for the polypeptide is called 'internal ATG' and if they are in the frame with the ORF and thus encode for methionine, the resulting methionine in the polypeptide is referred to as 'internal methionine' . In the invention of WO 2006/048459, the coding region encoding the selectable marker polypeptide (following the start codon and not necessarily comprising the start codon) encodes the DNA up to (but not including) the start codon of the polypeptide of interest. There is no ATG sequence in the strand at all. WO 2006/048459 describes how to bring about this and how to test the resulting selectable marker polypeptide for functionality. For the present invention, when the selectable marker polypeptide coding sequence is downstream of IRES and downstream of the coding sequence for the polypeptide of interest, the internal ATG in the sequence encoding the selectable marker polypeptide may remain intact.

분명하게, 본 발명에 따라, 관심의 폴리펩티드의 번역 시작 서열이 최적 번역 개시 서열, 즉 합의 서열 RCCATGG (시작코돈은 밑줄)을 갖는 서열을 포함하는 것이 매우 바람직하다. 이것은 관심의 폴리펩티드의 매우 효율적인 번역을 가져올 것이다. Obviously, according to the invention, it is highly preferred that the translation start sequence of the polypeptide of interest comprises an optimal translation start sequence, ie, a sequence having the consensus sequence RCC ATG G (start codon is underlined). This will result in very efficient translation of the polypeptide of interest.

마커의 암호화 서열에 감소된 번역 효율의 여러 수준을 가져오는 다양한 돌연변이를 제공함에 의해, 선택의 엄격성이 증가된다. 따라서, 선택 시스템의 미세조정은 본 발명에 따른 다중시스트론성 전사 유니트를 사용하여 가능하다: 예를 들면, 선택 마커 폴리펩티드에 대한 GTG 시작코돈을 사용하여, 이 시작코돈으로부터 극소의 리보솜이 번역되어, 선택가능한 마커 단백질의 낮은 수준, 따라서 엄격성이 높은 선택을 생성하고; 더 적은 리보솜이 이 시작코돈으로부터 선택가능한 마커 폴리펩티드를 번역할 것이기 때문에 TTG 시작 코돈을 사용하여 선택의 엄격성을 더욱 증가시킨다.The stringency of the selection is increased by providing a variety of mutations that result in different levels of reduced translation efficiency in the coding sequence of the marker. Thus, fine tuning of the selection system is possible using the multicistronic transcriptional unit according to the invention: for example, using a GTG start codon for the selection marker polypeptide, very few ribosomes are translated from this start codon. Produces a low level of selectable marker protein, and thus a high stringency selection; TTG start codons are used to further increase the stringency of selection since fewer ribosomes will translate selectable marker polypeptides from these start codons.

본 명세서에 참조로서 병합된 WO 2006/048459에서, 기재된 다중시스트론성 발현 유니트는 매우 확실한 선택 시스템에서 사용되어, 필요에 따라 높은 수준으로 관심의 폴리펩티드를 발현하는 클론을 매우 큰 비율로 가져온다는 것이 증명되었다. 이에 더하여, 관심의 폴리펩티드에 대해 얻어진 발현 수준은 더 많은 수의 클론이 지금까지 알려진 선택 시스템을 사용하여 스크린 되었을 때 얻어진 것보다 상당히 높을 것이다. In WO 2006/048459, incorporated herein by reference, the multicistronic expression units described are used in very robust selection systems, resulting in a very large proportion of clones expressing polypeptides of interest at high levels as needed. Proved. In addition, the expression level obtained for the polypeptide of interest will be significantly higher than that obtained when a larger number of clones were screened using a selection system known to date.

감소된 번역 개시 효율에 더하여, 필요에 따라 마커 폴리펩티드의 번역 수준을 더욱 감소시키고 여전히 더욱 엄격한 선택 조건을 허용하도록 하기 위해, 숙주 세포의 여러 바람직하지 않은 코돈을 포함하도록, 예를 들면 그것의 암호화 서열을 돌연변이하여 선택가능한 마커 폴리펩티드의 감소된 번역 연장 효율을 제공하도록 하는 것이 더욱 유리할 수 있다. 특정 구현예에서, 본 발명에 따라 번역 효율을 감소시키는 돌연변이 이외에, 선택가능한 마커 폴리펩티드는 추가로, 선택가능한 마커 폴리펩티드의 활성을 그것의 야생형 등가물(counterpart)에 비교해 감소시키는 돌연변이를 포함한다. 이것은 선택의 엄격성을 더욱 증가시키기 위해 사용될 수 있다. 비-제한적 예로서, 제오신 내성 폴리펩티드의 위치 9에서의 프롤린은 예를 들면, Thr 또는 Phe으로 돌연변이될 수 있고 (예를 들면, 본 명세서에 참조로서 병합된 WO 2006/048459의 실시예 14를 참조), 그리고 네오마이신 내성 폴리펩티드인 경우, 아미노산 잔기 182 또는 261 또는 둘 다가 더욱 돌연변일 될 수 있다(예를 들면, WO 01/32901 참조).In addition to the reduced translation initiation efficiency, it is possible to include several undesired codons of the host cell, for example its coding sequence, in order to further reduce the translational level of the marker polypeptide and still allow for more stringent selection conditions as needed. It may be more advantageous to mutate to provide reduced translational extension efficiency of the selectable marker polypeptide. In certain embodiments, in addition to the mutations that reduce translation efficiency in accordance with the present invention, the selectable marker polypeptide further includes a mutation that reduces the activity of the selectable marker polypeptide relative to its wild type counterpart. This can be used to further increase the stringency of the selection. As a non-limiting example, the proline at position 9 of the zeocin resistant polypeptide can be mutated to, for example, Thr or Phe (eg, see Example 14 of WO 2006/048459, incorporated herein by reference). And, in the case of neomycin resistant polypeptides, amino acid residues 182 or 261 or both may be further mutated (see, for example, WO 01/32901).

본 발명의 몇몇 구현예에서, 소위 스페이서 서열이 선택가능한 마커 폴리펩티드의 시작코돈을 암호화하는 서열의 하류에 놓이고, 그 스페이서 서열은 바람직하기는 프레임에 시작코돈을 갖고 약간의 아미노산을 암호화하는 서열이고, 이차 구조를 함유하지 않는 것이다(Kozak, 1990). 이와 같은 스페이서 서열은, 2차 구조물이 선택가능한 마커 폴리펩티드의 RNA(Kozak, 1990)에 존재한다면, 번역 개시 빈도를 더욱 감소시키고(예를 들면, 제오신의 경우, 가능하기는 블라스티시딘의 경우), 따라서 본 발명에 따른 선택 시스템의 엄격성을 증가시키는데 사용될 수 있다(예를 들면, 본 명세서에 참조로서 병합된 WO 2006/048459의 실시예 14를 참조).In some embodiments of the invention, the so-called spacer sequence lies downstream of the sequence encoding the start codon of the selectable marker polypeptide, which spacer sequence is preferably a sequence having a start codon in the frame and encoding some amino acids. It does not contain secondary structure (Kozak, 1990). Such spacer sequences further reduce translation initiation frequency (eg, in the case of zeosin, if possible, if the secondary construct is present in the RNA of the selectable marker polypeptide (Kozak, 1990)). If so, it can therefore be used to increase the stringency of the selection system according to the invention (see eg, Example 14 of WO 2006/048459, incorporated herein by reference).

선택가능한 마커 단백질을 암호화하는 제1 ATG(시작코돈)의 하류방향 서열에 돌연변이를 갖는 것을 제외하고는 기재된 바와 같은 어느 DNA 분자가 또한 사용될 수 있고 그러므로 또한 각각의 암호화된 선택가능한 마커 단백질이 여전히 활성인 한, 본 발명에 포함된다. 예를 들면, 유전적 코드의 과잉 때문에 암호화된 단백질을 변화시키지 않는 어느 무증상 돌연변이가 또한 포함될 수 있다. 또한 온전한 아미노산 돌연변이를 가져오거나 또는 다른 돌연변이를 가져오는 추가의 돌연변이가, 암호화된 단백질이 여전히 활성인 한, 포함될 수 있고, 이것은 표시된 서열에 의해 암호화된 바와 같이 야생형 단백질의 활성보다 낮거나 또는 낮지 않을 수 있다. 특히, 암호화된 단백질은 각각의 표시된 서열에 의해 암호화된 단백질(예를 들면, 본 발명의 서열 목록에서 SEQ ID NOs. 68-80로 제공된 바와 같이)에 대해 적어도 70%, 바람직하기는 적어도 80%, 더욱 바람직하기는 적어도 90%, 더욱 바람직하기는 적어도 95% 동일한 것이 바람직하다. 선택가능한 마커 단백질의 활성에 대한 시험은 일상적인 방법으로 수행될 수 있다. Any DNA molecule as described may also be used except that it has a mutation in the downstream sequence of the first ATG (starting codon) that encodes the selectable marker protein and therefore each encoded selectable marker protein is still active It is included in the present invention. For example, any asymptomatic mutation that does not change the encoded protein due to excess of the genetic code can also be included. In addition, additional mutations resulting in intact amino acid mutations or other mutations may be included, as long as the encoded protein is still active, which may be less or less than the activity of the wild-type protein as encoded by the indicated sequence. Can be. In particular, the encoded protein is at least 70%, preferably at least 80% relative to the protein encoded by each indicated sequence (e.g., as provided in SEQ ID NOs. 68-80 in the Sequence Listing of the present invention). More preferably at least 90%, more preferably at least 95% identical. Testing for the activity of the selectable marker protein can be performed by routine methods.

본 발명의 바람직한 면은 다중시스트론성 전사 유니트를 갖는, 본 발명에 따른 DNA 분자를 포함하는 발현 카세트를 제공하는 것이다. 이와 같은 발현 카세트는 예를 들면, 숙주 세포에서 관심의 서열을 발현하는데 유용하다. 본 명세서에서 사용되는 바와 같은 발현 카세트는 발현이 요구되는 서열에 기능적으로 연결된 적어도 하나의 프로모터를 포함하는 핵산이다. 바람직하기는, 발현 카세트는 추가로 전사 종결과 폴리아데닐화 반응 서열을 함유한다. 인핸서와 같은 다른 조절 서열이 또한 포함될 수 있다. 따라서, 본 발명은 다음의 순서로 포함하는 발현 카세트를 제공한다: 5'-프로모터-본 발명에 따른 다중시스트론성 전사 유니트-전사 종결 서열-3'. 프로모터는 진핵 숙주세포에서 작용할 수 있고, 즉, 다중시스트론성 전사 유니트의 전사를 구동할 수 있어야 한다. 그러므로 프로모터는 다중시스트론성 전사 유니트에 기능적으로 연결된다. 발현 카세트는 임의로 본 분야에 알려진 다른 요소들, 예를 들면 인트론 등을 포함하기 위한 접합부위를 추가로 함유할 수 있다. 몇몇의 구현예에서, 인트론은 프로모터의 뒤 그리고 관심의 폴리펩티드를 암호화하는 서열의 앞에 존재한다. IRES는 선택가능한 마커 폴리펩티드 암호화 서열을 함유하는 시스트론에 기능적으로 연결된다. 추가의 구현예에서, 제2의 선택가능한 마커를 암호화하기 위한 서열이 다중시스트론성 전사 유니트에 존재한다(즉, 이것은 이들 구현예에서 적어도 삼중시스트론성 전사 유니트이다). 그것의 바람직한 구현예에서, 제2 선택가능한 마커 폴리펩티드를 암호화하는 상기 서열은: a) 관심의 폴리펩티드의 것과 구별되는 전사 개시 서열을 갖고, b) 관심의 폴리펩티드를 암호화하는 상기 서열의 상류에 위치하고, c) 상기 제2 선택가능한 마커 폴리펩티드의 시작코돈에 이어진 암호화 가닥에서 관심의 폴리펩티드의 시작 코돈까지 ATG 서열이 없고, 그리고 d) 비-최적 전사 시작 서열, 예를 들면, GTG 시작코돈 또는 TTG 시작코 돈을 갖는다. 이와 같은 구현예에서, 바람직한 선택가능한 마커 폴리펩티드는 5,6,7,8-테트라히드로폴레이트 합성 효소(dhfr)이다. 이것은, 실시예 2의 예시와 같이, 관심의 폴리펩티드의 고수준 발현을 연속적으로 선택할 수 있게 한다. A preferred aspect of the present invention is to provide an expression cassette comprising a DNA molecule according to the present invention having a multicistronic transcriptional unit. Such expression cassettes are useful for, for example, expressing a sequence of interest in a host cell. An expression cassette as used herein is a nucleic acid comprising at least one promoter functionally linked to a sequence in which expression is required. Preferably, the expression cassette further contains transcription termination and polyadenylation reaction sequences. Other regulatory sequences such as enhancers can also be included. Accordingly, the present invention provides an expression cassette comprising the following sequence: 5'-promoter-multicystronic transcriptional unit-transcription termination sequence-3 'according to the present invention. The promoter must be able to act in eukaryotic host cells, ie drive the transcription of multicistronic transcriptional units. The promoter is therefore functionally linked to the multicystronic transfer unit. The expression cassette may optionally further contain a junction to include other elements known in the art, such as introns and the like. In some embodiments, the intron is behind the promoter and before the sequence encoding the polypeptide of interest. IRES is functionally linked to a cistron containing a selectable marker polypeptide coding sequence. In further embodiments, the sequence for encoding the second selectable marker is in a multicistronic transcriptional unit (ie, it is at least tricistronic transcriptional unit in these embodiments). In its preferred embodiment, said sequence encoding the second selectable marker polypeptide is: a) has a transcription initiation sequence that is distinct from that of the polypeptide of interest, b) is located upstream of the sequence encoding the polypeptide of interest, c) there is no ATG sequence from the coding strand following the start codon of the second selectable marker polypeptide to the start codon of the polypeptide of interest, and d) a non-optimal transcription start sequence, eg, a GTG start codon or a TTG start codon. Have money In such embodiments, the preferred selectable marker polypeptide is 5,6,7,8-tetrahydrofolate synthetase (dhfr). This allows for continuous selection of high level expression of the polypeptide of interest, as in the example of Example 2.

단백질을 암호화하는 핵산 서열의 발현을 얻기 위해, 본 분야의 당업자들에게 이와 같은 발현을 구동할 수 있는 서열이 단백질을 암호화하는 핵산 서열에 기능적으로 연결되어 있고, 발현가능한 포맷에서 단백질을 암호화하는 재조합 핵산 분자를 가져온다는 것이 잘 알려져 있다. 본 발명에서, 발현 카세트는 다중시스트론성 전사 유니트를 포함한다. 일반적으로, 프로모터 서열은 발현되어질 서열의 상류에 위치한다. 더 많이 사용된 발현벡터가 본 분야에 이용가능하고, 예를 들면, 인비트로겐의 pcDNA 및 pEF 벡터 시리즈, BD Sciences의 pMSCV와 pTK-Hyg, Stratagene 등의 pCMV-스크립트 등으로, 이것은 적합한 프로모터 및/또는 전사 종결 서열, polyA 서열 등을 얻는데 사용될 수 있다.To obtain expression of a nucleic acid sequence encoding a protein, to those skilled in the art, a sequence capable of driving such expression is functionally linked to the nucleic acid sequence encoding the protein, and recombinant to encode the protein in an expressible format. It is well known to bring in nucleic acid molecules. In the present invention, the expression cassette comprises a multicistronic transcriptional unit. In general, the promoter sequence is located upstream of the sequence to be expressed. More used expression vectors are available in the art and include, for example, invitrogen's pcDNA and pEF vector series, BD Sciences' pMSCV and pCMV-scripts such as pTK-Hyg, Stratagene, etc., which are suitable promoters and / Or a transcription termination sequence, polyA sequence, or the like.

관심의 폴리펩티드를 암호화하는 서열이 암호화된 폴리펩티드의 전사 및 번역을 지배하는 서열에 대해 적절히 삽입된 경우, 생성된 발현 카세트는 발현으로 불리는, 관심의 폴리펩티드의 생산에 유용하다. 발현을 구동하는 서열은 프로모터, 인핸서 등, 그리고 그들의 혼합물을 포함할 수 있다. 이들은 숙주세포에서 작용할 수 있어야 하고, 그것에 의해 그들에 기능적으로 연결된 핵산 서열의 발현을 구동한다. 본 분야의 당업자는 여러 프로모터가 숙주세포에서 유전자의 발현을 얻기 위해 사용된다는 것을 이해할 것이다. 프로모터는 본질적이거나 또는 조절되고, 바이러스, 원핵생물 또는 진핵생물 기원, 또는 인공적으로 고안된 것을 포함하여 여러 기원으로부터 얻을 수 있다. 관심의 핵산의 발현은 천연 프로모터 또는 그들의 유도체로부터 또는 전적으로 이형성 프로모터로부터 일 수 있다(Kaufman, 2000). 본 발명에 따르면, 진핵 세포에서 높은 전사 수준을 제공하는 강한 프로모터가 바람직하다. 적합한 프로모터는 당업자들에게 잘 알려져 있고 이용가능하고, 몇몇은 본 명세서에 참조로서 병합된 WO 2006/048459 (예를 들면, page 28-29)에 기재되어 있고, CMV 중간체 초기 (IE) 프로모터(CMV 프로모터로 명명) (예를 들면, pcDNA, Invitrogen으로부터 얻을 수 있다)와 다른 여러 가지를 포함한다.When the sequence encoding the polypeptide of interest is properly inserted into the sequence that governs the transcription and translation of the encoded polypeptide, the resulting expression cassette is useful for the production of the polypeptide of interest, called expression. Sequences that drive expression can include promoters, enhancers, and the like, and mixtures thereof. They must be able to function in the host cell, thereby driving the expression of nucleic acid sequences functionally linked to them. Those skilled in the art will appreciate that several promoters are used to obtain expression of genes in host cells. Promoters are intrinsic or regulated and can be obtained from a variety of sources, including those of viral, prokaryotic or eukaryotic origin, or artificially designed. Expression of the nucleic acid of interest can be from a natural promoter or derivative thereof or entirely from a heterologous promoter (Kaufman, 2000). According to the present invention, strong promoters that provide high levels of transcription in eukaryotic cells are preferred. Suitable promoters are well known and available to those skilled in the art, some are described in WO 2006/048459 (eg, pages 28-29), incorporated herein by reference, and CMV intermediate initial (IE) promoters (CMV). Naming promoters (eg, from pcDNA, Invitrogen) and many others.

특정 구현예에서, 본 발명에 따른 DNA 분자는 벡터의 일부, 예를 들면, 플라스미드이다. 이와 같은 벡터는 본 분야의 당업자에게 잘 알려진 방법에 의해 용이하게 조작되고, 예를 들면, 원핵 및/또는 진핵 세포에서 복제될 수 있도록 고안될 수 있다. 이에 더하여, 많은 벡터들이 직접적으로 또는 그로부터 단리된 원하는 단편의 형태로 진핵세포의 변형에 사용되고 그리고 이와 같은 세포의 게놈으로 전체 또는 일부가 병합되어, 그들의 게놈에 원하는 핵산을 포함하는 안정한 숙주세포를 가져온다. In certain embodiments, the DNA molecule according to the invention is part of a vector, eg, a plasmid. Such vectors can be readily manipulated by methods well known to those skilled in the art and can be designed to replicate, for example, in prokaryotic and / or eukaryotic cells. In addition, many vectors are used for the modification of eukaryotic cells either directly or in the form of the desired fragments isolated therefrom and in whole or in part merged into the genome of such cells, resulting in stable host cells containing the desired nucleic acid in their genome. .

통상의 발현 시스템은 재조합 플라스미드 또는 재조합 바이러스성 게놈 형태의 DNA 분자이다. 플라스미드 또는 바이러스성 게놈은 (진핵 숙주)세포에 도입되고 바람직하기는 본 분야에 알려진 방법에 의해 그들의 게놈에 병합되고, 그들의 여러 면은 본 명세서에 참조로서 병합된 WO 2006/048459 (예를 들면, page. 30-31)에 기재되어 있다. Conventional expression systems are DNA molecules in the form of recombinant plasmids or recombinant viral genomes. Plasmids or viral genomes are introduced into (eukaryotic host) cells and are preferably incorporated into their genomes by methods known in the art, many of which are incorporated herein by reference in WO 2006/048459 (eg, pages 30-31).

크로마틴 구조와 다른 후생적 조절 메카니즘은 진핵세포에서의 트란스유전자 의 발현에 영향을 미칠 수 있다는 것이 널리 이해된다(예를 들면, Whitelaw et al, 2001). 본 발명에 따른 다중 시스트론성 발현 유니트는 오히려 엄격한 선택 상황을 갖는 선택 시스템의 일부를 형성한다. 이것은 일반적으로 선택의 숙주세포에서 높은 전사 수준을 요구한다. 엄격한 선택 상황을 생존하는 숙주세포의 클론을 발견할 기회를 증가시키기 위해, 그리고 가능하기는 얻어진 클론에서 발현의 안정성을 증가시키기 위해, 전사의 예측가능성을 증가시키는 것이 일반적으로 바람직하다. 그러므로, 바람직한 구현예에서, 본 발명에 따른 발현 카세트는 추가로 적어도 하나의 크로마틴 조절 요소를 포함한다. 본 명세서에 사용되는 바와 같은 크로마틴 조절 요소는 크로마틴 구조 및 진핵세포 내에서 그들의 부근(그들은 '인 시스' 작용을 하고, 그러므로 트란스 유전자로부터 바람직하기는 5kb 이내, 더욱 바람직하기는 2kb 이내, 더욱 바람직하기는 1kb 이내에 놓인다)에서 발현수준 및/또는 트란스유전자의 발현 안정성에 어느 정도 영향을 미칠 수 있다. 이와 같은 요소들은 때때로 원하는 수준의 트란스 유전자 발현을 갖는 클론의 수를 증가시키는데 사용되었다. 본 명세서에 따라 사용될 수 있는 이와 같은 요소들의 몇몇 타입은, 본 명세서에 참조로서 병합된 WO 2006/048459(예를 들면, page 32-34)에 기재되고, 그리고 본 발명의 목적을 위해, 크로마틴 조절 요소는, 매트릭스 또는 골격 부착 영역(MARs/SARs), 베타-글로빈 절연체 요소(닭 베타-글로빈 로커스의 5'HS4), scs, scs' 등과 같은 절연체, 편재성 크로마틴 개방 요소(UCOE), 및 항-억제제 서열(또한, 'STAR' 서열로도 불리운다)로 이루어진 군으로부터 선택된다.It is widely understood that chromatin structure and other epigenetic regulatory mechanisms can affect the expression of transgenes in eukaryotic cells (eg, Whitelaw et al, 2001). Multiple cistronic expression units according to the invention form part of a selection system with rather stringent selection situations. This generally requires high levels of transcription in the host cell of choice. It is generally desirable to increase the predictability of transcription in order to increase the chance of discovering clones of host cells that survive stringent selection situations, and possibly to increase the stability of expression in the clones obtained. Therefore, in a preferred embodiment, the expression cassette according to the invention further comprises at least one chromatin regulatory element. Chromatin regulatory elements, as used herein, have chromatin structure and their vicinity in the eukaryotic cells (they have 'in cis' action and are therefore preferably within 5 kb, more preferably within 2 kb, more preferably from the transgene. Preferably lies within 1 kb) to some extent on the expression level and / or the expression stability of the transgene. Such elements were sometimes used to increase the number of clones with the desired level of trans gene expression. Some types of such elements that can be used in accordance with the present specification are described in WO 2006/048459 (eg, pages 32-34), incorporated herein by reference, and for the purposes of the present invention, chromatin Regulatory elements include matrix or skeletal attachment regions (MARs / SARs), beta-globin insulator elements (5'HS4 of the chicken beta-globin locus), scs, scs' and the like, ubiquitous chromatin open elements (UCOE), and Anti-inhibitor sequences (also called 'STAR' sequences).

바람직하기는, 상기 크로마틴 조절 요소는 항-억제제 서열이고, 바람직하기 는: a) SEQ. ID. NO. 1 내지 SEQ. ID. NO. 66 중 어느 하나; b) SEQ. ID. NO. 1 내지 SEQ. ID. NO. 66 중 어느 하나의 단편 (여기서 상기 단편은 항-억제제 활성을 갖는다) ('기능적 단편'); c) 뉴클레오티드 서열에서 a) 또는 b)와 적어도 70% 동일한 서열 (여기서 상기 서열은 항-억제 활성을 갖는다) ('기능적 단편'); 및 d) a) 내지 c) 중 어느 하나의 보체로 이루어진 군으로부터 선택된다. 바람직하기는, 상기 크로마틴 조절 요소는 STAR67 (SEQ. ID. NO. 66), STAR7 (SEQ. ID. NO. 7), STAR9 (SEQ. ID. NO. 9), STAR17 (SEQ. ID. NO. 17), STAR27 (SEQ. ID. NO. 27), STAR29 (SEQ. ID. NO. 29), STAR43 (SEQ. ID. NO. 43), STAR44 (SEQ. ID. NO. 44), STAR45 (SEQ. ID. NO. 45), STAR47 (SEQ. ID. NO. 47), STAR61 (SEQ. ID. NO. 61), 또는 상기 STAR 서열의 기능적 단편 또는 유도체로 이루어진 군으로부터 선택된다. 바람직한 구현예에서, 상기 STAR 서열은 STAR 67 (SEQ. ID. NO. 66) 또는 그것의 기능적 단편 또는 유도체이다. 특정의 바람직한 구현예에서, STAR 67 또는 그것의 기능적 단편 또는 유도체는 다중시스트론성 전사 유니트의 발현을 구동하는 프로모터의 상류에 위치한다. 다른 바람직한 구현예에서, 본 발명에 따른 발현 카세트는 적어도 하나의 항-억제제 서열에 의해, 예를 들면, 두 측면에서 SEQ. ID. NO. 1 내지 SEQ. ID. NO. 65 중 하나에 의해, 바람직하기는 각각이 전사 유니트를 향하고 있는 이들 서열의 3' 말단에 의해 두 측면에서 모두 플랭크된다. 특정 구현예에서, 5'에서 3'의 순서로: 항-억제제 서열 A - 항-억제제 서열 B -[프로모터 - 본 발명에 따른 다중시스트론성 전사 유니트(관심의 폴리펩티드 및 그것의 하류의 기능적으로 선택가능한 마커 단백질을 암호화하는) - 전사 종결 서열] - 항-억제제 서열 C (여기서, A, B 및 C는 같거나 또는 다르다)를 포함하는, 본 발명에 따른 발현 카세트가 제공된다. Preferably, said chromatin regulatory element is an anti-inhibitor sequence, preferably: a) SEQ. ID. NO. 1 to SEQ. ID. NO. Any one of 66; b) SEQ. ID. NO. 1 to SEQ. ID. NO. The fragment of any one of 66, wherein the fragment has anti-inhibitor activity ('functional fragment'); c) a sequence at least 70% identical to a) or b) in the nucleotide sequence, wherein the sequence has anti-inhibitory activity ('functional fragment'); And d) the complement of any one of a) to c). Preferably, the chromatin regulatory element is STAR67 (SEQ. ID. NO. 66), STAR7 (SEQ. ID. NO. 7), STAR9 (SEQ. ID. NO. 9), STAR17 (SEQ. ID. NO. 17), STAR27 (SEQ.ID.NO.27), STAR29 (SEQ.ID.NO.29), STAR43 (SEQ.ID.NO.43), STAR44 (SEQ.ID.NO.44), STARSTAR ( SEQ. ID. NO. 45), STAR47 (SEQ. ID. NO. 47), STAR61 (SEQ. ID. NO. 61), or a functional fragment or derivative of the STAR sequence. In a preferred embodiment, the STAR sequence is STAR 67 (SEQ. ID. NO. 66) or a functional fragment or derivative thereof. In certain preferred embodiments, STAR 67 or a functional fragment or derivative thereof is located upstream of the promoter that drives expression of the multicistronic transcriptional unit. In another preferred embodiment, the expression cassette according to the invention is carried out by at least one anti-inhibitor sequence, for example in two aspects SEQ. ID. NO. 1 to SEQ. ID. NO. By one of the 65, preferably both flanks are flanked by the 3 'ends of these sequences, each facing the transcription unit. In certain embodiments, in the order of 5 'to 3': anti-inhibitor sequence A-anti-inhibitor sequence B-[promoter-a multicistronic transcriptional unit (polypeptide of interest and functionally downstream thereof) There is provided an expression cassette according to the invention, comprising a selectable marker protein)-a transcription termination sequence]-an anti-inhibitor sequence C, wherein A, B and C are the same or different.

본 발명에 유용한, 항-억제제 활성(항-억제제 서열)을 갖는 서열 및 그것의 특질, 뿐 아니라 그것의 단편 또는 유도체의 기능, 그들의 구조적 및 기능적 정의, 그리고 그들을 얻는 그리고 사용하는 방법이 본 명세서에 참조로 병합된 WO 2006/048459 (예를 들면, page 34-38)에 기재되어 있다.Useful herein are sequences having anti-inhibitor activity (anti-inhibitor sequences) and features thereof, as well as the functions of their fragments or derivatives, their structural and functional definitions, and methods of obtaining and using them. WO 2006/048459 (eg, pages 34-38), incorporated by reference.

다중합체 단백질을 생산하기 위해, 2개 이상의 발현 카세트가 사용될 수 있다. 바람직하기는, 두 발현카세트 모두가 본 발명에 따른 다중시스트론성 발현 카세트이고, 각각은 다른 선택가능한 마커 단백질을 암호화하여, 두개의 발현 카세트에 대한 선택이 가능하다. 이 구현예는 예를 들면 항체의 중사슬 및 경사슬의 발현에 대해 양호한 결과를 주는 것으로 증명되었다. 둘 다의 발현 카세트는 이들이 숙주세포에 도입되기 전에, 하나의 핵산에 놓일 수 있고 또는 개별적인 핵산 분자에 존재할 수 있다. 이들을 하나의 핵산 분자에 놓는 것의 이점은 두 발현 카세트가 숙주세포에 도입될 때 단일의 미리 정해진 비율 (예를 들면, 1:1)로 존재하는 것이다. 한편, 두 개의 다른 핵산 분자에 존재하는 경우에는, 그들을 숙주세포에 도입할 때 두 개의 발현 카세트의 몰비를 변화시키는 것이 가능하고, 이것은 바람직한 몰 비가 1:1과 다르거나 바람직한 몰비를 미리 알지 못할 때 유리하고, 따라서 그것의 변화 및 최적의 실험적 발견은 당업자에게 쉽게 수행될 수 있다. 본 발명에 따라, 바람직하기는 발현카세트의 적어도 하나, 더욱 바람직하기는 그들 각각은 크로마틴 조절요소, 더욱 바람직하기는 항-억제제 서열을 포함한다.To produce polypolymer proteins, two or more expression cassettes can be used. Preferably, both expression cassettes are multicistronic expression cassettes according to the invention, each encoding a different selectable marker protein, allowing selection for two expression cassettes. This embodiment has been demonstrated to give good results, for example, on the expression of heavy and light chains of antibodies. Both expression cassettes may be placed in one nucleic acid or may be present in separate nucleic acid molecules before they are introduced into the host cell. The advantage of placing them in one nucleic acid molecule is that they are present in a single predetermined ratio (eg, 1: 1) when the two expression cassettes are introduced into the host cell. On the other hand, when present in two different nucleic acid molecules, it is possible to change the molar ratio of the two expression cassettes when introducing them into the host cell, which is different when the preferred molar ratio is different from 1: 1 or the preferred molar ratio is not known in advance. It is advantageous, and therefore its variations and optimal experimental findings can be readily performed by those skilled in the art. According to the invention, preferably at least one of the expression cassettes, more preferably each of them comprises a chromatin regulatory element, more preferably an anti-inhibitor sequence.

또 다른 구현예에서, 다중합성 단백질의 다양한 서브유니트 또는 일부가 단일 발현 카세트 상에 존재한다. In another embodiment, various subunits or portions of multisynthetic proteins are on a single expression cassette.

발현 카세트와 결합된 항-억제제의 유용한 배열은 본 명세서에 참조로 병합된 WO 2006/048459 (예를 들면, page 40 참조)에 기재되어 있다. Useful arrangements of anti-inhibitors in combination with expression cassettes are described in WO 2006/048459 (see, eg, page 40), incorporated herein by reference.

특정 구현예에서, 본 발명에 따른 전사 유니트 또는 발현 카세트가 제공되고, 이것은 추가로 본 명세서에 참조로 병합된 WO 2006/048459의 page 40-41에 본질적으로 기재된 바와 같은, 전사 휴지(TRAP) 서열을 포함한다. TRAP 서열의 비-제한적 예는 SEQ. ID. NO. 81로 주어진다. 다른 TRAP 서열, 이들을 찾기 위한 방법, 및 그들의 용도에 대한 예는 WO 2004/055215에 기재되어 있다.In certain embodiments, a transcription unit or expression cassette according to the present invention is provided, which is further described as a transcriptional pause (TRAP) sequence, as essentially described in pages 40-41 of WO 2006/048459, which is further incorporated herein by reference. It includes. Non-limiting examples of TRAP sequences include SEQ. ID. NO. Is given by 81. Examples of other TRAP sequences, methods for finding them, and their use are described in WO 2004/055215.

본 발명에 따른 다중시스트론성 전사 유니트 및/또는 발현 카세트를 포함하는 DNA 분자는 바람직하기는 숙주세포에서 핵산의 발현을 개선하기 위해 사용될 수 있다. 용어 "세포"/"숙주세포" 및 "세포주"/"숙주세포주"는 각각 본 분야에 알려진 방법에 의해 세포 배양에 유지될 수 있고, 그리고 이형 또는 동형 단백질을 발현하는 능력을 갖는 세포 및 그들의 동형의 개체군으로 정의된다.DNA molecules comprising multicistronic transcriptional units and / or expression cassettes according to the invention can preferably be used to improve the expression of nucleic acids in host cells. The terms "cell" / "host cell" and "cell line" / "host cell line" may be maintained in cell culture by methods known in the art, respectively, and have the ability to express heterologous or isotype proteins and their isoforms. It is defined as a population of.

사용될 수 있는 여러 예시적인 숙주 세포는 본 명세서에 참조로서 병합된 WO 2006/048459 (예를 들면, page 41-42)에 기재되어 있고, 이와 같은 세포는 예를 들면, dhfr^-표현형을 갖는 CHO 세포를 포함하여 CHO 세포, 예를 들면, CHO-K1, CHO-S, CHO-DG44, CHO-DUKXB11, 뿐 아니라 골수종 세포(예를 들면, Sp2/0, NS0), HEK 293 세포, 및 PER.C6 세포를 포함하여, 포유동물의 세포를 포함하지만, 이것으로 한정되는 것은 아니다.Several exemplary host cells that can be used are described in WO 2006/048459 (eg, pages 41-42), incorporated herein by reference, and such cells are, for example, CHO cells with a dhfr ⁻ phenotype. CHO cells, including, for example, CHO-K1, CHO-S, CHO-DG44, CHO-DUKXB11, as well as myeloma cells (eg, Sp2 / 0, NS0), HEK 293 cells, and PER.C6 Including, but not limited to, cells of mammals.

이와 같은 진핵 숙주세포는 필요한 폴리펩티드를 발현할 수 있고 그 목적을 위해 종종 사용된다. 이들은 본 발명의 DNA 분자를, 발현 카세트의 형태로, 세포에 도입시킴으로써 얻을 수 있다. 바람직하기는, 발현 카세트는 숙주세포의 게놈에 병합되고, 이것은 여러 숙주세포의 다른 위치에 있을 수 있고, 선택은 트란스유전자가 적절한 위치에 병합된 클론을 제공하여, 발현 수준, 안정성, 성장 특질 등의 면에서 원하는 특성을 갖는 숙주 세포 클론을 가져올 수 있다. 선택적으로 다중시스트론성 전사 유니트는 표적화하여 또는 임의로, 전사적으로 활성인 염색체 영역, 예를 들면 게놈에 존재하는 프로모터의 뒤에 병합되도록 선택될 수 있다. 본 발명의 DNA를 함유하는 세포의 선택은, 본 분야의 당업자에 의해 알려진 통상의 방법을 사용하여 선택가능한 마커 폴리펩티드에 대해 선택함으로써 수행될 수 있다. 이와 같은 다중시스트론성 전사 유니트가 게놈의 프로모터 뒤에 병합되면, 본 발명의 발현 카세트는 그 자리에서, 즉 숙주세포의 게놈 내에서 생성될 수 있다.Such eukaryotic host cells can express the necessary polypeptides and are often used for that purpose. These can be obtained by introducing a DNA molecule of the present invention into a cell in the form of an expression cassette. Preferably, the expression cassette is incorporated into the genome of the host cell, which may be at different positions in several host cells, and the selection provides a clone in which the transgene is incorporated at the appropriate position, such as expression levels, stability, growth characteristics, etc. In view of the present invention, a host cell clone having desired characteristics can be brought. Optionally, the multicistronic transcriptional unit can be selected to be targeted or, optionally, merged behind a transcriptionally active chromosomal region, such as a promoter present in the genome. The selection of cells containing the DNA of the present invention can be performed by selecting for selectable marker polypeptides using conventional methods known by those skilled in the art. If such a multicistronic transcriptional unit is incorporated after the promoter of the genome, the expression cassette of the invention can be produced in situ, ie within the genome of the host cell.

바람직하게, 숙주세포는 본 분야의 당업자에게 알려진 표준 공정에 따라 선택되고 증식될 수 있는 안정한 클론에서 나올 수 있다. 이와 같은 클론의 배양은, 세포가 본 발명의 다중시스트론성 전사 유니트를 포함한다면, 관심의 폴리펩티드를 생성할 수 있다. Preferably, the host cell may be from a stable clone that can be selected and propagated according to standard procedures known to those skilled in the art. Cultivation of such clones can produce the polypeptide of interest if the cell comprises the multicistronic transcriptional unit of the invention.

세포에서 발현되어질 핵산의 도입은 여러 방법 중 하나에 의해 실시될 수 있고, 이것은 도입될 핵산의 포맷에 따라, 본 발명의 당업자에게 잘 알려져 있다. 상기 방법은 트란스펙션, 감염, 삽입, 변형 등을 포함하지만, 이것으로 제한되는 것 은 아니다. 관심의 폴리펩티드를 발현하는 적합한 숙주 세포는 선택에 의해 얻어질 수 있다.Introduction of the nucleic acid to be expressed in the cell can be carried out by one of several methods, which are well known to those skilled in the art, depending on the format of the nucleic acid to be introduced. The method includes, but is not limited to, transfection, infection, insertion, modification, and the like. Suitable host cells expressing the polypeptide of interest can be obtained by selection.

바람직한 구현예에서, 본 발명의 다중시스트론성 전사 유니트를, 바람직하기는 발현 카세트의 형태로 포함하는 DNA 분자는 본 발명에 따른 진핵 숙주 세포로 변합된다. 이것은 다중시스트론성 전사 유니트의 안정한 유전성을 제공할 것이다.In a preferred embodiment, the DNA molecule comprising the multicistronic transcriptional unit of the invention, preferably in the form of an expression cassette, is converted into a eukaryotic host cell according to the invention. This will provide stable genetics of the multicistronic transcriptional unit.

선택가능한 마커 폴리펩티드의 존재를 위한, 그리고 따라서 발현을 위한 선택은 세포의 초기 획득 중에 수행될 수 있다. 특정 구현예에서, 선택제는 선택가능한 마커 폴리펩티드를 발현하는 세포를 선택하기에 충분한 농도로 또는 낮은 농도로, 배양 시간의 적어도 일부에 배지 중에 존재한다. 바람직한 구현예에서, 선택제는 폴리펩티드가 발현될 때 생산 단계 중 배지에 더 이상 존재하지 않는다.Selection for the presence of a selectable marker polypeptide, and thus for expression, can be made during initial acquisition of the cell. In certain embodiments, the selection agent is present in the medium at at least a portion of the incubation time, at a concentration low or at a concentration sufficient to select cells expressing the selectable marker polypeptide. In a preferred embodiment, the selection agent is no longer present in the medium during the production stage when the polypeptide is expressed.

본 발명에 따른 관심의 폴리펩티드는 어느 단백질일 수 있고, 그리고 단일중합성(monomeric) 단백질 또는 다중합성 단백질(의 일부)일 수 있다. 다중합성 단백질은 적어도 2개의 폴리펩티드 사슬을 포함한다. 본 발명에 따른 관심의 폴리펩티드의 비-제한적 예는 효소, 호르몬, 면역글로불린 사슬, 항암 단백질과 같은 치료적 단백질 인자 VIII와 같은 혈액응고 단백질, 에리트로포이에틴과 같은 다-기능성 단백질, 진단 단백질, 또는 백신화 목적에 유용한 단백질 또는 그것의 단편이고, 모두 본 분야의 당업자에게 알려져 있다.The polypeptide of interest according to the invention may be any protein and may be a monomeric protein or part of a multisynthetic protein. Multisynthetic proteins comprise at least two polypeptide chains. Non-limiting examples of polypeptides of interest according to the invention include enzymes, hormones, immunoglobulin chains, hemocoagulation proteins such as therapeutic protein factor VIII such as anticancer proteins, multi-functional proteins such as erythropoietin, diagnostic proteins, or Proteins or fragments thereof useful for vaccination purposes, all of which are known to those skilled in the art.

특정 구현예에서, 본 발명의 발현 카세트는 면역글로불린 중사슬 또는 경사슬 또는 그들의 항원 결합 부분, 유도체 및/또는 동형체를 암호화한다. 바람직한 구현예에서, 본 발명에 따른 단백질 발현 유니트가 제공되고, 여기서 상기 관심의 단백질은 면역글로불린 중사슬이다. 또 다른 바람직한 구현예에서, 본 발명에 따른 단백질 발현 유니트가 제공되고, 여기서 상기 관심의 단백질은 면역글로불린 경사슬이다. 이들 두 단백질 발현 유니트가 동일한 (숙주) 세포에 존재할 때, 다중합성 단백질과 더욱 특별히는 면역글로불린이 조립된다. 따라서 특정 구현예에서, 관심의 단백질은 항체와 같은 면역글로불린이고, 이것은 다중합성 단백질이다. 바람직하기는, 이와 같은 항체는 인간 또는 인간화 항체이다. 그것의 특정 구현예에서, 이것은 IgG, IgA, 또는 IgM 항체이다. 면역글로불린은 다른 발현 카세트 상에서 또는 단일 발현 카세트 상에서 중사슬 및 경사슬에 의해 암호화될 수 있다. 바람직하기는, 중사슬과 경사슬은 각각 개별적인 발현 카세트에 존재하고, 각각은 자신의 프로모터를 갖고(두 개의 발현 카세트에 대해 같거나 또는 다를 수 있다), 각각은 본 발명에 따른 다중시스트론성 전사 유니트를 포함하고, 중사슬과 경사슬은 관심의 폴리펩티드이고, 바람직하기는 각각 다른 선택가능한 마커 단백질을 암호화하여, 두 중사슬과 경사슬 발현 카세트 모두는 발현카세트가 진핵 숙주세포에 도입 및/또는 존재할 때 수행될 수 있다.In certain embodiments, expression cassettes of the invention encode immunoglobulin heavy or light chains or their antigen binding moieties, derivatives and / or isoforms. In a preferred embodiment, a protein expression unit according to the invention is provided wherein said protein of interest is an immunoglobulin heavy chain. In another preferred embodiment, a protein expression unit according to the invention is provided wherein said protein of interest is an immunoglobulin light chain. When these two protein expression units are in the same (host) cell, the multisynthetic protein and more particularly immunoglobulin are assembled. Thus, in certain embodiments, the protein of interest is an immunoglobulin such as an antibody, which is a multisynthetic protein. Preferably, such an antibody is a human or humanized antibody. In its specific embodiment, it is an IgG, IgA, or IgM antibody. Immunoglobulins can be encoded by heavy and light chains on other expression cassettes or on a single expression cassette. Preferably, the heavy and light chains are each present in separate expression cassettes, each with its own promoter (which may be the same or different for the two expression cassettes) and each is multicistronic in accordance with the present invention. A transcriptional unit, the heavy chain and light chain are polypeptides of interest, preferably encoding different selectable marker proteins, respectively, so that both heavy and light chain expression cassettes have the expression cassette introduced into the eukaryotic host cell and / or Or when present.

관심의 폴리펩티드는 어느 기원으로부터일 수 있고, 특정 구현예에서는 포유동물 단백질, 인공 단백질(예를 들면, 융합 단백질 또는 돌연변이 단백질), 그리고 바람직하기는 인간 단백질이다.The polypeptide of interest may be from any origin, and in certain embodiments is a mammalian protein, an artificial protein (eg, a fusion protein or a mutant protein), and preferably a human protein.

명백하게, 본 발명의 발현 카세트의 배열은, 궁극적 목적이 관심의 폴리펩티드의 생산이 아니고, RNA 자체일 때 사용될 수 있는 것으로, 예를 들면, 발현카세트로부터 RNA의 증가된 양을 생산하는 것으로, 이것은 다른 유전자의 조절(예를 들 면, RNAi, 안티센스 RNA), 유전자 치료법, 인비트로 단백질 생성 등의 목적으로 사용될 수 있다.Obviously, the arrangement of the expression cassettes of the present invention can be used when the ultimate goal is not the production of the polypeptide of interest, but rather the RNA itself, for example to produce an increased amount of RNA from the expression cassette, which is different. It can be used for purposes of gene regulation (eg RNAi, antisense RNA), gene therapy, in vitro protein production, and the like.

한 면에서, 본 발명은 관심의 폴리펩티드를 발현하는 숙주 세포를 생성하는 방법을 제공하고, 상기 방법은 복수 개의 전구체 세포에 DNA 분자 또는 본 발명에 따른 발현 카세트를 도입하고, 선택된 조건하에서 생성된 세포를 배양하고 그리고 관심의 폴리펩티드를 생성하는 적어도 하나의 숙주세포를 선택하는 것을 포함한다. 이러한 신규의 방법의 이점은 본 명세서에 병합된 WO 2006/048459 (예를 들면, page 46-47)에 기재된 선택적 방법에 대한 기재와 유사하다.In one aspect, the present invention provides a method of producing a host cell expressing a polypeptide of interest, said method introducing a DNA molecule or an expression cassette according to the invention into a plurality of precursor cells and producing the cells under selected conditions. Culturing and selecting at least one host cell that produces the polypeptide of interest. The advantages of this novel method are similar to those described for the optional method described in WO 2006/048459 (eg, pages 46-47) incorporated herein.

상대적으로 적은 사본 수의 다중시스트론성 전사 유니트와 고발현 수준을 갖는 클론을 얻을 수 있는 반면, 본 발명의 선택 시스템은 발현 수준을 더욱 개선하기 위해 증폭법과 결합할 수 있다. 이것은, 예를 들면 메토트렉세이트를 이용한 공동-집적된 dhfr 유전자의 증폭에 의해, 예를 들면 본 발명의 다중시스트론성 전사 유니트와 동일한 핵산 분자에 dhfr을 놓음으로써, 또는 dhfr이 개별적인 DNA 분자에 있을 때 공동-트란스펙션에 의해 수행될 수 있다. dhfr 유전자는 또한 본 발명의 다중시스트론성 발현 유니트의 일부일 수 있다.While clones with a relatively low copy number of multicistronic transcription units and high expression levels can be obtained, the selection system of the present invention can be combined with amplification to further improve expression levels. This can be achieved, for example, by amplification of co-integrated dhfr genes with methotrexate, for example by placing dhfr in the same nucleic acid molecule as the multicistronic transcriptional unit of the invention, or when dhfr is in a separate DNA molecule. It may be performed by co-transfection. The dhfr gene may also be part of the multicistronic expression unit of the invention.

본 발명은 또한 하나 이상의 관심의 폴리펩티드의 제조방법을 제공하고, 상기 방법은 본 발명의 숙주세포를 배양하는 것을 포함한다.The present invention also provides a method for producing one or more polypeptides of interest, said method comprising culturing the host cell of the invention.

세포를 배양하는 것은 세포가 대사, 및/또는 성장 및/또는 분할 및/또는 관심의 재조합 단백질을 생산할 수 있도록 행해진다. 이것은 본 분야의 당업자에게 잘 알려진 방법으로 수행될 수 있고, 세포에 영양을 제공하는 것을 포함하지만, 이 것으로 제한되는 것은 아니다. 본 방법은 표면에 부착된 성장, 현탁물 중의 성장 또는 이들의 결합을 포함한다. 배양은 예를 들면, 접시, 회전병 또는 생물반응기에서, 배치, 공급-배치, 살포 시스템과 같은 연속 시스템 등을 이용하여 행해질 수 있다. 세포배양을 통해 재조합 단백질을 대량 (연속) 생산하기 위해, 현탁물 중 성장할 수 있는 세포를 갖는 것이 바람직하고, 동물- 또는 인간-유래 혈청 또는 동물- 또는 인간-유래 혈청 성분의 부재 중에 배양될 수 있는 것이 바람직하다.Cultivating the cells is done so that the cells can metabolize and / or grow and / or divide and / or produce a recombinant protein of interest. This can be done by methods well known to those skilled in the art and includes, but is not limited to, providing nutrition to the cells. The method includes growth attached to a surface, growth in a suspension, or a combination thereof. Cultivation can be done using batch, feed-batch, continuous systems such as sparging systems, and the like, for example, in a dish, carousel or bioreactor. In order to mass (continuously) produce recombinant proteins via cell culture, it is desirable to have cells that can grow in suspension and can be cultured in the absence of animal- or human-derived serum or animal- or human-derived serum components. It is desirable to have.

세포의 성장 또는 복수화의 조건(예를 들면, Tissue Culture, Academic Press, Kruse and Paterson, editors (1973) 참조)과 재조합 산물의 발현 조건은 본 분야의 당업자에게 알려져 있다. 일반적으로, 포유동물 세포 배양의 생산성을 최대화하기 위한 원리, 프로토콜, 및 실제적 기술들은 Mammalian Cell Biotechnology: a Practical Approach (M. Butler, ed., IRL Press, 1991)에서 찾을 수 있다.Conditions for cell growth or pluralization (see, for example, Tissue Culture, Academic Press, Kruse and Paterson, editors (1973)) and expression conditions for recombinant products are known to those skilled in the art. Generally, principles, protocols, and practical techniques for maximizing the productivity of mammalian cell cultures can be found in Mammalian Cell Biotechnology: a Practical Approach (M. Butler, ed., IRL Press, 1991).

바람직한 구현예에서, 발현 단백질은 세포로부터 또는 배지로부터 또는 두개 모두로부터 수집(단리)된다. 그리고 나서 공지의 방법, 예를 들면 여과, 칼럼크로마토그래피 등과 같은 공지의 방법을 사용하여, 본 분야의 당업자에게 일반적으로 알려진 방법에 의해 더욱 정제될 수 있다.In a preferred embodiment, the expression protein is collected (isolated) from cells or from the medium or both. It can then be further purified by methods generally known to those skilled in the art, using known methods such as filtration, column chromatography and the like.

본 발명에 따른 선택법은 크로마틴 조절 요소가 없을 때 얻어지고, 그러나 개선된 결과는 다중시스트론성 발현 유니트가 이와 같은 요소로 제공될 때 얻어진다. 본 발명에 따른 선택법은 적어도 하나의 항-억제제 서열을 포함하는 본 발명에 따른 발현 카세트가 사용될 때 특히 잘 작업된다. 선택 약제와 조건에 따라, 선택 은 특정 경우에 매우 엄격하여, 항-억제제 서열이 존재하지 않는 한, 선택을 견기는 숙주세포는 거의 없거나 또는 전혀 없다. 따라서, 신규의 선택방법과 항-억제제 서열의 결합은, 그 안에 관심의 폴리펩티드의 고발현 기회가 크게 증가한 콜로니의 제한된 수를 얻는데 매력적인 방법을 제공하는 반면, 동시에 항-억제제 서열을 갖는 발현 카세트를 포함하는 얻어진 클론은 관심의 폴리펩티드의 안정한 발현을 제공하고, 즉 그들은 통상의 발현 카세트보다 발현을 낮추는 침묵 또는 다른 메카니즘의 경향이 덜하다.The selection method according to the invention is obtained in the absence of chromatin regulatory elements, but improved results are obtained when a multicistronic expression unit is provided with such elements. The selection method according to the invention works particularly well when an expression cassette according to the invention comprising at least one anti-inhibitor sequence is used. Depending on the agent and conditions of choice, the selection is very strict in certain cases, with few or no host cells tolerate the selection, unless an anti-inhibitor sequence is present. Thus, the combination of the novel selection method and the anti-inhibitor sequence provides an attractive method for obtaining a limited number of colonies in which a high chance of high expression of the polypeptide of interest is significantly increased, while simultaneously providing an expression cassette with an anti-inhibitor sequence. The resulting clones comprising provide stable expression of the polypeptide of interest, ie they are less prone to silencing or other mechanisms that lower expression than conventional expression cassettes.

본 발명의 한 면은 WO 2006/048459에 기재된 배열과 비교하여 대체의 배열을 갖는 다중시스트론성 전사 유니트를 제공하고: 본 발명의 대체의 배열에서, 관심의 폴리펩티드를 암호화하는 서열은 선택가능한 마커 폴리펩티드를 암호화하는 서열의 상류에 있고, 그리고 선택가능한 마커 폴리펩티드는 캡-독립적 번역 개시 서열, 바람직하기는 내부 리보솜 엔트리 부위(IRES)에 기능적으로 연결된다. 이와 같은 다중시스트론성 전사 유니트가 알려져 있지만(예를 들면, Rees et al, 1996, WO 03/106684), 비-ATG 시작코돈에 결합되지 않았다. 본 발명의 선택적인 면에 따라, 선택가능한 마커 폴리펩티드의 시작코돈은 비-ATG 시작코돈으로 변하였고, 더욱 선택가능한 마커에 대한 번역 개시 속도를 더욱 감소시킨다. 그러므로, 이것은 선택가능한 마커 폴리펩티드의 원하는 감소된 발현 수준을 가져오고, WO 2006/048459에 기재된 구현예와 마찬가지로, 관심의 폴리펩티드를 고수준으로 발현하는 숙주세포를 매우 효율적으로 선택할 수 있게 한다. WO 2006/048459에 약술된 구현예와 비교하여, 본 발명의 이 대체적인 면의 하나의 잠재적 이점은, 그 안의 내부 ATG 서열 이, 추가의 하류방향 폴리펩티드의 번역에 더 이상 관여하지 않기 때문에 손상됨 없이 남을 수 있으므로, 항 선택가능한 마커 폴리펩티드의 암호화 서열이 내부 ATG 서열의 추가 변형을 필요로 하지 않는다는 것이다. 특히 선택가능한 마커 폴리펩티드에 대한 암호화 서열이 여러 내부 ATG 서열을 함유할 때 유리하고, 이들을 변화시키고 생성된 구조를 기능성에 대해 시험하는 노력이 본 발명에 대해 수행되어야만 하는 것이 아니기 때문이다: 이 경우 ATG 시작 코돈의 돌연변이만이 충분하다. 본 발명에 의해 제공된 이 대안은 또한 매우 양호한 결과를 가져왔다는 것이 아래(실시예 1)에 나타내었다.One aspect of the invention provides a multicistronic transcriptional unit having an alternative arrangement compared to the arrangement described in WO 2006/048459: In an alternative arrangement of the invention, the sequence encoding the polypeptide of interest is a selectable marker. Upstream of the sequence encoding the polypeptide, and the selectable marker polypeptide is functionally linked to a cap-independent translation initiation sequence, preferably an internal ribosomal entry site (IRES). Such multicistronic transcriptional units are known (eg, Rees et al, 1996, WO 03/106684) but have not been bound to non-ATG start codons. According to an optional aspect of the invention, the start codons of the selectable marker polypeptides have been changed to non-ATG start codons, further reducing the rate of translation initiation for more selectable markers. Therefore, this results in the desired reduced expression level of the selectable marker polypeptide and, like the embodiments described in WO 2006/048459, makes it possible to very efficiently select host cells expressing high levels of the polypeptide of interest. Compared with the embodiments outlined in WO 2006/048459, one potential advantage of this alternative aspect of the invention is that without damaging because the internal ATG sequence therein is no longer involved in the translation of further downstream polypeptides. As such, the coding sequence of the anti-selectable marker polypeptide does not require further modification of the internal ATG sequence. This is particularly advantageous when the coding sequences for selectable marker polypeptides contain several internal ATG sequences, and efforts to change them and test the resulting structure for functionality should not be undertaken for the present invention: in this case ATG Only mutations in the start codon are sufficient. It is shown below (Example 1) that this alternative provided by the present invention also gave very good results.

본 발명의 DNA 분자에서 선택가능한 마커 폴리펩티드에 대한 암호화 서열은 IRES의 번역 조절하에 있고, 여기서, 관심의 단백질의 암호화 서열은 바람직하기는 캡-의존 방법으로 번역된다. 관심의 폴리펩티드에 대한 암호화서열은 시작코돈을 포함하여, 제1 시스트론의 번역은 IRES의 상류를 끝내고, 이 IRES는 제2 시스트론에 기능적으로 연결된다.The coding sequence for the selectable marker polypeptide in the DNA molecule of the invention is under the translational control of the IRES, wherein the coding sequence of the protein of interest is preferably translated by a cap-dependent method. The coding sequence for the polypeptide of interest includes a start codon, such that translation of the first cistron ends upstream of the IRES, which is functionally linked to the second cistron.

본 명세서를 읽은 후 당업자에게 쉽게 이해될 수 있는 바와 같이, 이들 다중시스트론성 발현 유니트의 대부분은 유리하기는 관심의 폴리펩티드와 선택가능한 마커 폴리펩티드(즉, 본 명세서에 참조로 병합된 WO 2006/048459의 다중시스트론성 전사 유니트)에 대한 암호화 서열의 반대 순서를 갖는 다중시스트론성 발현 유니트에 관하여 동일한 라인을 따라 변할 수 있다. 예를 들면, 선택가능한 마커 폴리펩티드에 대한 바람직한 시작코돈, 발현 카세트로의 병합, 숙주 세포, 프로모터, 크로마틴 조절 요소의 존재 등은 변할 수 있고 바람직한 구현예에서 상기와 같이 사 용될 수 있다. 또한, 다중시스트론성 발현 유니트와 발현 카세트의 사용은 상기와 같다. 그러므로, 이면은 병합된 WO 2006/048459에 기재된 수단과 방법에 대한 용이한 대안이고, 중요한 차이는 다중시스트론성 발현 유니트의 폴리펩티드의 순서가 반대이고, IRES가 선택가능한 마커 폴리펩티드의 번역에 요구된다는 것이다.As will be readily appreciated by those skilled in the art after reading the specification, most of these multicistronic expression units are advantageously selected from the polypeptide of interest and the selectable marker polypeptide (ie, WO 2006/048459, incorporated herein by reference). Can be changed along the same line with respect to a multicistronic expression unit having the reverse order of the coding sequence for the multicistronic transcriptional unit of. For example, preferred starter codons for selectable marker polypeptides, incorporation into expression cassettes, the presence of host cells, promoters, chromatin regulatory elements, and the like can vary and can be used as above in preferred embodiments. In addition, the use of a multicistronic expression unit and an expression cassette is as described above. Therefore, the back side is an easy alternative to the means and methods described in the incorporated WO 2006/048459, the important difference being that the order of the polypeptides of the multicistronic expression units is reversed and that the IRES is required for the translation of selectable marker polypeptides. will be.

여기서 사용된 바에 따르면, "내부 리보솜 엔트리 부위" 또는 "IRES"는 시작 코돈으로의 직접 내부 리보솜 엔트리를 촉진하는 요소로, 일반적으로 ATG이지만, 본 발명에서는 시스트론의 GTG 또는 TTG이고(단백질 암호화 영역), 그것에 의해 유전자의 캡-독립적 번역을 가져온다. 예를 들면, Jackson R J, Howell M T, Kaminski A (1990) Trends Biochem Sci 15 (12): 477-83) 및 Jackson R J and Kaminski, A. (1995) RNA 1 (10): 985-1000을 참조. 본 발명은 캡-독립적 번역 개시 서열, 특히 시스트론의 개시코돈으로의 직접 개시 리보솜 엔트리를 촉진할 수 있는 어느 IRES의 사용을 포함한다. 여기서 사용되는 바에 따르면 "IRES의 번역 조절 하에서"는 번역이 IRES와 연관되고 캡-독립적 방법으로 진행된다는 것을 의미한다. 본 명세서에서 사용되는 바에 따르면, 용어 "IRES"는 변화가 시스트론의 개시 코돈으로 직접 내부 리보솜 엔트리를 촉진할 수 있는 한 IRES 서열의 기능적 변화를 포함한다. 여기서 사용되는 바에 따르면, "시스트론"은 관심의 단백질, 폴리펩티드, 또는 펩티드의 폴리뉴클레오티드 서열 또는 유전자를 말한다. "기능적으로 연결된"은 기재된 성분들이 그들의 의도된 방법으로 작용하도록 허용하는 관계인 상황을 말한다. 그러므로, 예를 들면, 시스트론에 "기능적으로 연결된"은 시스트론의 발현이 프로모터와 양립가능한 조건에서 얻어지는 방법으로 결찰된다. 유사하기 는, 시스트론에 기능적으로 연결된 IRES의 뉴클레오티드 서열은 시스트론의 번역이 IRES와 양립가능한 조건하에서 얻어지는 방법으로 결찰된다. As used herein, an "internal ribosomal entry site" or "IRES" is an element that promotes direct internal ribosomal entry into the start codon, which is generally ATG, but in the present invention is GTG or TTG of cystron (protein coding region). ), Thereby obtaining a cap-independent translation of the gene. See, eg, Jackson R J, Howell M T, Kaminski A (1990) Trends Biochem Sci 15 (12): 477-83) and Jackson R J and Kaminski, A. (1995) RNA 1 (10): 985-1000. The present invention includes the use of any IRES capable of facilitating cap-independent translation initiation sequences, in particular direct initiation ribosomal entry into the initiation codon of a cistron. As used herein, "under translational control of the IRS" means that the translation is associated with the IRES and proceeds in a cap-independent manner. As used herein, the term “IRES” encompasses functional changes in the IRES sequence as long as the change can facilitate internal ribosomal entry directly into the initiation codon of the cistron. As used herein, “cistron” refers to the polynucleotide sequence or gene of a protein, polypeptide, or peptide of interest. "Functionally linked" refers to a situation that is a relationship that allows the described components to function in their intended manner. Thus, for example, "functionally linked" to a cistron is ligated in such a way that expression of the cistron is obtained under conditions compatible with the promoter. Similarly, the nucleotide sequence of the IRES functionally linked to the cistron is ligated in such a way that the translation of the cistron is obtained under conditions compatible with the IRES.

내부 리보솜 결합 부위(IRES) 요소는 바이러스와 포유동물 유전자로부터 알려지고(Martinez-Salas, 1999), 그리고 작은 합성 올리고뉴클레오티드의 스크린으로 동정되어왔다(Venkatesan & Dasgupta, 2001). 뇌척수 심근염 바이러스로부터의 IRES는 상세히 분석되어졌다(Mizuguchi et al., 2000). IRES는 전사된 RNA의 구조를 가져오는 DNA에 암호화된 요소로, 여기서 진핵성 리보솜은 결합되고 번역을 개시할 수 있다. IRES는 두 개 이상의 단백질이 단일 RNA 분자로부터 생산되도록 한다(제1 단백질은 그것의 5' 터미날의 캡 구조에서 RNA에 결합되는 리보솜에 의해 번역된다(Martinez-Salas, 1999)). IRES 요소로부터의 단백질의 번역은 캡-의존 번역보다 덜 효율적이다: IRES-의존 개방형 해독틀(ORF)로부터의 단백질의 양은 제1 ORF로부터의 양의 20% 미만 내지 50%의 범위이다(Mizuguchi et al., 2000). IRES-의존 번역의 감소된 효율은 본 발명의 이 구현예에 의해 이용되는 장점을 제공한다. 더우기, IRES 요소의 돌연변이는 그들의 활성을 감쇄시킬 수 있고, IRES-의존 ORF로부터의 발현을 제1 ORF의 10% 이하로 줄일 수 있다(Lopez de Quinto & Martinez-Salas, 1998, Rees et al., 1996). 그러므로, 본 분야의 당업자에게 IRES의 기능의 본질을 변화시킴 없이 IRES에 대한 변화를 가져올 수 있고 (따라서, 감소된 번역 효율을 갖는 단백질 번역 개시 부위를 제공), 이것은 변형된 IRES를 가져온다는 것은 명백하다. 그러므로, 여전히 (5' 캡 번역과 비교하여) 적은 비율의 번역을 제공할 수 있는 변형된 IRES의 사용은 또한 본 발명에 포함된다. 본 발명은 선택가능한 마커 ORF의 번역 개시를 상당히 추가로 감소시키고, 그것과 함께 바람직한 숙주 세포를 얻는, 즉 숙주세포가 관심의 재조합 단백질의 고발현하는 기회를 더욱 개선하기 위해 비-ATG 시작코돈을 사용한다.Internal ribosomal binding site (IRES) elements are known from viral and mammalian genes (Martinez-Salas , 1999) and have been identified with screens of small synthetic oligonucleotides (Venkatesan & Dasgupta , 2001). IRES from cerebrospinal myocarditis virus has been analyzed in detail (Mizuguchi et al. , 2000). IRES is an element encoded in DNA that results in the structure of transcribed RNA, where eukaryotic ribosomes can bind and initiate translation. IRES allows two or more proteins to be produced from a single RNA molecule (the first protein is translated by ribosomes that bind to RNA in its 5 'terminal cap structure (Martinez-Salas , 1999). Translation of proteins from IRES elements is less efficient than cap-dependent translation: The amount of protein from the IRES-dependent open reading frame (ORF) ranges from less than 20% to 50% of the amount from the first ORF (Mizuguchi et. al. , 2000). The reduced efficiency of IRES-dependent translation provides the advantages utilized by this embodiment of the present invention. Moreover, mutations in IRES elements can attenuate their activity and reduce expression from IRES-dependent ORFs to less than 10% of the first ORF (Lopez de Quinto & Martinez-Salas , 1998, Rees et al. , 1996). Therefore, it will be apparent to those skilled in the art that changes can be made to the IRES without changing the nature of the function of the IRES (and thus provide a protein translation initiation site with reduced translation efficiency), which results in a modified IRES. Do. Therefore, the use of modified IRES which can still provide a small percentage of translation (compared to 5 'cap translation) is also included in the present invention. The present invention significantly reduces the initiation of translation of the selectable marker ORF and together with the non-ATG start codons to obtain the desired host cell, i.e. to further improve the chance of the host cell to express high levels of the recombinant protein of interest. use.

미국 특허 5,648,267 및 5,733,779는 손상된 컨센서스 코작 서열([Py]xxATG[Py], 여기서 [Py]는 피리미딘 뉴클레오티드이고 (즉, C 또는 T), x는 뉴클레오티드이고(즉, G, A, T, 또는 C), 그리고 ATG 시작코돈은 밑줄그었다)을 갖는 우세한 선택가능한 마커 서열의 사용을 기재한다. 미국 특허 6,107,477는 선택가능한 마커 유전자의 비-최적 코작 서열의 사용을 기재한다(AGATCTTTATGGACC, 여기서, ATG 시작코돈은 밑줄그었다). 이들 중 어느 것도 비-ATG 시작코돈의 사용을 기재하지 않고, 그것을 제안하지도 않았다. 더우기, 그들은 IRES와의 결합도 언급하지 않았다. 더우기, IRES 자체는 이미 캡-의존 번역과 비교하여 감소되었기 때문에, IRES와 선택가능한 마커에 대한 비-ATG 시작코돈의 결합이 선택가능한 마커 폴리펩티드의 충분한 번역이 그것의 어느 선택가능한 수준을 제공하는지를 본 발명 보다 앞서 예상할 수 없었다. 본 발명은 또한 이 경우를 나타내고, 놀랍게도 효율적인 선택 시스템을 제공한다.U.S. Patents 5,648,267 and 5,733,779 have a damaged consensus Kozak sequence ([Py] xx ATG [Py], where [Py] is pyrimidine nucleotides (ie, C or T), and x is nucleotides (ie, G, A, T, Or C), and ATG start codons underlined). US Pat. No. 6,107,477 describes the use of non-optimal Kozak sequences of selectable marker genes (AGATCTTT ATG GACC, where ATG start codons are underlined). None of these describe nor suggests the use of non-ATG start codons. Moreover, they did not mention the combination with IRES. Moreover, since IRES itself has already been reduced compared to cap-dependent translation, the binding of non-ATG start codons to IRES and selectable markers has seen which selectable levels provide sufficient translation of selectable marker polypeptides. It could not be foreseen before the invention. The present invention also illustrates this case and provides a surprisingly efficient selection system.

본 발명은 또한 IRES 서열에 기능적으로 연결된 선택가능한 마커 폴리펩티드에 대해 암호화하는 서열을 포함하는 DNA 분자를 제공하고, 여기서 선택가능한 마커에 대해 암호화하는 암호화 서열은 a) GTG 시작 코돈; b) TTG 시작 코돈; c) CTG 시작 코돈; d) ATT 시작 코돈; 그리고 e) ACG 시작 코돈으로 이루어진 군으로부터 선택된 번역 시작 서열을 포함한다.The invention also provides a DNA molecule comprising a sequence encoding for a selectable marker polypeptide functionally linked to an IRES sequence, wherein the coding sequence encoding for the selectable marker comprises a) a GTG start codon; b) TTG start codon; c) CTG start codon; d) ATT start codon; And e) a translation start sequence selected from the group consisting of ACG start codons.

당업자는 예를 들면 본 명세서에 참조로 병합된 US 2006/0195935, 특히 실시예 20 ~27에 제공된, 본 발명의 추가의 변경이 가능하다는 것을 이해할 것이다.Those skilled in the art will understand that further modifications of the invention are possible, for example, provided in US 2006/0195935, especially Examples 20-27, incorporated herein by reference.

특정 구현예에서, 효소 디히드로폴레이트 리덕타제(dhfr)를 합성하는 포유동물 5,6,7,8-테트라히드로폴레이트는, 배지에서 히포크산틴과 티미딘(그리고 바람직하기는 글리신)을 생략함으로써 그리고 폴레이트 (또는 디히드록시폴릭산)를 배지에 포함함으로써, a dhfr ^- 표현형을 갖는 세포에서 선택 마커로 사용될 수 있다(예를 들면, CHO-DG44 세포)(Simonsen et al, 1988). dhfr 게놈 유전자는 예를 들면, 마우스 게놈 또는 마우스 cDNA로부터 유래될 수 있고, 그리고 바람직하기는 GTG 또는 TTG 시작코돈을 제공함으로써 본 발명에 따라 사용될 수 있다(dhfr 게놈의 서열에 대해 SEQ. ID. NO. 73을 참조). 이들 구현예 모두에서, '배지로부터 생략하여'는 배지가 표시된 성분(들)을 필수적으로 갖지 않아야 한다는 것으로, 배지에 세포의 성장을 지지하기 위해 존재하는 표시성분이 불충분하고, 따라서 양호한 선택은 표시된 효소에 대한 유전 정보가 세포에 발현되고 표시된 전구체 성분이 배지에 있을 때 가능하다는 것을 의미한다. 예를 들면, 표시된 성분은 특정 세포형에 대한 배지에 일반적으로 사용되는 성분의 농도의 0.1% 미만의 농도로 존재한다. 바람직하기는, 표시된 성분은 배지에 존재하지 않는다. 표시 성분이 부족한 배지는 당업자에 의해 표준 방법에 따라 제조될 수 있거나 또는 시판 매질 공급자로부터 얻을 수 있다. 선택가능한 마커 폴리펩티드로서 이들 타입의 대사성 효소의 사용의 잠재적 이점은 이들을 연속 선택하에서 다중시스트론성 전사 유니트를 유지하는데 사용 할 수 있고, 이것은 관심의 폴리펩티드의 고발현을 가져온다는 것이다.In certain embodiments, the mammalian 5,6,7,8-tetrahydrofolate synthesizing the enzyme dihydrofolate reductase ( dhfr ) comprises hypoxanthine and thymidine (and preferably glycine) in the medium. By omission and by incorporating folate (or dihydroxypolyacid) in the medium, it can be used as a selection marker in cells with a dhfr ^- phenotype (eg CHO-DG44 cells) (Simonsen et al, 1988). . The dhfr genomic gene can be derived from, for example, the mouse genome or mouse cDNA, and can preferably be used according to the invention by providing a GTG or TTG start codon ( dhfr For the sequence of the genome, SEQ. ID. NO. 73). In both of these embodiments, 'omitted from the medium' means that the medium should not necessarily have the component (s) indicated, and there are insufficient indicators present to support the growth of the cells in the medium, so a good choice is indicated. It means that genetic information about the enzyme is available when it is expressed in the cell and the indicated precursor component is in the medium. For example, the indicated components are present at a concentration of less than 0.1% of the concentration of components generally used in the medium for a particular cell type. Preferably, the indicated component is not present in the medium. Media lacking the display components can be prepared according to standard methods by those skilled in the art or can be obtained from commercial media suppliers. A potential advantage of the use of these types of metabolic enzymes as selectable marker polypeptides is that they can be used to maintain multicistronic transcriptional units under continuous selection, resulting in high expression of the polypeptide of interest.

또 다른 면에서, 본 발명은 본 발명에 따른 다중시스트론성 전사 유니트에 추가의 선택마커로서 dhfr 대사성 선택마커를 사용한다. 이와 같은 구현예에서, 고발현을 갖는 숙주세포 클론의 선택은 예를 들면 항생물질 선택 마커, 예를 들면, 제오신, 네노마이신 등의 사용에 의해 우선 확립되고, 그것의 암호화 서열은 본 발명에 따른 GTG 또는 TTG 시작코돈을 가질 것이다. 적합한 클론의 선택 후, 항생물질 선택이 중단되고, 대사성 효소 선택을 이용한 연속적 또는 간헐적 선택이 상기의 적합한 동정된 성분이 부족하고 상기의 적합한 전구체 성분을 함유하는 매질에서 세포를 배양함으로써 수행될 수 있다. 이 면에서, 대사성 선택마커는 IRES에 기능적으로 연결되고, 정상적인 ATG 내용물을 가질 수 있고, 시작코돈은 GTG 또는 TTG로부터 적절히 선택된다. 이 면에서 다중 시스트론성 전사 유니트는 적어도 삼중시스트론성이다. In another aspect, the invention uses the dhfr metabolic selection marker as an additional selection marker in the multicistronic transcriptional unit according to the invention. In such embodiments, the selection of host cell clones with high expression is first established, for example, by the use of antibiotic selection markers such as zeosin, neomycin, and the like, and the coding sequence thereof is described herein. Will have a GTG or TTG start codon according to After selection of the appropriate clone, antibiotic selection is stopped and continuous or intermittent selection using metabolic enzyme selection can be performed by culturing the cells in a medium lacking the appropriate identified components and containing the appropriate precursor components. . In this respect, the metabolic selection markers are functionally linked to the IRES and may have normal ATG contents and the start codon is appropriately selected from GTG or TTG. In this respect the multiple cistronic transfer units are at least triple cystronic.

본 발명의 실시는 다른 언급이 없는 한, 면역학, 분자 생물학, 미생물학, 세포 생물학 및 재조합 DNA의 통상의 기술을 적용할 것이고, 이것은 본 분야에 속한다 (예를 들면, Sambrook, Fritsch and Maniatis, Molecular Cloning: A Laboratory Manual, 2^nd edition, 1989; Current Protocols in Molecular Biology, Ausubel FM, et al, eds, 1987; the series Methods in Enzymology (Academic Press, Inc.); PCR2: A Practical Approach, MacPherson MJ, Hams BD, Taylor GR, eds, 1995; Antibodies: A Laboratory Manual, Harlow and Lane, eds, 1988를 참조 하라).The practice of the present invention will apply conventional techniques of immunology, molecular biology, microbiology, cell biology and recombinant DNA, unless otherwise noted, which belongs to the art (eg, Sambrook, Fritsch and Maniatis, Molecular Cloning). : A Laboratory Manual, 2 ^nd edition, 1989; Current Protocols in Molecular Biology, Ausubel FM, et al, eds, 1987; the series Methods in Enzymology (Academic Press, Inc.); PCR2: A Practical Approach, MacPherson MJ, Hams BD, Taylor GR, eds, 1995; see Antibodies: A Laboratory Manual, Harlow and Lane, eds, 1988).

본 발명은 다음의 실시예에서 더욱 설명된다. 실시예들은 어느 방법으로도 본 발명을 제한하지 않는다. 그들은 단지 본 발명을 명확히 하기 위한 것이다.The invention is further illustrated in the following examples. The examples do not limit the invention in any way. They are merely to clarify the invention.

실시예Example

실시예 1은 본 발명의 다중시스트론성 전사 유니트를 갖는 선택 시스템을 기재하고, 또한 본 명세서에 참조로서 병합된 WO 2006/048459의 실시예 8~26에 기재된 변화를 본 발명의 다중시스트론성 전사 유니트에 대해 적용하고 시험할 수 있다는 것은 명백하다.Example 1 describes a selection system having a multicistronic transfer unit of the invention, and also describes the changes described in Examples 8-26 of WO 2006/048459, incorporated herein by reference. It is clear that the transfer unit can be applied and tested.

실시예Example 1 : 변형된 제오신 내성 유전자를 IRES 서열 뒤에 놓음에 의한 엄격한 선택 1: stringent selection by placing the modified zeocin resistance gene behind the IRES sequence

WO 2006/048459의 실시예 8-26(모두 본 명세서에 참조로서 병합되어 있다)는 선택가능한 마커 단백질을 암호화하는 서열이 다중시스트론성 전사 유니트의 관심의 단백질을 암호화하는 서열의 상류인 선택 시스템을 나타내고, 여기서 선택가능한 마커의 번역 개시 서열은 비-최적이고, 그리고 추가로 내부 ATG는 선택할 수 있는 마커 암호화 서열로부터 제거된다. 이 시스템은 매우 엄격한 선택 시스템을 가져온다. 예를 들면, 번역 개시 코돈이 TTG로 변하는 Zeo 선택마커는 매우 높은 번역 엄격성을 제공하는 것으로 나타났고, 관심의 암호화된 하류의 단백질의 매우 낮은 발현을 가져온다. Examples 8-26 of WO 2006/048459, all of which are incorporated herein by reference, are selected systems in which the sequence encoding the selectable marker protein is upstream of the sequence encoding the protein of interest of the multicistronic transcriptional unit. Wherein the translation initiation sequence of the selectable marker is non-optimal and further internal ATG is removed from the selectable marker coding sequence. This system results in a very strict selection system. For example, Zeo selection markers in which translation initiation codons are converted to TTG have been shown to provide very high translation stringency, resulting in very low expression of the encoded downstream protein of interest.

또 다른 가능한 선택 시스템에서 (즉, 본 발명의 시스템), 선택 마커, 즉 Zeo는 IRES 서열의 하류에 놓인다. 이것은 Zeo 유전자 산물이 IRES-의존 개시에 의 해 번역되는 다중시스트론성 mRNA를 생성한다. 통상의 d2EGFP-IRES-Zeo 구조물(즉, 선행기술의 구조물, 예를 들면, WO 2006/005718)에서, Zeo 시작코돈은 최적 ATG이다. 본 발명자들은 Zeo ATG 시작 코돈을 예를 들면, (IRES-TTG Zeo로 언급되는) TTG로 변경하는 것이 통상의 IRES-ATG Zeo과 비교하여 증가된 선택 엄격성을 가져오는지를 시험하였다. In another possible selection system (ie, the system of the invention), the selection marker, ie Zeo, lies downstream of the IRES sequence. This produces a multicistronic mRNA where the Zeo gene product is translated by IRES-dependent initiation. In conventional d2EGFP-IRES-Zeo structures (ie, prior art structures, eg WO 2006/005718), the Zeo start codon is the optimal ATG. We tested whether changing the Zeo ATG start codon to, for example, TTG (referred to as IRES-TTG Zeo) results in increased select stringency compared to conventional IRES-ATG Zeo.

결과result

사용된 구조물은 도 1에 개략적으로 나타내었다. 조절 구조물은 CMV 프로모터, d2EGFP 유전자, IRES 서열(이 실시예에서 사용된 IRES의 서열 (Rees et al, 1996)은:GCCCCTCTCCCTCCCCCCCCCCTAACGTTACTGGCCGAAGCCGCTTGGAATAAGGCCGGTGTGCGTTTGTCTATATGTGATTTTCCACCATATTGCCGTCTTTTGGCAATGTGAGGGCCCGGAAACCTGGCCCTGTCTTCTTGACGAGCATTCCTAGGGGTCTTTCCCCTCTCGCCAAAGGAATGCAAGGTCTGTTGAATGTCGTGAAGGAAGCAGTTCCTCTGGAAGCTTCTTGAAGACAAACAACGTCTGTAGCGACCCTTTGCAGGCAGCGGAACCCCCCACCTGGCGACAGGTGCCTCTGCGGCCAAAAGCCACGTGTATAAGATACACCTGCAAAGGCGGCACAACCCCAGTGCCACGTTGTGAGTTGGATAGTTGTGGAAAGAGTCAAATGGCTCTCCTCAAGCGTATTCAACAAGGGGCTGAAGGATGCCCAGAAGGTACCCCATTGTATGGGATCTGATCTGGGGCCTCGGTGCACATGCTTTACATGTGTTTAGTCGAGGTTAAAAAAACGTCTAGGCCCCCCGAACCACGGGGACGTGGTTTTCCTTTGAAAAACACGATGATAAGCTTGCCACAACCCCGGGATA; SEQ. ID. NO. 82), 및 TTG Zeo 선택 마커, 즉 TTG 시작 코돈을 갖는 제오신 내성 유전자('d2EGFP-IRES-TTG Zeo')로 이루어졌다. 다른 구조물은 발현 카세트의 상류에 놓인 STAR 7과 STAR 67의 조합물 및 카세트 하류의 STAR 7를 갖는 것을 제외하고는 동일하다('STAR7/67 d2EGFP-IRES-TTG Zeo STAR7'). 두 구조물 모두는 CHO-K1 세포 로 트란스펙트되고 선택은 배지 중의 100㎍/㎖ 제오신으로 수행되었다. 4개의 클로니가 대조 구조물로 트란스펙션 후 나타났고 6개가 STAR 함유 구조물로 나타났다. 이들 독립적인 클로니들을 단리하고 d2EGFP 발현 수준의 분석 전에 증식시켰다. 도 1에 나타낸 바와 같이, 구조물에서 STAR 요소의 병합은 높은 d2EGFP 발현수준을 갖는 콜로니들을 형성시켰다. STAR 요소가 없는 대조 콜로니 중에서('d2EGFP-IRES-TTG Zeo') 오직 하나의 콜로니만이 약간의 d2EGFP의 발현을 보였다. 발현 수준은 또한, STAR 요소를 갖거나 갖지 않는, 표준 ATG 시작코돈을 갖는 정상 Zeo를 갖는 IRES를 함유하는 다른 대조 구조물로 얻은 것보다 훨씬 높았다 ('d2EGFP-IRES-ATG Zeo' 및 STAR 7/67 d2EGFP-IRES-ATG Zeo STAR7'; 또한 이들 ATG Zeo 구조물에서, STAR 요소의 효과가 강화되었고, 그러나 신규한 TTG Zeo 변이체와 비교하여 온순하였다).The structure used is schematically shown in FIG. 1. Regulatory constructs include the CMV promoter, the d2EGFP gene, the IRES sequence (the sequence of IRES used in this example (Rees et al, 1996): SEQ. ID. NO. 82), and the TTG Zeo selection marker, ie the TTG start codon Zeocin resistance gene ('d2EGFP-IRES-TTG Zeo'). The other constructs are identical except that they have a combination of STAR 7 and STAR 67 upstream of the expression cassette and STAR 7 downstream of the cassette ('STAR7 / 67 d2EGFP-IRES-TTG Zeo STAR7'). Both constructs were transfected with CHO-K1 cells and selection was done with 100 μg / ml zeocin in medium. Four clones appeared after transfection as control structures and six as STAR containing structures. These independent clones were isolated and propagated before analysis of d2EGFP expression levels. As shown in FIG. 1, the incorporation of the STAR element in the construct formed colonies with high d2EGFP expression levels. Of the control colonies without the STAR element ('d2EGFP-IRES-TTG Zeo'), only one colony showed some expression of d2EGFP. Expression levels were also much higher than those obtained with other control constructs containing IRES with normal Zeo with standard ATG start codons, with or without the STAR element ('d2EGFP-IRES-ATG Zeo' and STAR 7/67). d2EGFP-IRES-ATG Zeo STAR7 ′; also in these ATG Zeo constructs, the effect of the STAR element was enhanced, but mild compared to the novel TTG Zeo variant).

이 결과는 TTG 시작코돈을 갖는 Zeo 선택 마커를 IRES 서열의 하류방향에 놓는 것은, STAR 요소와 결합하여, 엄격한 선택 시스템을 잘 작동시키고 확립한다는 것을 나타낸다.This result indicates that placing the Zeo selection marker with the TTG start codon downstream of the IRES sequence, in combination with the STAR element, works well and establishes a strict selection system.

이들 자료와 WO 2006/048459의 실시예 8 ~26 및 US 2006/0195935의 실시예 20~27로부터, 마커는 WO 2006/048459의 실시예 8 ~26 및 US 2006/0195935의 실시예 20~27의 동일한 세포주에서 변할 수 있다는 것이 명백하다. 예를 들면, TTG 시작코돈 대신에, GTG 시작코돈이 사용될 수 있고, 마커는 Zeo에서 다른 마커, 예를 들면, Neo, Blas, dhfr, puro 등으로 변할 수 있고, 모두 시작코돈으로 GTG 또는 TTG를 갖는다. STAR 요소는 다른 STAR 서열 또는 그것의 다른 배치를 사용함에 의해, 또는 그들은 다른 크로마틴 대조 요소, 예를 들면 MAR 서열로 대체함에 의해 변할 수 있다. 이것은 정상 ATG 시작코돈을 갖는 마커로 IRES를 갖는 선행기술의 선택 시스템을 넘는 개선을 가져온다.From these data and Examples 8-26 of WO 2006/048459 and Examples 20-27 of US 2006/0195935, the markers of Examples 8-26 of WO 2006/048459 and Examples 20-27 of US 2006/0195935 It is clear that they can change in the same cell line. For example, instead of TTG start codons, GTG start codons can be used, and the markers can change from Zeo to other markers, such as Neo, Blas, dhfr, puro, etc., all of which have GTG or TTG as starter codons. Have STAR elements can be changed by using different STAR sequences or other arrangements thereof, or by replacing them with other chromatin control elements, eg, MAR sequences. This results in an improvement over the prior art selection system with IRES as a marker with normal ATG start codons.

비-제한 실시예로서, 변형된 Zeo 내성 유전자(TTG Zeo) 대신에, 변형된 네오마이신 내성 유전자가 IRES 서열의 하류방향에 놓인다. 변형은 TTG Neo를 생성하는, Neo 암호화 서열의 ATG 번역 개시 코돈의 대체로 이루어진다. STAR 요소에 의해 둘러싸이거나 또는 둘러싸이지 않은 V-d2EGF-IRES-TTG Neo 구조물은 CHO-K1 세포로 트란스펙션된다. 콜로니들을 선택하고, 세포를 증식시키고 d2EGFP 값을 측정한다. 이것은('IRES-TTG Neo') IRES('IRES-ATG-Neo')의 ATG 시작코돈 하류에 Neo를 갖는 공지의 선택 시스템을 넘는 개선을 가져온다. 개선은 본질적으로 TTG Neo 구조물이 STAR 요소를 포함할 때 명백하다.As a non-limiting example, instead of the modified Zeo resistance gene (TTG Zeo), the modified neomycin resistance gene lies downstream of the IRES sequence. The modification consists of the replacement of the ATG translational initiation codon of the Neo coding sequence, producing TTG Neo. The V-d2EGF-IRES-TTG Neo construct, surrounded or not surrounded by the STAR element, is transfected into CHO-K1 cells. Colonies are selected, cells are propagated and the d2EGFP value is measured. This results in an improvement over the known selection system with Neo downstream of the ATG start codon of (IRES-TTG Neo ') IRES (' IRES-ATG-Neo '). The improvement is essentially evident when the TTG Neo construct includes a STAR element.

실시예Example 2: 변형된 2: deformed dhfrdhfr 유전자를 IRES 서열 뒤에 놓음에 의한 발현의 Expression of genes by placing them after the IRES sequence 안정성stability

제오신 선택 마커의 번역 개시 코돈을, 통상의 ATG 코돈보다 훨씬 덜 자주 사용되는 번역 개시 코돈으로 변형시키는 것은 매우 엄격한 선택 시스템을 가져온다. WO 2006/048459의 기재된 선택 시스템에서, TTG Zeo는 관심의 유전자의 상류에 놓인다. 또 다른 가능한 선택 시스템에서, Zeo 선택 마커는 IRES 서열의 하류에 놓인다(본 출원, 실시예 1 참조). 이것은 IRES 서열의 번역 개시 코돈으로부터 Zeo 유전자 산물이 번역되는 이중시스트론성 mRNA를 생성한다.Modification of the translational initiation codon of the zeocin selection marker into a translational initiation codon, which is used much less frequently than conventional ATG codons, results in a very stringent selection system. In the selection system described in WO 2006/048459, TTG Zeo lies upstream of the gene of interest. In another possible selection system, the Zeo selection marker lies downstream of the IRES sequence (see this application, Example 1). This produces a bicistronic mRNA to which the Zeo gene product is translated from the translation initiation codon of the IRES sequence.

이 실험에서, 본 발명자들은 이들 두 시스템의 구현예를 결합하였다. 본 발명자들은 리포터 유전자의 상류에 TTG 마커를 놓고 GTG 또는 TTG 변형 대사성 마커 는 IRES와 리포터 유전자에 결합하였다. 제오신과 네오마이신 내성 유전자 뿐 아니라 dhfr 유전자와 같은, 다양한 선택 마커 유전자를 사용할 수 있다. 여기서, 본 발명자들은 변형된 제오신 내성 유전자, TTG Zeo (WO 2006/048459 참조)를 관심의 유전자의 상류 및 dhfr 선택 유전자를 관심의 유전자의 하류에 놓고 IRES로 연결하였다(도 2). 이 발현 카세트의 목적은 우선 제오신에서의 선택에 의해 고수준으로 단백질을 생산하는 포유동물 세포 클론을 선택하는 것이다. 관심의 배열의 TTG Zeo-유전자는 이 목적을 가장 효과적으로 달성한다. 이 초기 선택 단계 후, dhfr-단백질의 특질은 제오신 항생물질의 부재시 고발현 수준의 유지를 달성하기 위해 적용된다.In this experiment, we combined embodiments of these two systems. We placed a TTG marker upstream of the reporter gene and bound the GTG or TTG modified metabolic marker to the IRES and the reporter gene. Various selection marker genes can be used, such as the dhfr gene as well as the zeocin and neomycin resistance genes. Here, we linked the modified zeocin resistance gene, TTG Zeo (see WO 2006/048459) upstream of the gene of interest and the dhfr selection gene downstream of the gene of interest and linked to IRES (FIG. 2). The purpose of this expression cassette is to first select mammalian cell clones that produce proteins at high levels by selection in zeosin. The TTG Zeo-gene of the array of interest achieves this goal most effectively. After this initial selection step, the nature of the dhfr-protein is applied to achieve maintenance of high expression levels in the absence of zeocin antibiotics.

활성 선택 압력은 연장된 시간에 걸쳐 동일한 고수준으로 TTG Zeo 선택된 클로니에서 단백질 발현 수준을 유지하는데 유익한 것으로 보인다. 이것은 예를 들면, 배지에서 제오신의 양을 최소로 유지함으로써 수행될 수 있지만, 경제적 그리고 잠재적으로 조절 목적에서 현장에 유리하지 않다(제오신은 독성이고 비싸다). The activity selection pressure appears to be beneficial for maintaining protein expression levels in TTG Zeo selected clones at the same high level over extended periods of time. This can be done, for example, by keeping the amount of zeocin in the medium to a minimum, but it is not beneficial to the field for economic and potentially regulatory purposes (zeosin is toxic and expensive).

또 다른 접근은 관심의 유전자를 대사 경로에서 하나 이상의 필수적 단계를 신진대사 시키는 효소인 선택마커에 연결하는 것이다. 본질적으로 세포는 특이 본질적 대사성 빌딩블록 자체를 합성할 수 없다고 생각되므로, 이들 빌딩블록은 세포가 생존하도록 하기 위해 배지에 존재하여야 한다는 것을 의미한다. 잘 알려진 예는, 포유동물에서 합성될 수 없고 세포가 생존하기 위해서는 배지에 존재하여만 하는 필수 아미노산이다. 또 다른 예는 5,6,7,8-테트라히드로폴레이트 합성 dhfr 유전자이다. 상응하는 dhfr 단백질은 폴레이트 경로의 효소이다. dhfr 단백질은 특이 적으로 폴레이트를 5,6,7,8-테트라히드로폴레이트, 퓨린(히포크산틴), 티미딜산 (티미딘) 그리고 아미노산 글리신의 재합성에 요구되는 메틸기 셔틀로 전환시킨다. 작동을 위해, 비-독성 물질 폴레이트는 배지에 존재하여야 한다(Urlaub et al, 1980). 더우기, 매질은 히포크산틴과 티미딘이 부족해야 하고, 이들이 세포에 이용가능하면, dhfr 효소에 대한 요구가 무시되기 때문이다. CHO-DG44 세포는 dhfr 유전자가 부족하고, 그러므로 이들 세포는 생존을 위해 배지에 글리신, 히포크산틴 그리고 티미딘이 요구된다. 그러나, 최종-산물 글리신, 히포크산틴 및 티미딘이 배지에 없고 폴레이트가 존재하면, 그리고 dhfr 유전자가 제공되면 이것은 세포의 발현 카세트에 존재하기 때문에, 세포는 폴레이트를 5,6,7,8-테트라히드로폴레이트로 전환시킬 수 있고, 그러므로, 배지에서 생존할 수 있다. 이 원리는 수년 동안 안정적으로 트란스펙트된 포유동물 세포주를 생성하기 위한 선택방법론으로 사용되어 왔다. Another approach is to link genes of interest to selection markers, enzymes that metabolize one or more essential steps in the metabolic pathway. In essence, cells are thought to be unable to synthesize specific essential metabolic building blocks themselves, meaning that these building blocks must be present in the medium in order for the cells to survive. Well known examples are essential amino acids that cannot be synthesized in mammals and which must only be present in the medium for the cells to survive. Another example is 5,6,7,8-tetrahydrofolate synthesis dhfr It is a gene. The corresponding dhfr protein is an enzyme of the folate pathway. The dhfr protein specifically converts folate into the methyl shuttle required for the resynthesis of 5,6,7,8-tetrahydrofolate, purine (hippoxanthin), thymidylic acid (thymidine) and amino acid glycine. For operation, non-toxic substance folate must be present in the medium (Urlaub et al, 1980). Moreover, the medium must lack hypoxanthine and thymidine, and if they are available to the cell, the requirement for the dhfr enzyme is ignored. CHO-DG44 cells lack the dhfr gene and therefore these cells require glycine, hypoxanthine and thymidine in the medium for survival. However, because the end-products glycine, hipoxanthin and thymidine are not in the medium and folate is present, and when the dhfr gene is provided, it is present in the cell's expression cassette, so the cells are subject to folate 5,6,7, Can be converted to 8-tetrahydrofolate and therefore can survive in the medium. This principle has been used for many years as a selection methodology for generating stably transfected mammalian cell lines.

여기서, 본 발명자들은 이 원리를 처음에 안정한 클론을 선택하는 것이 아니라(이것은 제오신으로 수행된다), 세포를 대사성 선택 압력하에 유지하는데 사용한다. 이 장점은 초기 매우 높은 단백질 발현이 TTG Zeo 선택 시스템을 통해 얻어질 수 있고, 이런 고발현 수준은, 배지에 제오신을 유지할 필요없이, 유지될 수 있다는 것이다. 대신에, 제오신은 매질에서 제거될 수 있고, 배지에서 글리신, 히포크산틴 및 티미딘(GHT) 또는 단지 히포크산틴과 티미딘의 부재는 높은 단백질 발현 수준을 보장하는데 충분히 높은 선택 압력을 유지하는데 충분하다. 이와 같은 배열은 두 개의 선택 마커의 존재를 필요로 하고, 제오신 내성 유전자와 dhfr 유전자 모두는 발현카세트에 존재할 필요가 있다. 위에 약술한 바와 같이, 두 유전자 모두가 관심의 유전자를 가지고 삼중시스트론성 mRNA가 전사되는 배열이 단일 프로모터를 형성하는 것을 충분히 달성한다. 변형된 제오신 내성 유전자(TTG Zeo)가 d2EGFP 유전자의 상류에 적용되면, dhfr 유전자는 예를 들면, IRES 서열을 통해 d2EGFP 유전자에 연결되기 위해 하류에 존재하여야 한다(도 1).Here, we use this principle not to initially select stable clones (which are done with zeocin) but to keep cells under metabolic selection pressure. This advantage is that initial very high protein expression can be obtained through the TTG Zeo selection system, and this high expression level can be maintained without the need to maintain zeocin in the medium. Instead, zeocin can be removed from the medium and the absence of glycine, hypoxanthine and thymidine (GHT) or only hypoxanthine and thymidine in the medium maintains a high enough pressure to ensure high protein expression levels. Enough to do This arrangement requires the presence of two selection markers, and both the zeocin resistance gene and the dhfr gene need to be present in the expression cassette. As outlined above, the arrangement in which both genes have the gene of interest and the tricistronic mRNA is transcribed enough to form a single promoter. If a modified zecin resistance gene (TTG Zeo) is applied upstream of the d2EGFP gene, the dhfr gene must be downstream to link to the d2EGFP gene, for example via the IRES sequence (FIG. 1).

결과result

본 발명자들은 TTG Zeo 선택 마커가 d2EGFP 수용체 유전자의 상류에 놓이고 dhfr 선택마커는 d2EGFP 유전자의 하류에 놓이고, IRES 서열을 통해 연결된 구조물을 만들었다(도 2). 이들 구조물을 STARs 7/67/7로 플랭크하였다. 이들 구조물의 3가지 버전을 만들었다: ATG dhfr, GTG dhfr 또는 TTG dhfr, 각각의 이름은 dhfr 유전자에 사용된 시작코돈을 나타낸다. 구조물을 CHO-DG44 세포에 트란스펙트시켰다. DNA를 Lipofectamine 2000 (Invitrogen)과 세포를 사용하여 트란스펙트시키고, 세포를 IMDM 매질(Gibco) + 10% FBS (Gibco) + HT-보충물 중에서 제오신 비보충물 400㎍/㎖ 의 존재하에 성장시켰다.We created a construct where the TTG Zeo selection marker was placed upstream of the d2EGFP receptor gene and the dhfr selection marker was downstream of the d2EGFP gene and linked via an IRES sequence (FIG. 2). These structures were flanked with STARs 7/67/7. Three versions of these constructs were made: ATG dhfr, GTG dhfr or TTG dhfr, each name representing the start codon used in the dhfr gene. The constructs were transfected into CHO-DG44 cells. DNA was transfected with Lipofectamine 2000 (Invitrogen) and cells, and cells were grown in the presence of 400 μg / ml of zeocin non-supplement in IMDM medium (Gibco) + 10% FBS (Gibco) + HT-supplement .

14 TTG Zeo IRES ATG dhfr clones에서 평균 d2EGFP 값은, 제오신 400㎍/㎖의 존재에서 측정하였을 때 341이었다(도 2). 이 측정 후, 세포를 쪼개고, 추가로 3가지 조건에서 배양하였다:The average d2EGFP value in 14 TTG Zeo IRES ATG dhfr clones was 341 as measured in the presence of 400 μg / ml of zeocine (FIG. 2). After this measurement, the cells were split and further cultured under three conditions:

(1) 매질에서 400㎍/㎖ 제오신 및 히포크산틴과 티미딘(HT-보충),(1) 400 μg / ml zeocin and hypoxanthine and thymidine (HT-supplement) in the medium,

(2) 제오신은 없이, 그러나 매질에서 HT-보충으로,(2) without eosin, but with HT-supplement in the medium,

(3) 제오신 없이 그리고 HT-보충 없이.(3) without eosin and without HT-supplement.

요약하면, 조건 1에서, 세포는 오직 제오신 선택 압력하에 있고, 조건 2에서 세포는 어느 선택 압력하에도 있지 않고 그리고 조건 3에서 세포는 DHFR 선택 압력하에 남는다. 후자의 조건 3은 그 결과, dhfr 단백질의 발현과 세포 생존을 허용하기 위해 dhfr 유전자의 연속 발현을 허용한다.In summary, under condition 1, the cells are only under zeosin selection pressure, under condition 2 the cells are not under any selection pressure and under condition 3 the cells remain under DHFR selection pressure. The latter condition 3, as a result, allows continuous expression of the dhfr gene to allow expression of the dhfr protein and cell survival.

65일 후, 본 발명자들은 d2EGFP 값을 다시 측정하였다. 제오신 선택하에서 TTG Zeo IRES ATG dhfr 클론에서 평균 d2EGFP 값은 이제 159였다(도 2). 제오신 없이 그리고 HT 보충물로 TTG Zeo IRES ATG dhfr 클론에서 평균 d2EGFP 값은 20이었다(도 2). 제오신 선택없이 그리고 HT 보충물 없이, TTG Zeo IRES ATG dhfr 클론의 평균 d2EGFP 값은 37이었다(도 2). 전체적으로, 그러므로 본 발명자는 d2EGFP 값의 하락을 관찰하였고, 그러나 HT 보충물의 존재 여부에 상관없이 제오신의 부재에서 가장 심각하였다.After 65 days, we measured the d2EGFP value again. The average d2EGFP value in the TTG Zeo IRES ATG dhfr clone under Zeosin selection was now 159 (FIG. 2). The average d2EGFP value was 20 in the TTG Zeo IRES ATG dhfr clone without zeocin and with HT supplementation (FIG. 2). Without zeosin selection and without HT supplementation, the average d2EGFP value of the TTG Zeo IRES ATG dhfr clone was 37 (FIG. 2). Overall, we therefore observed a drop in d2EGFP value, but most severe in the absence of zeocin, with or without the presence of HT supplement.

본 발명자들은 TTG Zeo IRES GTG dhfr 구조물로 동일한 프로토콜을 따랐다. 15 TTG Zeo IRES GTG dhfr 클론에서 제오신 400㎍/㎖의 존재하에 측정하였을 때 평균 d2EGFP 값은 455였다 (제1일) (도 3). 이들 측정 후, 세포를 쪼개고 상기의 세가지 조건하에서 더욱 배양하였다. 65일 후, 본 발명자들은 d2EGFP 값을 다시 측정하였다. 제오신 선택하에서 TTG Zeo IRES GTG dhfr 클론의 평균 d2EGFP 값은 356 이었다(도 3). 제오신 선택없이 그리고 HT 보충물을 갖는 TTG Zeo IRES GTG dhfr 클론에서 평균 d2EGFP 값은 39였다 (도 3). 제오신 선택없이 그리고 HT 보충물 없이 TTG Zeo IRES GTG dhfr 클론에서 평균 d2EGFP 값은 705였다 (도 3).We followed the same protocol with the TTG Zeo IRES GTG dhfr construct. The average d2EGFP value was 455 (day 1) as measured in the presence of 400 μg / ml zeocin in the 15 TTG Zeo IRES GTG dhfr clone (Day 3). After these measurements, cells were split and further cultured under the three conditions described above. After 65 days, we measured the d2EGFP value again. The average d2EGFP value of the TTG Zeo IRES GTG dhfr clone under Zeosin selection was 356 (FIG. 3). The mean d2EGFP value was 39 in the TTG Zeo IRES GTG dhfr clone without Zeosin selection and with HT supplement (FIG. 3). The average d2EGFP value was 705 in the TTG Zeo IRES GTG dhfr clone without zeosin selection and without HT supplement (FIG. 3).

그러므로, 이 경우, 본 발명자들은 제오신이 없고 HT 보충물이 존재하는 경 우에만 d2EGFP 값의 하락을 관찰하였다(조건 2). 제오신의 부재시, 그러나 HT 보충물 역시 없는 경우, d2EGFP 값은 실제적으로 상당히 높았다(조건 3). 이것은 dhfr단백질의 발현 수준이 GTG dhfr mRNA의 악화된 번역 빈도로 인해 매우 높은 선택 엄격성을 제공하기에 충분히 낮다는 것을 나타낼 수 있다. 이 선택 압력은, 어느 독성약제의 부재시, 시간에 걸쳐 높은 단백질 발현 수준을 유지하는데 충분히 높고, 외관상 시간에 걸친 이들 발현 수준을 개선한다.Therefore, in this case, we observed a drop in d2EGFP value only in the absence of zeocin and in the presence of HT supplement (condition 2). In the absence of zeosin, but without the HT supplement, the d2EGFP value was actually quite high (condition 3). This may indicate that the expression level of dhfr protein is low enough to provide very high selection stringency due to the worsened translation frequency of GTG dhfr mRNA. This selection pressure is high enough to maintain high protein expression levels over time in the absence of any toxic agent and apparently improves these expression levels over time.

본 발명자들은 TTG Zeo IRES TTG dhfr 구조물에도 동일한 것을 행하였다. 18 TTG Zeo IRES TTG dhfr 클론에서, 제오신 400㎍/㎖의 존재하에 측정하였을 때 평균 d2EGFP 값은 531 이었다(제1일)(도 4). 이들 측정 후, 세포를 쪼개고 상기의 세가지 조건하에서 더욱 배양하였다. 65일 후, 본 발명자들은 d2EGFP 값을 다시 측정하였다. 제오신 선택하에서 TTG Zeo IRES GTG dhfr 클론의 평균 d2EGFP 값은 324였다(도 4). 제오신 선택없이 그리고 HT 보충물을 갖는 TTG Zeo IRES TTG dhfr 클론에서 평균 d2EGFP 값은 33이었다 (도 4). 제오신 선택없이 그리고 HT 보충물 없이 TTG Zeo IRES TTG dhfr 클론에서 평균 d2EGFP 값은 1124였다 (도 4).The inventors have done the same for the TTG Zeo IRES TTG dhfr structure. In the 18 TTG Zeo IRES TTG dhfr clone, the average d2EGFP value was 531 as measured in the presence of 400 μg / ml zeocin (day 1) (FIG. 4). After these measurements, cells were split and further cultured under the three conditions described above. After 65 days, we measured the d2EGFP value again. The average d2EGFP value of the TTG Zeo IRES GTG dhfr clone under Zeosin selection was 324 (FIG. 4). The mean d2EGFP value was 33 in the TTG Zeo IRES TTG dhfr clone without Zeosin selection and with HT supplement (FIG. 4). The average d2EGFP value was 1124 in the TTG Zeo IRES TTG dhfr clone without zeosin selection and without HT supplement (FIG. 4).

다시, 본 발명자들은 제오신이 없고 HT 보충물이 존재하는 경우 d2EGFP 값의 하락을 관찰하였다(조건 2). 제오신의 부재시, 그러나 HT 보충물 역시 없는 경우, d2EGFP 값은 TTG Zeo IRES GTG dhfr 구조물의 경우보다 더 높았다(조건 3). TTG 변이체는 GTG 변이체보다 더 엄격하므로 dhfr 단백질이 TTG dhfr으로 GTG dhfr 변이체로보다 훨씬 덜 번역될 것으로 예상된다. 어느 독성 약물의 부재시, 증가된 선택 압력은 시간에 걸쳐 높은 단백질 발현 수준을 유지하는데 충분히 높고, 외관상 시 간에 걸친 이들 발현 수준을 더욱 개선한다.Again, we observed a drop in d2EGFP value in the absence of zeocin and in the presence of HT supplements (condition 2). In the absence of zeosin, but without the HT supplement also, the d2EGFP value was higher than for the TTG Zeo IRES GTG dhfr construct (condition 3). Since TTG variants are more stringent than GTG variants, it is expected that dhfr protein will be translated into TTG dhfr much less than to GTG dhfr variants. In the absence of any toxic drug, the increased selection pressure is high enough to maintain high protein expression levels over time, and apparently further improve these expression levels over time.

자료는 dhfr 유전자의 비-ATG 시작코돈-변이체가 IRES를 통해 d2EGFP 유전자에 결합하는 것이 CHO-DG44 세포에서 d2EGFP 발현의 높은 안정성을 허용한다는 것을 나타낸다. 이것은 제오신이 없고 필수적인 대사성 최종산물이 없는 배지에서 일어난다. 변형된 TTG를 통한 제오신에서 대한 선택 전에, Zeo 선택 마커는 높은 d2EGFP 발현 수준을 갖는 콜로니의 효과적인 확립을 허용한다. 단지 배지의 단순한 변화는(제오신과 HT의 제거) 높은 d2EGFP 발현 수준을 유지하고 그리고 이들 발현 수준을 더욱 개선하는데 요구된다. The data indicate that binding of the non-ATG start codon-variant of the dhfr gene to the d2EGFP gene via IRES allows high stability of d2EGFP expression in CHO-DG44 cells. This occurs in medium without zeocin and no essential metabolic end products. Prior to selection for zeosin via modified TTG, Zeo selection markers allow for the effective establishment of colonies with high d2EGFP expression levels. Only a simple change of medium (removal of zeosin and HT) is required to maintain high d2EGFP expression levels and to further improve these expression levels.

실시예Example 3: 약해진 IRES 서열 뒤에 변형된 3: modified after weakened IRES sequence dhfrdhfr 유전자를 놓음에 의해 By releasing the gene 증가된Increased 발현은 유전자 증폭 결과를 가져오지 않는다. Expression does not result in gene amplification.

선행기술에서 선택 마커로서 dhfr 유전자의 사용은 종종 dhfr 유전자의 증폭에 의존한다. 독성 약제, 메토트렉세이트가 이와 같은 시스템에서 dhfr 유전자와 부수적으로 그것과 함께 원하는 트란스유전자를 증폭하는데 사용되었고 이와 같은 증폭 후 최대 수천개의 사본이 CHO 세포의 게놈에 병합되는 것을 발견할 수 있다. 비록 이들 많은 수의 사본이 높은 발현 수준을 가져오지만, 이들은 또한 게놈성 불안정성을 가져오고, 배지로부터 메토트렉세이트의 제거는 증폭된 많은 유전자 자리의 제거를 가져온다.The use of the dhfr gene as a selection marker in the prior art often depends on the amplification of the dhfr gene. Toxic agents, methotrexate, have been used in such systems to amplify the dhfr gene and concomitantly with the desired transgene, and after such amplification it can be found that up to thousands of copies are incorporated into the genome of CHO cells. Although these large numbers of copies result in high expression levels, they also result in genomic instability, and removal of methotrexate from the medium results in the removal of many amplified loci.

실시예 2에서, dhfr 효소 활성을 억제하는데 메토트렉세이트를 사용하지 않았다. 오직 히포크산틴과 티미딘 전구체를 배지로부터 제거하였고, 이것은 단백질 발현과 증가된 발현 수준 모두를 얻는데 충분하였다. 그러므로, 본 발명자는 본 세 팅에서 dhfr 효소의 사용이 유전자 증폭을 가져왔다고 결정하였다. In Example 2, methotrexate was not used to inhibit dhfr enzyme activity. Only hypoxanthine and thymidine precursors were removed from the medium, which was sufficient to obtain both protein expression and increased expression levels. Therefore, we determined that the use of the dhfr enzyme in this set resulted in gene amplification.

결과result

본 발명자들은 실시예 2에 기재된 클론으로부터 DNA를 단리하였고, 같은 날(65) d2EGFP 값을 측정하였다. 이 DNA를 가지고, 본 발명자들은 d2EGFP 사본 수를 측정하였다. We isolated DNA from the clones described in Example 2 and measured 65 d2EGFP values on the same day. With this DNA, we measured the number of d2EGFP copies.

제오신 선택하에서 TTG Zeo IRES ATG dhfr 선택에서의 평균 d2EGFP 사본 수는 86이었다(조건 1)(도 5). 제오신 선택이 없고 HT 보충물의 존재시 TTG Zeo IRES ATG dhfr 클로니의 평균 d2EGFP 사본 수는 53이었다(조건 2)(도 5). 제오신 선택이없고 HT 보충물이 없이 TTG Zeo IRES ATG dhfr 클론에서 평균 d2EGFP 사본 수는 59였다 (조건 3)(도 5).The average number of d2EGFP copies in TTG Zeo IRES ATG dhfr selection under Zeosin selection was 86 (condition 1) (FIG. 5). The average number of d2EGFP copies of TTG Zeo IRES ATG dhfr clones in the absence of zeocin selection and in the presence of HT supplements was 53 (condition 2) (FIG. 5). The average number of d2EGFP copies in the TTG Zeo IRES ATG dhfr clone with no zeocin selection and no HT supplement was 59 (condition 3) (FIG. 5).

제오신 선택하의 TTG Zeo IRES GTG dhfr 클론에서 평균 d2EGFP 사본 수는 23이었다 (조건 1)(도 6). 제오신 선택이 없고 HT 보충물의 존재에서 TTG Zeo IRES GTG dhfr 클론의 평균 d2EGFP 사본 수는 14였다 (조건 2)(도 6). 제오신 선택이 없고 HT 보충물이 없이 TTG Zeo IRES GTG dhfr 클론에서의 평균 d2EGFP 사본 수는 37 이었다(조건 3)(도 6).The average number of d2EGFP copies in the TTG Zeo IRES GTG dhfr clone under Zeosin selection was 23 (condition 1) (FIG. 6). The average d2EGFP copy number of the TTG Zeo IRES GTG dhfr clone was 14 in the absence of zeocin selection and in the presence of HT supplement (condition 2) (FIG. 6). The average number of d2EGFP copies in the TTG Zeo IRES GTG dhfr clone without zeosin selection and without HT supplementation was 37 (condition 3) (FIG. 6).

제오신 선택하에서 TTG Zeo IRES TTG dhfr 클론에서 평균 d2EGFP 사본 수는 33이었다 (조건 1)(도 7). 제오신 선택 없이 HT 보충물의 존재에서 TTG Zeo IRES TTG dhfr 클론에서 평균 d2EGFP 사본 수는 26이었다 (조건 2)(도 7). 제오신 선택 없이 그리고 HT 보충물 없이 TTG Zeo IRES TTG dhfr 클론에서 평균 d2EGFP 사본 수는 32였다 (조건 3)(도 7).The average number of d2EGFP copies in the TTG Zeo IRES TTG dhfr clone under Zeosin selection was 33 (condition 1) (FIG. 7). The average d2EGFP copy number in the TTG Zeo IRES TTG dhfr clone in the presence of HT supplement without zeosin selection was 26 (condition 2) (FIG. 7). The average d2EGFP copy number was 32 in the TTG Zeo IRES TTG dhfr clone without zeosin selection and without HT supplementation (condition 3) (FIG. 7).

본 발명자들이 관찰한 어느 경우에도 HT 보충물의 제거 후 d2EGFP 사본 수의 큰 증가가 없었고, 이것은 GTG dhfr 및 TTG dhfr 변이체에서 d2EGFP 값의 증가를 가져왔다. 두 구조물을 갖는 d2EGFP 값은 시간에 걸쳐 안정하였고 상당히 증가되었다는 사실은 dhfr 단백질의 작용에 기인한 것임에 틀림없다. 여전히 TTG Zeo TTG dhfr 클론에서 전혀 증가된 d2EGFP 사본 수가 관찰되지 않았고, 오직 TTG Zeo GTG dhfr 클론에 적당한 증가가 있었다. 흥미롭기는, 가장 낮은 생산자에서 전체 d2EGFP 사본 수, TTG Zeo ATG dhfr 클론은 다른 두 개의 변이체에서보다 높은 반면, 이들 클론은 초기의 높은 d2EGFP 형광값을 유지하지 않았다(실시예 2 참조). 본 발명자들은 이들 자료로부터 메토트렉세이트의 첨가와 결합하여 dhfr 단백질을 사용할 때 관찰된, 통상적으로 알려진 유전자 증폭은 시간에 걸친 d2EGFP 발현 수준을 안정하게 유지하는 것과 이들 발현 수준에서 관찰된 증가에 대해 책임이 없다는 결론을 얻었다. 대신, d2EGFP에 의하여 더 많은 d2EGFP 단백질이 GTG and TTG dhfr 변이체와 함께 발현되는 것으로 나타난다.In either case we observed no significant increase in the number of d2EGFP copies after removal of the HT supplement, which resulted in an increase in d2EGFP values in the GTG dhfr and TTG dhfr variants. The fact that the d2EGFP values with both constructs were stable over time and increased significantly must be due to the action of the dhfr protein. Still no increased d2EGFP copy numbers were observed in the TTG Zeo TTG dhfr clones, only a modest increase in the TTG Zeo GTG dhfr clones. Interestingly, the total number of d2EGFP copies at the lowest producer, TTG Zeo ATG dhfr clones were higher than in the other two variants, while these clones did not maintain the initial high d2EGFP fluorescence (see Example 2). We have found that commonly known gene amplifications observed when using the dhfr protein in combination with the addition of methotrexate from these data are not responsible for maintaining d2EGFP expression levels stable over time and the observed increases in these expression levels. A conclusion was made. Instead, d2EGFP appears to express more d2EGFP protein with GTG and TTG dhfr variants.

본 발명자들은 다양한 클론에 대해 상기와 같은 다양한 조건하에서 d2EGFP mRNA 수준을 더욱 분석하였고, 이들 mRNA 수준이 d2EGFP 형광값의 경향을 대체로 따른다는 것을 발견하였다. 그러므로, 본 발명자들은 d2EGFP 형광값의 증가가 증가된 mRNA 수준에 기인하고, 변형된 번역 효율에 기인하는 것이 아니라고 결론지었다. We further analyzed d2EGFP mRNA levels for various clones under these various conditions and found that these mRNA levels generally follow the trend of d2EGFP fluorescence values. Therefore, we concluded that the increase in d2EGFP fluorescence value is due to increased mRNA level and not due to modified translation efficiency.

참조 문헌Reference

Kaufman, RJ. (2000) Overview of vector design for mammalian gene expression Mol Biotechnol 16, 151-160.Kaufman, RJ. (2000) Overview of vector design for mammalian gene expression Mol Biotechnol 16 , 151-160.

Kozak M. (1986) Point mutations define a sequence flanking the AUG initiator codon that modulates translation by eukaryotic ribosomes. Cell 44: 283-292.Kozak M. (1986) Point mutations define a sequence flanking the AUG initiator codon that modulates translation by eukaryotic ribosomes. Cell 44: 283-292.

Kozak M. (1987) An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs. Nucleic Acids Res. 15: 8125-8148.Kozak M. (1987) An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs. Nucleic Acids Res. 15: 8125-8148.

Kozak M. (1989) Context effects and inefficient initiation at non-AUG codons in eucaryotic cell-free translation systems. Mol Cell Biol. 9: 5073-5080.Kozak M. (1989) Context effects and inefficient initiation at non-AUG codons in eucaryotic cell-free translation systems. Mol Cell Biol. 9: 5073-5080.

Kozak M. (1990) Downstream secondary structure facilitates recognition of initiator codons by eukaryotic ribosomes. Proc Natl Acad Sci USA 87:8301-8305.Kozak M. (1990) Downstream secondary structure facilitates recognition of initiator codons by eukaryotic ribosomes. Proc Natl Acad Sci USA 87: 8301-8305.

Kozak M. (1997) Recognition of AUG and alternative initiator codons is augmented by G in position +4 but is not generally affected by the nucleotides in positions +5 and +6. EMBO J. 16: 2482-2492.Kozak M. (1997) Recognition of AUG and alternative initiator codons is augmented by G in position +4 but is not generally affected by the nucleotides in positions +5 and +6. EMBO J. 16: 2482-2492.

Kozak M. (2002) Pushing the limits of the scanning mechanism for initiation of translation. Gene 299: 1-34.Kozak M. (2002) Pushing the limits of the scanning mechanism for initiation of translation. Gene 299: 1-34.

Lopez de Quinto, S, and Martinez-Salas, E. (1998) Parameters influencing translational efficiency in aphthovirus IRES- based bicistronic expression vectors Gene 217, 51-6.Lopez de Quinto, S, and Martinez-Salas, E. (1998) Parameters influencing translational efficiency in aphthovirus IRES-based bicistronic expression vectors Gene 217 , 51-6.

Martinez-Salas, E. (1999) Internal ribosome entry site biology and its use in expression vectors Curr Opin Biotechnol 10, 458-64.Martinez-Salas, E. (1999) Internal ribosome entry site biology and its use in expression vectors Curr Opin Biotechnol 10 , 458-64.

McBurney, MW, Mai, T, Yang, X, and Jardine, K. (2002) Evidence for repeat-induced gene silencing in cultured Mammalian cells: inactivation of tandem repeats of transfected genes Exp Cell Res 274, 1-8.McBurney, MW, Mai, T, Yang, X, and Jardine, K. (2002) Evidence for repeat-induced gene silencing in cultured Mammalian cells: inactivation of tandem repeats of transfected genes Exp Cell Res 274 , 1-8.

Mizuguchi, H, Xu, Z, Ishii-Watabe, A, Uchida, E, and Hayakawa, T. (2000) IRES-dependent second gene expression is significantly lower than cap- dependent first gene expression in a bicistronic vector Mol Ther 1, 376-82.Mizuguchi, H, Xu, Z, Ishii-Watabe, A, Uchida, E, and Hayakawa, T. (2000) IRES-dependent second gene expression is significantly lower than cap-dependent first gene expression in a bicistronic vector Mol Ther 1 , 376-82.

Rees, S, Coote, J, Stables, J, Goodson, S, Harris, S, and Lee, MG. (1996) Bicistronic vector for the creation of stable mammalian cell lines that predisposes all antibiotic-resistant cells to express recombinant protein Biotechniques 20, 102-104, 106, 108-110.Rees, S, Coote, J, Stables, J, Goodson, S, Harris, S, and Lee, MG. (1996) Bicistronic vector for the creation of stable mammalian cell lines that predisposes all antibiotic-resistant cells to express recombinant protein Biotechniques 20 , 102-104, 106, 108-110.

Urlaub, G. & Chasin, L.A. Isolation of Chinese hamster cell mutants deficient in dihydrofolate reductase activity. Proc Natl Acad Sci U S A 77, 4216-20 (1980).Urlaub, G. & Chasin, LA Isolation of Chinese hamster cell mutants deficient in dihydrofolate reductase activity. Proc Natl Acad Sci USA 77, 4216-20 (1980).

Venkatesan, A, and Dasgupta, A. (2001) Novel fluorescence-based screen to identify small synthetic internal ribosome entry site elements Mol Cell Biol 21, 2826-37.Venkatesan, A, and Dasgupta, A. (2001) Novel fluorescence-based screen to identify small synthetic internal ribosome entry site elements Mol Cell Biol 21 , 2826-37.

Whitelaw, E, Sutherland, H, Kearns, M, Morgan, H, Weaving, L, and Garrick, D. (2001) Epigenetic effects on transgene expression Methods Mol Biol 158, 351-68.Whitelaw, E, Sutherland, H, Kearns, M, Morgan, H, Weaving, L, and Garrick, D. (2001) Epigenetic effects on transgene expression Methods Mol Biol 158 , 351-68.

SEQUENCE LISTING <110> ChromaGenics B.V. Otte, Arie P. Kwaks, Theodorus H.J. Sewalt, Richard G.A.B. van Blokland, Rik <120> Selection of host cells expressing protein at high levels <130> 0117 A WO 01 ORD <150> US 11/359,953 <151> 2006-02-21 <150> US 11/269,525 <151> 2005-11-07 <150> US 60/626,301 <151> 2004-11-08 <150> US 60/696,610 <151> 2005-07-05 <150> EP 04105593.0 <151> 2004-11-08 <160> 82 <170> PatentIn version 3.3 <210> 1 <211> 749 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR1 <400> 1 atgcggtggg ggcgcgccag agactcgtgg gatccttggc ttggatgttt ggatctttct 60 gagttgcctg tgccgcgaaa gacaggtaca tttctgatta ggcctgtgaa gcctcctgga 120 ggaccatctc attaagacga tggtattgga gggagagtca cagaaagaac tgtggcccct 180 ccctcactgc aaaacggaag tgattttatt ttaatgggag ttggaatatg tgagggctgc 240 aggaaccagt ctccctcctt cttggttgga aaagctgggg ctggcctcag agacaggttt 300 tttggccccg ctgggctggg cagtctagtc gaccctttgt agactgtgca cacccctaga 360 agagcaacta cccctataca ccaggctggc tcaagtgaaa ggggctctgg gctccagtct 420 ggaaaatctg gtgtcctggg gacctctggt cttgcttctc tcctcccctg cactggctct 480 gggtgcttat ctctgcagaa gcttctcgct agcaaaccca cattcagcgc cctgtagctg 540 aacacagcac aaaaagccct agagatcaaa agcattagta tgggcagttg agcgggaggt 600 gaatatttaa cgcttttgtt catcaataac tcgttggctt tgacctgtct gaacaagtcg 660 agcaataagg tgaaatgcag gtcacagcgt ctaacaaata tgaaaatgtg tatattcacc 720 ccggtctcca gccggcgcgc caggctccc 749 <210> 2 <211> 883 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR2 <400> 2 gggtgcttcc tgaattcttc cctgagaagg atggtggccg gtaaggtccg tgtaggtggg 60 gtgcggctcc ccaggccccg gcccgtggtg gtggccgctg cccagcggcc cggcaccccc 120 atagtccatg gcgcccgagg cagcgtgggg gaggtgagtt agaccaaaga gggctggccc 180 ggagttgctc atgggctcca catagctgcc ccccacgaag acggggcttc cctgtatgtg 240 tggggtccca tagctgccgt tgccctgcag gccatgagcg tgcgggtcat agtcgggggt 300 gccccctgcg cccgcccctg ccgccgtgta gcgcttctgt gggggtggcg ggggtgcgca 360 gctgggcagg gacgcagggt aggaggcggg gggcagcccg taggtaccct gggggggctt 420 ggagaagggc gggggcgact ggggctcata cgggacgctg ttgaccagcg aatgcataga 480 gttcagatag ccaccggctc cggggggcac ggggctgcga cttggagact ggccccccga 540 tgacgttagc atgcccttgc ccttctgatc ctttttgtac ttcatgcggc gattctggaa 600 ccagatcttg atctggcgct cagtgaggtt cagcagattg gccatctcca cccggcgcgg 660 ccggcacagg tagcggttga agtggaactc tttctccagc tccaccagct gcgcgctcgt 720 gtaggccgtg cgcgcgcgct tggacgaagc ctgccccggc gggctcttgt cgccagcgca 780 gctttcgcct gcgaggacag agagaggaag agcggcgtca ggggctgccg cggccccgcc 840 cagcccctga cccagcccgg cccctccttc caccaggccc caa 883 <210> 3 <211> 2126 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR3 <400> 3 atctcgagta ctgaaatagg agtaaatctg aagagcaaat aagatgagcc agaaaaccat 60 gaaaagaaca gggactacca gttgattcca caaggacatt cccaaggtga gaaggccata 120 tacctccact acctgaacca attctctgta tgcagattta gcaaggttat aaggtagcaa 180 aagattagac ccaagaaaat agagaacttc caatccagta aaaatcatag caaatttatt 240 gatgataaca attgtctcca aaggaacaag gcagagtcgt gctagcagag gaagcacgtg 300 agctgaaaac agccaaatct gctttgtttt catgacacag gagcataaag tacacaccac 360 caactgacct attaaggctg tggtaaaccg attcatagag agaggttcta aatacattgg 420 tccctcacag gcaaactgca gttcgctccg aacgtagtcc ctggaaattt gatgtccagt 480 atagaaaagc agagcagtca aaaaatatag ataaagctga accagatgtt gcctgggcaa 540 tgttagcagc accacactta agatataacc tcaggctgtg gactccctcc ctggggagcg 600 gtgctgccgg cggcgggcgg gctccgcaac tccccggctc tctcgcccgc cctcccgttc 660 tcctcgggcg gcggcggggg ccgggactgc gccgctcaca gcggcggctc ttctgcgccc 720 ggcctcggag gcagtggcgg tggcggccat ggcctcctgc gttcgccgat gtcagcattt 780 cgaactgagg gtcatctcct tgggactggt tagacagtgg gtgcagccca cggagggcga 840 gttgaagcag ggtggggtgt cacctccccc aggaagtcca gtgggtcagg gaactccctc 900 ccctagccaa gggaggccgt gagggactgt gcccggtgag agactgtgcc ctgaggaaag 960 gtgcactctg gcccagatac tacacttttc ccacggtctt caaaacccgc agaccaggag 1020 attccctcgg gttcctacac caccaggacc ctgggtttca accacaaaac cgggccattt 1080 gggcagacac ccagctagct gcaagagttg tttttttttt tatactcctg tggcacctgg 1140 aacgccagcg agagagcacc tttcactccc ctggaaaggg ggctgaaggc agggaccttt 1200 agctgcgggc tagggggttt ggggttgagt gggggagggg agagggaaaa ggcctcgtca 1260 ttggcgtcgt ctgcagccaa taaggctacg ctcctctgct gcgagtagac ccaatccttt 1320 cctagaggtg gagggggcgg gtaggtggaa gtagaggtgg cgcggtatct aggagagaga 1380 aaaagggctg gaccaatagg tgcccggaag aggcggaccc agcggtctgt tgattggtat 1440 tggcagtgga ccctcccccg gggtggtgcc ggaggggggg atgatgggtc gaggggtgtg 1500 tttatgtgga agcgagatga ccggcaggaa cctgccccaa tgggctgcag agtggttagt 1560 gagtgggtga cagacagacc cgtaggccaa cgggtggcct taagtgtctt tggtctcctc 1620 caatggagca gcggcggggc gggaccgcga ctcgggttta atgagactcc attgggctgt 1680 aatcagtgtc atgtcggatt catgtcaacg acaacaacag ggggacacaa aatggcggcg 1740 gcttagtcct acccctggcg gcggcggcag cggtggcgga ggcgacggca ctcctccagg 1800 cggcagccgc agtttctcag gcagcggcag cgcccccggc aggcgcggtg gcggtggcgc 1860 gcagccaggt ctgtcaccca ccccgcgcgt tcccaggggg aggagactgg gcgggagggg 1920 ggaacagacg gggggggatt caggggcttg cgacgcccct cccacaggcc tctgcgcgag 1980 ggtcaccgcg gggccgctcg gggtcaggct gcccctgagc gtgacggtag ggggcggggg 2040 aaaggggagg agggacaggc cccgcccctc ggcagggcct ctagggcaag ggggcggggc 2100 tcgaggagcg gaggggggcg gggcgg 2126 <210> 4 <211> 1625 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR4 <400> 4 gatctgagtc atgttttaag gggaggattc ttttggctgc tgagttgaga ttaggttgag 60 ggtagtgaag gtaaaggcag tgagaccacg taggggtcat tgcagtaatc caggctggag 120 atgatggtgg ttcagttgga atagcagtgc atgtgctgta acaacctcag ctgggaagca 180 gtatatgtgg cgttatgacc tcagctggaa cagcaatgca tgtggtggtg taatgacccc 240 agctgggtag ggtgcatgtg gtgtaacgac ctcagctggg tagcagtgtg tgtgatgtaa 300 caacctcagc tgggtagcag tgtacttgat aaaatgttgg catactctag atttgttatg 360 agggtagtgc cattaaattt ctccacaaat tggttgtcac gtatgagtga aaagaggaag 420 tgatggaaga cttcagtgct tttggcctga ataaatagaa gacgtcattt ccagttaatg 480 gagacaggga agactaaagg tagggtggga ttcagtagag caggtgttca gttttgaata 540 tgatgaactc tgagagagga aaaacttttt ctacctctta gtttttgtga ctggacttaa 600 gaattaaagt gacataagac agagtaacaa gacaaaaata tgcgaggtta tttaatattt 660 ttacttgcag aggggaatct tcaaaagaaa aatgaagacc caaagaagcc attagggtca 720 aaagctcata tgccttttta agtagaaaat gataaatttt aacaatgtga gaagacaaag 780 gtgtttgagc tgagggcaat aaattgtggg acagtgatta agaaatatat gggggaaatg 840 aaatgataag ttattttagt agatttattc ttcatatcta ttttggcttc aacttccagt 900 ctctagtgat aagaatgttc ttctcttcct ggtacagaga gagcaccttt ctcatgggaa 960 attttatgac cttgctgtaa gtagaaaggg gaagatcgat ctcctgtttc ccagcatcag 1020 gatgcaaaca tttccctcca ttccagttct caaccccatg gctgggcctc atggcattcc 1080 agcatcgcta tgagtgcacc tttcctgcag gctgcctcgg gtagctggtg cactgctagg 1140 tcagtctatg tgaccaggag ctgggcctct gggcaatgcc agttggcagc ccccatccct 1200 ccactgctgg gggcctccta tccagaaggg cttggtgtgc agaacgatgg tgcaccatca 1260 tcattcccca cttgccatct ttcaggggac agccagctgc tttgggcgcg gcaaaaaaca 1320 cccaactcac tcctcttcag gggcctctgg tctgatgcca ccacaggaca tccttgagtg 1380 ctgggcagtc tgaggacagg gaaggagtga tgaccacaaa acaggaatgg cagcagcagt 1440 gacaggagga agtcaaaggc ttgtgtgtcc tggccctgct gagggctggc gagggccctg 1500 ggatggcgct cagtgcctgg tcggctgcaa gaggccagcc ctctgcccat gaggggagct 1560 ggcagtgacc aagctgcact gccctggtgg tgcatttcct gccccactct ttccttctaa 1620 gatcc 1625 <210> 5 <211> 1571 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR5 <400> 5 cacctgattt aaatgatctg tctggtgagc tcactgggtc tttactcgca tgctgggtcc 60 acagctccac tgtcctgcag ggtccgtgag tgtgggcccc ttatctattt catcatcata 120 accctgcgtg tcctcaactc ctggcacata ttgggtggcc ccatccacac acggttgttg 180 agtgaatcca tgagatgaca aaggctatga tgtagactat atcatgagcc agaaccaggc 240 tttcctacct ccagacaatc aagggccttg atttgggatt gagggagaaa ggagtagaag 300 ccaggaagga gaagagattg aggtttacca agggtgcaaa gtcctggccc ctgactgtag 360 gctgaaaact atagaaatga tagaacaatt ttgcaatgaa atgcagaaga ccctgcatca 420 actttaggtg ggacttcggg tatttttatg gccacagaac atcctcccat ttacctgcat 480 ggcccagaca cagacttcaa aacagttgag gccagcaggc tccaggtaag tggtaggatt 540 ccagaatgcc ctcagagtgt tgtgggaggc agcaggcgat tttcctggac ttctgagttt 600 atgagaaccc caaaccccaa ttggcattaa cattgaggtc tcaatgtatc atggcaggaa 660 gcttccgagt ggtgaaaagg aaagtgaaca tcaaagctcg gaagacaaga gggtggagtg 720 atggcaacca agagcaagac ccttccctct cctgtgatgg ggtggctcta tgtgaagccc 780 ccaaactgga cacaggtctg gcagaatgag gaacccactg agatttagcg ccaacatcca 840 gcataaaagg gagactgaca tagaatttga gttagttaaa aataaggcac aatgcttttc 900 atgtattcct gagttttgtg gactggtgtt caatttgcag cattcttagt tgattaaatc 960 tgagatgaag aaagagtgtc caacactttc accttggaaa gctctggaaa agcaaaaggg 1020 agagacaatt agcttcatcc attaactcac ttagtcatta tgcattcatt catgtaacta 1080 ccaaacacgt actgagtgcc taacactcct gagacactga gaagtttctt gggaatacaa 1140 agatgaataa aaaccacgcc aggcaggagt tggaggaagg ttctggatgc caccacgctc 1200 tacctcctgg ctggacacca ggcaatgttg gtaaccttct gcctccaatt tctgcaaata 1260 cataattaat aaacacaagg ttatcttcta aacagttctt aaaatgagtc aactttgttt 1320 aaacttgttc tttttagaga aaaatgtatt tttgaaagag ttggttagtg ctaggggaaa 1380 tgtctgggca cagctcagtc tggtgtgaga gcaggaagca gctctgtgtg tctggggtgg 1440 gtacgtatgt aggacctgtg ggagaccagg ttgggggaag gcccctcctc atcaagggct 1500 cctttgcttt ggtttgcttt ggcgtgggag gtgctgtgcc acaagggaat acgggaaata 1560 agatctctgc t 1571 <210> 6 <211> 1173 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR6 <400> 6 tgacccacca cagacatccc ctctggcctc ctgagtggtt tcttcagcac agcttccaga 60 gccaaattaa acgttcactc tatgtctata gacaaaaagg gttttgacta aactctgtgt 120 tttagagagg gagttaaatg ctgttaactt tttaggggtg ggcgagaggg atgacaaata 180 acaacttgtc tgaatgtttt acatttctcc ccactgcctc aagaaggttc acaacgaggt 240 catccatgat aaggagtaag acctcccagc cggactgtcc ctcggccccc agaggacact 300 ccacagagat atgctaactg gacttggaga ctggctcaca ctccagagaa aagcatggag 360 cacgagcgca cagagcaggg ccaaggtccc agggacagaa tgtctaggag ggagattggg 420 gtgagggtaa tctgatgcaa ttactgtggc agctcaacat tcaagggagg gggaagaaag 480 aaacagtccc tgtcaagtaa gttgtgcagc agagatggta agctccaaaa tttgaaactt 540 tggctgctgg aaagttttag ggggcagaga taagaagaca taagagactt tgagggttta 600 ctacacacta gacgctctat gcatttattt atttattatc tcttatttat tactttgtat 660 aactcttata ataatcttat gaaaacggaa accctcatat acccatttta cagatgagaa 720 aagtgacaat tttgagagca tagctaagaa tagctagtaa gtaaaggagc tgggacctaa 780 accaaaccct atctcaccag agtacacact cttttttttt ttccagtgta atttttttta 840 atttttattt tactttaagt tctgggatac atgtgcagaa ggtatggttt gttacatagg 900 tatatgtgtg ccatagtgga ttgctgcacc tatcaacccg tcatctaggt ttaagcccca 960 catgcattag ctatttgtcc tgatgctctc cctcccctcc ccacaccaga caggccttgg 1020 tgtgtgatgt tcccctccct gtgtccatgt gttctcactg ttcagctccc acttatgagt 1080 gagaacgtgt ggtatttggt tttctgttcc tgtgttagtt tgctgaggat gatggcttcc 1140 agcttcatcc atgtccctgc aaaggacacg atc 1173 <210> 7 <211> 2101 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR7 <400> 7 aggtgggtgg atcacccgag gtcaggagtt caagaccagc ctggccaaca tggtaaaacc 60 tcgtctctac taaaaaatac gaaaaattag ctggttgtgg tggtgcgtgc ttgtaatccc 120 agctactcgg gaggctgagg caggagaatc acttgaatct gggaggcaga ggttgcagtg 180 agctgagata gtgccattgc actccagcct gggcaacaga cggagactct gtctccaaaa 240 aaaaaaaaaa aaatcttaga ggacaagaat ggctctctca aacttttgaa gaaagaataa 300 ataaattatg cagttctaga agaagtaatg gggatatagg tgcagctcat gatgaggaag 360 acttagctta actttcataa tgcatctgtc tggcctaaga cgtggtgagc tttttatgtc 420 tgaaaacatt ccaatataga atgataataa taatcacttc tgacccccct tttttttcct 480 ctccctagac tgtgaagcag aaaccccata tttttcttag ggaagtggct acgcactttg 540 tatttatatt aacaactacc ttatcaggaa attcatattg ttgccctttt atggatgggg 600 aaactggaca agtgacagag caaaatccaa acacagctgg ggatttccct cttttagatg 660 atgattttaa aagaatgctg ccagagagat tcttgcagtg ttggaggaca tatatgacct 720 ttaagatatt ttccagctca gagatgctat gaatgtatcc tgagtgcatg gatggacctc 780 agttttgcag attctgtagc ttatacaatt tggtggtttt ctttagaaga aaataacaca 840 tttataaata ttaaaatagg cccaagacct tacaagggca ttcatacaaa tgagaggctc 900 tgaagtttga gtttgttcac tttctagtta attatctcct gcctgtttgt cataaatgcg 960 tttagtaggg agctgctaat gacaggttcc tccaacagag tgtggaagaa ggagatgaca 1020 gctggcttcc cctctgggac agcctcagag ctagtgggga aactatgtta gcagagtgat 1080 gcagtgacca agaaaatagc actaggagaa agctggtcca tgagcagctg gtgagaaaag 1140 gggtggtaat catgtatgcc ctttcctgtt ttatttttta ttgggtttcc ttttgcctct 1200 caattccttc tgacaataca aaatgttggt tggaacatgg agcacctgga agtctggttc 1260 attttctctc agtctcttga tgttctctcg ggttcactgc ctattgttct cagttctaca 1320 cttgagcaat ctcctcaata gctaaagctt ccacaatgca gattttgtga tgacaaattc 1380 agcatcaccc agcagaactt aggttttttt ctgtcctccg tttcctgacc tttttcttct 1440 gagtgcttta tgtcacctcg tgaaccatcc tttccttagt catctaccta gcagtcctga 1500 ttcttttgac ttgtctccct acaccacaat aaatcactaa ttactatgga ttcaatccct 1560 aaaatttgca caaacttgca aatagattac gggttgaaac ttagagattt caaacttgag 1620 aaaaaagttt aaatcaagaa aaatgacctt taccttgaga gtagaggcaa tgtcatttcc 1680 aggaataatt ataataatat tgtgtttaat atttgtatgt aacatttgaa taccttcaat 1740 gttcttattt gtgttatttt aatctcttga tgttactaac tcatttggta gggaagaaaa 1800 catgctaaaa taggcatgag tgtcttatta aatgtgacaa gtgaatagat ggcagaaggt 1860 ggattcatat tcagttttcc atcaccctgg aaatcatgcg gagatgattt ctgcttgcaa 1920 ataaaactaa cccaatgagg ggaacagctg ttcttaggtg aaaacaaaac aaacacgcca 1980 aaaaccttta ttctctttat tatgaatcaa atttttcctc tcagataatt gttttattta 2040 tttattttta ttattattgt tattatgtcc agtctcactc tgtcgcctaa gctggcatga 2100 t 2101 <210> 8 <211> 1821 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR8 <400> 8 gagatcacct cgaagagagt ctaacgtccg taggaacgct ctcgggttca caaggattga 60 ccgaacccca ggatacgtcg ctctccatct gaggcttgct ccaaatggcc ctccactatt 120 ccaggcacgt gggtgtctcc cctaactctc cctgctctcc tgagcccatg ctgcctatca 180 cccatcggtg caggtccttt ctgaagagct cgggtggatt ctctccatcc cacttccttt 240 cccaagaaag aagccaccgt tccaagacac ccaatgggac attccccttc cacctccttc 300 tccaaagttg cccaggtgtt catcacaggt tagggagaga agcccccagg tttcagttac 360 aaggcatagg acgctggcat gaacacacac acacacacac acacacacac acacacacac 420 acacgactcg aagaggtagc cacaagggtc attaaacact tgacgactgt tttccaaaaa 480 cgtggatgca gttcatccac gccaaagcca agggtgcaaa gcaaacacgg aatggtggag 540 agattccaga ggctcaccaa accctctcag gaatattttc ctgaccctgg gggcagaggt 600 tggaaacatt gaggacattt cttgggacac acggagaagc tgaccgacca ggcattttcc 660 tttccactgc aaatgaccta tggcgggggc atttcacttt cccctgcaaa tcacctatgg 720 cgaggtacct ccccaagccc ccacccccac ttccgcgaat cggcatggct cggcctctat 780 ccgggtgtca ctccaggtag gcttctcaac gctctcggct caaagaagga caatcacagg 840 tccaagccca aagcccacac ctcttccttt tgttataccc acagaagtta gagaaaacgc 900 cacactttga gacaaattaa gagtccttta tttaagccgg cggccaaaga gatggctaac 960 gctcaaaatt ctctgggccc cgaggaaggg gcttgactaa cttctatacc ttggtttagg 1020 aaggggaggg gaactcaaat gcggtaattc tacagaagta aaaacatgca ggaatcaaaa 1080 gaagcaaatg gttatagaga gataaacagt tttaaaaggc aaatggttac aaaaggcaac 1140 ggtaccaggt gcggggctct aaatccttca tgacacttag atataggtgc tatgctggac 1200 acgaactcaa ggctttatgt tgttatctct tcgagaaaaa tcctgggaac ttcatgcact 1260 gtttgtgcca gtatcttatc agttgattgg gctcccttga aatgctgagt atctgcttac 1320 acaggtcaac tccttgcgga agggggttgg gtaaggagcc cttcgtgtct cgtaaattaa 1380 ggggtcgatt ggagtttgtc cagcattccc agctacagag agccttattt acatgagaag 1440 caaggctagg tgattaaaga gaccaacagg gaagattcaa agtagcgact tagagtaaaa 1500 acaaggttag gcatttcact ttcccagaga acgcgcaaac attcaatggg agagaggtcc 1560 cgagtcgtca aagtcccaga tgtggcgagc ccccgggagg aaaaaccgtg tcttccttag 1620 gatgcccgga acaagagcta ggcttccgga gctaggcagc catctatgtc cgtgagccgg 1680 cgggagggag accgccggga ggcgaagtgg ggcggggcca tccttctttc tgctctgctg 1740 ctgccgggga gctcctggct ggcgtccaag cggcaggagg ccgccgtcct gcagggcgcc 1800 gtagagtttg cggtgcagag t 1821 <210> 9 <211> 1929 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR9 <400> 9 cacttcctgg gagtggagca gaggctctgc gtggagcatc catgtgcagt actcttaggt 60 acggaaggga ttgggctaaa ccatggatgg gagctgggaa gggaagggac caacttcagg 120 ccccactggg acactggagc tgccaccctt tagagccctc ctaaccctac accagaggct 180 gagggggacc tcagacatca cacacatgct ttcccatgtt ttcagaaatc tggaaacgta 240 gaacttcagg ggtgagagtg cctagatatt gaatacaagg ctagattggg cttctgtaat 300 atcccaaagg accctccagc tttttcacca gcacctaatg cccatcagat accaaagaca 360 cagcttagga gaggttcacc ctgaagctga ggaggaggca gccggattag agttgactga 420 gcaaggatga ctgccttctc cacctgacga tttcagctgc tgcccttttc ttttcctggg 480 aatgcctgtc gccatggcct tctgtgtcca caggagagtt tgacccagat actcatggac 540 caggcaaagg tgctgttcct cccagcccag ggcccaccat gaagcatgcc tgggagcctg 600 gtaaggaccc agccactcct gggctgttga cattggcttc tcttgcccag cattgtagcc 660 acgccactgc attgtactgt gagataagtc aaggtgggct caccaggacc tgcactaaat 720 tgtgaaattc agctccaaag aactttggaa attacccatg catttaagca aaatgaatga 780 tacctgagca aaccctttca cattggcaca agttacaatc ctgtctcatc ctcttgatta 840 caaattccat ccaggcaaga gctgtatcac cctgaggtct ccccattcat gttttggtca 900 ataatattta gtttcctttt gaaaatagat ttttgtgtta ctccattatg atgggcagag 960 gccagatgct tatattctat ttaaatgact atgtttttct atctgtaact gggtttgtgt 1020 tcaggtggta aatgcttttt ttttgcagtc agaagattcc tggaaggcga ccagaaatta 1080 gctggccgct gtcagacctg aagttacttc taaagggcct ttagaaatga attctttttt 1140 atgccttctc tgaattctga gaagtaggct tgacttcccc taagtgtgga gttgggagtc 1200 aactcttctg aaaagaaagt ttcagagcat tttccaaagc catggtcagc tgtgggaagg 1260 gaagacgatg gatagtacag ttgccggaaa acactgatgg aggcggatgc tccagctcag 1320 ccaaagacct ttgttctgcc caccccagaa atgccccttc ctcaatcgca gaaacgttgc 1380 cccatggctc ctgatactca gaatgcagcc tctgaccagg accatctgca tcctccagga 1440 gctcgtaaga aatgcagcat cgtgggacct gctggcacct ggtgaaccca aacctgcagg 1500 gctcctgggt gtgcttgggg cggctgcagg ggaagaggga gtcagcagcc tcctcctgac 1560 cttcccgggg gctgcttttc tgaggggcca gaatgcaccg gttgaccttg ttgcatcact 1620 ggcccatgac tggctgcttt ggtcaggtgt aaaaaggtgt ttccagaggg tctgctcctc 1680 tcactatcgg accaggtttc catggagagc tcagcctccc agcaaggata gagaacttca 1740 aatggctcaa agaactgaga ggccacacat gtgtgacctg aatagtctct gctgcaaaac 1800 aaagggtttc ttaatgtaaa acgttctctt cctcacagag gggttcccag ctgctagtgg 1860 gcatgttgca ggcatttcct gggctgcatc aggttgtcat aagccagagg atcatttttg 1920 ggggctcat 1929 <210> 10 <211> 1167 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR10 <220> <221> misc_feature <222> (452)..(1143) <223> n is a, c, g, or t on various positions <400> 10 aggtcaggag ttcaagacca gcctggccaa catggtgaaa ccctgtccct acaaaaaata 60 caaaaattag ccgggcgtgg tggggggcgc ctataatccc agctactcag gatgctgaga 120 caggagaatt gtttgaaccc gggaggtgga ggttgcagtg aactgagatc gcgccactgc 180 actccagcct ggtgacagag agagactccg tctcaacaac agacaaacaa acaaacaaac 240 aacaacaaaa atgtttactg acagctttat tgagataaaa ttcacatgcc ataaaggtca 300 ccttctacag tatacaattc agtggattta gtatgttcac aaagttgtac gttgttcacc 360 atctactcca gaacatttac atcaccccta aaagaagctc tttagcagtc acttctcatt 420 ctccccagcc cctgccaacc acgaatctac tntctgtctc tattctgaat atttcatata 480 aaggagtcct atcatatggg ccttttacgt ctaccttctt tcacttagca tcatgttttt 540 aagattcatc cacagtgtag cacgtgtcag ttaattcatt tcatcttatg gctggataat 600 gctctattgt atgcatatcc ctcactttgc ttatccattc atcaactgat tgacatttgg 660 gttatttcta ctttttgact attatgagta atgctgctat gaacattcct gtaccaatcg 720 ttacgtggac atatgctttc aattctcctg agtatgtaac tagggttgga gttgctgggt 780 catatgttaa ctcagtgttt catttttttg aagaactacc aaatggtttt ccaaagtgga 840 tgcaacactt tacattccca ccagcaagat atgaaggttc caatgtctct acatttttgc 900 caacacttgt gattttcttt tatttattta tttatttatt tatttttgag atggagtctc 960 actctgtcac ccaggctgga gtgcagtggc acaatttcag ctcactgcaa tctccacctc 1020 tcgggctcaa gcgatactcc tgcctcaacc tcccgagtaa ctgggattac aggcgcccac 1080 caccacacca agctaatttt ttgtattttt agtagagacg gggtttcatc atgtcggcca 1140 ggntgtactc gaactctgac ctcaagt 1167 <210> 11 <211> 1377 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR11 <400> 11 aggatcactt gagcccagga gttcaagacc agcctgggca acatagcgag aacatgtctc 60 aaaaaggaaa aaaatggggg aaaaaaccct cccagggaca gatatccaca gccagtcttg 120 ataagctcca tcattttaaa gtgcaaggcg gtgcctccca tgtggatgat tatttaatcc 180 tcttgtactt tgtttagtcc tttgtggaaa tgcccatctt ataaattaat agaattctag 240 aatctaatta aaatggttca actctacatt ttactttagg ataatatcag gaccatcaca 300 gaatgtctga gatgtggatt taccctatct gtagctcact tcttcaacca ttcttttagc 360 aaggctagtt atcttcagtg acaacccctt gctgccctct actatctcct ccctcagatg 420 gactactctg attaagcttg agctagaata agcatgttat cccgggattt catatggaat 480 attttataca tgagtgagcc attatgagtt gtttgaaaat ttattatgtt gagggagggt 540 aaccgctgta acaaccatca ccaaatctaa tcgactgaat acatttgacg tttatttctt 600 gttcacctga cagttcagtg ttacctaaat ttacatgaag acccagaggc ccacgctcct 660 tcattttggg ctccaccgac ctccaaggtt tcagggccct ctgccccgcc ttctgcaccc 720 acaggggaag agagtggagg atgcacacgc ccaggcctgg aagtgacgca tgtggcttcc 780 ccgtccacag acttcaccca cagtccattg gccttcttaa gtcatggact cctgctgagc 840 tgccagggtg catgggaaat ccatgtgact gtgtgccctg gaggaagggg agcgtttcgg 900 tgagcacaca ggagtctttg ccactagacg ctgatgagga ttccccacag gcgatgaagc 960 atggagactc atcttgtaac aaacagatga gttgttgaca tctcttaagt ttactttgtg 1020 tgcagttttt attcagatag gaaaggctgt taaaatctta acacctaact ggaagaaggg 1080 ttttagagaa gtgtggtttt cagtaagcca gttctttcca caatccaaga aacgaaataa 1140 atttccagca tggagcagtt ggcaggtaag gtttttgttg tggtctcgcc caggcttgag 1200 tgtaaccggt gtggtcatag ctcactacat tctcaaactc ctggccttaa gtcatcctcc 1260 tgcctcagcc tcccaaaggc aagtaaggtt aagaataggg gaaaggtgaa gtttcacagc 1320 ttttctagaa ttctttttat tcaagggact ctcagatcat caaacccacc cagaatc 1377 <210> 12 <211> 1051 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR12 <400> 12 atcctgcttc tgggaagaga gtggcctccc ttgtgcaggt gactttggca ggaccagcag 60 aaacccaggt ttcctgtcag gaggaagtgc tcagcttatc tctgtgaagg gtcgtgataa 120 ggcacgagga ggcaggggct tgccaggatg ttgcctttct gtgccatatg ggacatctca 180 gcttacgttg ttaagaaata tttggcaaga agatgcacac agaatttctg taacgaatag 240 gatggagttt taagggttac tacgaaaaaa agaaaactac tggagaagag ggaagccaaa 300 caccaccaag tttgaaatcg attttattgg acgaatgtct cactttaaat ttaaatggag 360 tccaacttcc ttttctcacc cagacgtcga gaaggtggca ttcaaaatgt ttacacttgt 420 ttcatctgcc tttttgctaa gtcctggtcc cctacctcct ttccctcact tcacatttgt 480 cgtttcatcg cacacatatg ctcatcttta tatttacata tatataattt ttatatatgg 540 cttgtgaaat atgccagacg agggatgaaa tagtcctgaa aacagctgga aaattatgca 600 acagtgggga gattgggcac atgtacattc tgtactgcaa agttgcacaa cagaccaagt 660 ttgttataag tgaggctggg tggtttttat tttttctcta ggacaacagc ttgcctggtg 720 gagtaggcct cctgcagaag gcattttctt aggagcctca acttccccaa gaagaggaga 780 gggcgagact ggagttgtgc tggcagcaca gagacaaggg ggcacggcag gactgcagcc 840 tgcagagggg ctggagaagc ggaggctggc acccagtggc cagcgaggcc caggtccaag 900 tccagcgagg tcgaggtcta gagtacagca aggccaaggt ccaaggtcag tgagtctaag 960 gtccatggtc agtgaggctg agacccaggg tccaatgagg ccaaggtcca gagtccagta 1020 aggccgagat ccagggtcca gggaggtcaa g 1051 <210> 13 <211> 1291 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR13 <400> 13 agccactgag gtcctaactg cagccaaggg gccgttctgc acatgtcgct caccctctgt 60 gctctgttcc ccacagagca aacgcacatg gcaacgttgg tccgctcagc cactggttct 120 gtggtggaac ggtggatgtc tgcactgtga catcagctga gtaagtaaca acgactgagg 180 atgccgctga cccagggctg gggaagggga ctcccagctc agacaggctt ggctgtggtt 240 tgctttggga ggagagtgaa catcacaggg aatggctcat gtcagcccca ggagggtggg 300 ctggcccctg gtccccgggc tccttctggc cctgcaggcg atagagagcc tcaacctgct 360 gccgcttctc cttggcccgg gtgatggccg tctggaagag cctgcagtag aggtgcacag 420 ccagcggaga gtcgtcattg ccgggtacag ggtaggtgat gaggcagggg ttgcagttgg 480 tgtccacgat gcccactgtg gggatgttca tcttggctgc gtctctcacg gccacgtgtg 540 gctcaaagat gttgttgagc gtgtgcagga agatgatgag gtccggcagg cggaccgtgg 600 ggccaaagag gaggcgcgcg ttggtcagca tgccgcccct gaagtagcga gtgtgggcgt 660 actcgccaca gtcacgggcc atgttctcaa tcaggtacga gaactgccgg ttgcggctta 720 taaacaagat gatgcccttg cggtaggcca tgtgggcggt gaagttcaag gccagctgga 780 ggtgcgtggc tgtctgttcc aggtcgatga tgtcgtggtc caggcggctc ccaaagatgt 840 acggctccat aaacctgcca gagaccccac caaggcaagg gggatgagag ttcacggggc 900 catctccact ggctccttgc aggaacacag acgcccacca gggactcccg ggctcctctg 960 tgggggcact atgggctggg aagcacaatt tgcaacgctc cccgtgtgca tggacagcag 1020 tgcagaccca tccaggccac ccctctgcat gcctcgtctc gtggcttaac ccctcctacc 1080 ctctacctct tcccgaagga atcctaatag aactgacccc atatggatgt gtggacatcc 1140 aacatgacgc caaaaggaca ttctgccccg tgcagctcac agggcagccg cctccgtcac 1200 tgtcctcttc ccgaggcttt gcggatgagg cccctctggg gttggactta gcggggtgct 1260 ctgggccaaa agcattaagg gatcagggca g 1291 <210> 14 <211> 711 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR14 <400> 14 ccctggacca gggtccgtgg tcttggtggg cactggcttc ttcttgctgg gtgttttcct 60 gtgggtctct ggcaaggcac tttttgtggc gctgcttgtg ctgtgtgcgg gaggggcagg 120 tgctctttcc tcttggagct ggaccctctg gggcgggtcc ccgtcggcct ccttgtgtgt 180 tttctgcacc tggtacagct ggatggcctc ctcaatgccg tcgtcgctgc tggagtcgga 240 cgcctcgggc gcctgtacgg cgctcgtgac tcgctttccc ctccttgcgg tgctggcgtt 300 ccttttaatc ccacttttat tctgtactgc ttctgaaggg cggtgggggt tgctggcttt 360 gtgctgccct ccttctcctg cgtggtcgtg gtcgtgacct tggacctgag gcttctgggc 420 tgcacgtttg tctttgctaa ccgggggagg tctgcagaag gcgaactcct tctggacgcc 480 catcaggccc tgccggtgca ccacctttgt agccggctct tggtgggatt tcgagagtga 540 cttcgccgaa ttttcatgtg tgtctggttt cttctccact gacccatcac atttttgggt 600 ctcatgctgt cttttctcat tcagaaactg ttctatttct gccctgatgc tctgctcaaa 660 ggagtctgct ctgctcatgc tgactgggga ggcagagccc tggtccttgc t 711 <210> 15 <211> 1876 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR15 <400> 15 gagtccaaga tcaaggtgcc agcatcttgt gagggccttc ttgttacgtc actccctagc 60 gaaagggcaa agagagggtg agcaagagaa aggggggctg aactcgtcct tgtagaagag 120 gcccattccc gagacaatgg cattcatcca ttcactccac cctcatggcc tcaccacctc 180 tcatgaggct ccacctccca gccctggttt gttggggatt aaatttccaa cacatgcctt 240 ttgggggaca tgttaaaatt atagcacccc aaatgttaca ctatcttttg atgagcggta 300 gttctgattt taagtctagc tggcctactt tttcttgcac gtgggatgct ttctgcctgt 360 tccagggcag gcagctcttc tctgtccctc tgctggcccc acctcatcct ctgttgtcct 420 cttccctcct tctgtgccct ggggtcctgg tgggggtgtg actgtcaact gcgttgggct 480 aacttttttc cctgctggtg gcccgtaatg aaagaaagct tcttgctccc aagttcctta 540 aatccaagct catagacaac gcggtctcac agcaggcctg gggccagcct cacgtgagcc 600 ccttccctgg tgtagtcact ggcatggggg aatgggattt cctgttgccc tactgtgtgg 660 ctgaggtggg ggttgcttcc tggagccagg ccttgtggaa gggcagtgcc cactgcagtg 720 gatgctgggc cctgaatctg accccagtgt tcattggctc tgtgagaccc agtgagggca 780 gggagggaag tggagctggg gtgagaagta gaggccctgc agggcccacg tgccagccac 840 caggcctcag actaggctca gatgacggag agctgcacac ctgcccaacc caggccctgc 900 agtgcccaca tgccagccgc tggggcccag acttgctcca gagggcggag agctttacac 960 cggcccaacc caggccatgg ctccaaatgc gtgacagttt tgctgttgct tcttttagtc 1020 attgtcaagt tgatgcttgt tttgcagagg accaaggctt tatgaaccta ttaccctgtg 1080 tgaagagttt caccaggtta tggaaatttc tttaaaacca taccacagtt ttttcattat 1140 tcatgtatat ttttaaaaat aattactgca ctcagtagaa taacatgaaa atgttgcctg 1200 ttagcccttt tccagtttgc cccgagaata ctgggggcac ttgtggctgc aatgtttatc 1260 ctgcggcagc tttgccatga agtatctcac ttttattatt atttttgcat tgctcgagta 1320 tattgacttt ggaaacaaaa gacatcattc tatttatagc attatgtttt tagtagtggt 1380 atttccatat acaagataca gtaattttcc gtcaatgaaa atgtcaaatt ctagaaaatg 1440 taacattcct atgcgtggtg ttaacatcgt tctctaacag ttgttggccg aagattcgtt 1500 tgatgaatcc gatttttcca aaatagccga ttctgatgat tcagacgatt ctgatgttct 1560 gtttagaaat aattccaaga acagttttta cattttattt tcacattgaa aatcagtcag 1620 atttgcttca gcctcaaaga gcacgtttat gtaaaattaa atgagtgctg gcagccagct 1680 gcgctttgtt tttctaaatg ggaaaagggt taaatttcac tcagctttta aatgacagcg 1740 cacagcctgt gtcatagagg gttggaggag atgactttaa ctgcctgtgg ttaggatccc 1800 tttcccccag gaatgtctgg gagcccactg ccgggtttgc tgtccgtctc gtttggactc 1860 agttctgcat gtactg 1876 <210> 16 <211> 1282 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR16 <400> 16 cgcccacctc ggctttccaa agtgctggga ttacaggcat gagtcactgc gcccatcctg 60 attccaagtc tttagataat aacttaactt tttcgaccaa ttgccaatca ggcaatcttt 120 gaatctgcct atgacctagg acatccctct ccctacaagt tgccccgcgt ttccagacca 180 aaccaatgta catcttacat gtattgattg aagttttaca tctccctaaa acatataaaa 240 ccaagctata gtctgaccac ctcaggcacg tgttctcagg acctccctgg ggctatggca 300 tgggtcctgg tcctcagatt tggctcagaa taaatctctt caaatatttt ccagaatttt 360 actcttttca tcaccattac ctatcaccca taagtcagag ttttccacaa ccccttcctc 420 agattcagta atttgctaga atggccacca aactcaggaa agtattttac ttacaattac 480 caatttatta tgaagaactc aaatcaggaa tagccaaatg gaagaggcat agggaaaggt 540 atggaggaag gggcacaaag cttccatgcc ctgtgtgcac accaccctct cagcatcttc 600 atgtgttcac caactcagaa gctcttcaaa ctttgtcatt taggggtttt tatggcagtt 660 ccactatgta ggcatggttg ataaatcact ggtcatcggt gatagaactc tgtctccagc 720 tcctctctct ctcctcccca gaagtcctga ggtggggctg aaagtttcac aaggttagtt 780 gctctgacaa ccagccccta tcctgaagct attgaggggt cccccaaaag ttaccttagt 840 atggttggaa gaggcttatt atgaataaca aaagatgctc ctatttttac cactagggag 900 catatccaag tcttgcggga acaaagcatg ttactggtag caaattcata caggtagata 960 gcaatctcaa ttcttgcctt ctcagaagaa agaatttgac caagggggca taaggcagag 1020 tgagggacca agataagttt tagagcagga gtgaaagttt attaaaaagt tttaggcagg 1080 aatgaaagaa agtaaagtac atttggaaga gggccaagtg ggcgacatga gagagtcaaa 1140 caccatgccc tgtttgatgt ttggcttggg gtcttatatg atgacatgct tctgagggtt 1200 gcatccttct cccctgattc ttcccttggg gtgggctgtc cgcatgcaca atggcctgcc 1260 agcagtaggg aggggccgca tg 1282 <210> 17 <211> 793 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR17 <400> 17 atccgagggg aggaggagaa gaggaaggcg agcagggcgc cggagcccga ggtgtctgcg 60 agaactgttt taaatggttg gcttgaaaat gtcactagtg ctaagtggct tttcggattg 120 tcttatttat tactttgtca ggtttcctta aggagagggt gtgttggggg tgggggagga 180 ggtggactgg ggaaacctct gcgtttctcc tcctcggctg cacagggtga gtaggaaacg 240 cctcgctgcc acttaacaat ccctctatta gtaaatctac gcggagactc tatgggaagc 300 cgagaaccag tgtcttcttc cagggcagaa gtcacctgtt gggaacggcc cccgggtccc 360 cctgctgggc tttccggctc ttctaggcgg cctgatttct cctcagccct ccacccagcg 420 tccctcaggg acttttcaca cctccccacc cccatttcca ctacagtctc ccagggcaca 480 gcacttcatt gacagccaca cgagccttct cgttctcttc tcctctgttc cttctctttc 540 tcttctcctc tgttccttct ctttctctgt cataatttcc ttggtgcttt cgccacctta 600 aacaaaaaag agaaaaaaat aaaataaaaa aaacccattc tgagccaaag tattttaaga 660 tgaatccaag aaagcgaccc acatagccct ccccacccac ggagtgcgcc aagacgcacc 720 caggctccat cacagggccg agagcagcgc cactctggtc gtacttttgg gtcaagagat 780 cttgcaaaag agg 793 <210> 18 <211> 492 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR18 <400> 18 atctttttgc tctctaaatg tattgatggg ttgtgttttt tttcccacct gctaataaat 60 attacattgc aacattcttc cctcaacttc aaaactgctg aactgaaaca atatgcataa 120 aagaaaatcc tttgcagaag aaaaaaagct attttctccc actgattttg aatggcactt 180 gcggatgcag ttcgcaaatc ctattgccta ttccctcatg aacattgtga aatgaaacct 240 ttggacagtc tgccgcattg cgcatgagac tgcctgcgca aggcaagggt atggttccca 300 aagcacccag tggtaaatcc taacttatta ttcccttaaa attccaatgt aacaacgtgg 360 gccataaaag agtttctgaa caaaacatgt catctttgtg gaaaggtgtt tttcgtaatt 420 aatgatggaa tcatgctcat ttcaaaatgg aggtccacga tttgtggcca gctgatgcct 480 gcaaattatc ct 492 <210> 19 <211> 1840 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR19 <400> 19 tcacttcctg atattttaca ttcaaggcta gctttatgca tatgcaacct gtgcagttgc 60 acagggcttt gtgttcagaa agactagctc ttggtttaat actctgttgt tgccatcttg 120 agattcatta taatataatt tttgaatttg tgttttgaac gtgatgtcca atgggacaat 180 ggaacattca cataacagag gagacaggtc aggtggcagc ctcaattcct tgccaccctt 240 ttcacataca gcattggcaa tgccccatga gcacaaaatt tgggggaacc atgatgctaa 300 gactcaaagc acatataaac atgttacctc tgtgactaaa agaagtggag gtgctgacag 360 cccccagagg ccacagttta tgttcaaacc aaaacttgct tagggtgcag aaagaaggca 420 atggcagggt ctaagaaaca gcccatcata tccttgttta ttcatgttac gtccctgcat 480 gaactaatca cttacactga aaatattgac agaggaggaa atggaaagat agggcaaccc 540 atagttcttt ttccttttag tctttcctta tcagtaaacc aaagatagta ttggtaaaat 600 gtgtgtgagt taattaatga gttagtttta ggcagtgttt ccactgttgg ggtaagaaca 660 aaatatatag gcttgtattg agctattaaa tgtaaattgt ggaatgtcag tgattccaag 720 tatgaattaa atatccttgt atttgcattt aaaattggca ctgaacaaca aagattaaca 780 gtaaaattaa taatgtaaaa gtttaatttt tacttagaat gacattaaat agcaaataaa 840 agcaccatga taaatcaaga gagagactgt ggaaagaagg aaaacgtttt tattttagta 900 tatttaatgg gactttcttc ctgatgtttt gttttgtttt gagagagagg gatgtggggg 960 cagggaggtc tcattttgtt gcccaggctg gacttgaact cctgggctcc agctatcctg 1020 ccttagcttc ttgagtagct gggactacag gcacacacca cagtgtctga cattttctgg 1080 attttttttt tttttttatt ttttttgtga gacaggttct ggctctgtta ctcaggttgc 1140 agtgcagtgg catgatagcg gctcactgca gcctcaacct cctcagctta agctactctc 1200 ccacttcagc ctcctgagta gccaggacta cagttgtgtg ccaccacacc tgtggctaat 1260 ttttgtagag atggggtctc tccacgttgc cgaggctggt ctccaactcc tggtctcaag 1320 cgaacctcct gacttggcct cccgaagtgc tgggattaca ggcttgagcc actgcatcca 1380 gcctgtcctc tgtgttaaac ctactccaat ttgtctttca tctctacata aacggctctt 1440 ttcaaagttc ccatagacct cactgttgct aatctaataa taaattatct gccttttctt 1500 acatggttca tcagtagcag cattagattg ggctgctcaa ttcttcttgg tatattttct 1560 tcatttggct tctggggcat cacactctct ttgagttact cattcctcat tgatagcttc 1620 ttcctagtct tctttactgg ttcttcctct tctccctgac tccttaatat tgtttttctc 1680 cccaggcttt agttcttagt cctcttctgt tatctattta cacccaattc tttcagagtc 1740 tcatccagag tcatgaactt aaacctgttt ctgtgcagat aattcacatt attatatctc 1800 cagcccagac tctcccgcaa actgcagact gatcctactg 1840 <210> 20 <211> 780 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR20 <400> 20 gatctcaagt ttcaatatca tgttttggca aaacattcga tgctcccaca tccttaccta 60 aagctaccag aaaggctttg ggaactgtca acagagctac agaaaagtca gtaaagacca 120 atggacccct caaacaaaaa cagccaagct tttctgccaa aaagatgact gagaagactg 180 ttaaagcaaa aaactctgtt cctgcctcag atgatggcta tccagaaata gaaaaattat 240 ttcccttcaa tcctctaggc ttcgagagtt ttgacctgcc tgaagagcac cagattgcac 300 atctcccctt gagtgaagtg cctctcatga tacttgatga ggagagagag cttgaaaagc 360 tgtttcagct gggcccccct tcacctttga agatgccctc tccaccatgg aaatccaatc 420 tgttgcagtc tcctttaagc attctgttga ccctggatgt tgaattgcca cctgtttgct 480 ctgacataga tatttaaatt tcttagtgct ttagagtttg tgtatatttc tattaataaa 540 gcattatttg tttaacagaa aaaaagatat atacttaaat cctaaaataa aataaccatt 600 aaaaggaaaa acaggagtta taactaataa gggaacaaag gacataaaat gggataataa 660 tgcttaatcc aaaataaagc agaaaatgaa gaaaaatgaa atgaagaaca gataaataga 720 aaacaaatag caatatgaaa gacaaacttg accgggtgtg gtggctgatg cctgtaatcc 780 <210> 21 <211> 607 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR21 <400> 21 gatcaataat ttgtaatagt cagtgaatac aaaggggtat atactaaatg ctacagaaat 60 tccattcctg ggtataaatc ctagacatat ttatgcatat gtacaccaag atatatctgc 120 aagaatgttc acagcaaatc tctttgtagt agcaaaaggc caaaaggtct atcaacaaga 180 aaattaatac attgtggcac ataatggcat ccttatgcca ataaaaatgg atgaaattat 240 agttaggttc aaaaggcaag cctccagata atttatatca tataattcca tgtacaacat 300 tcaacaacaa gcaaaactaa acatatacaa atgtcaggga aaatgatgaa caaggttaga 360 aaatgattaa tataaaaata ctgcacagtg ataacattta atgagaaaaa aagaaggaag 420 ggcttaggga gggacctaca gggaactcca aagttcatgg taagtactaa atacataatc 480 aaagcactca aaatagaaaa tattttagta atgttttagc tagttaatat cttacttaaa 540 acaaggtcta ggccaggcac ggtggctcac acctgtaatc ccagcacttt gggaggctga 600 ggcgggt 607 <210> 22 <211> 1380 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR22 <400> 22 cccttgtgat ccacccgcct tggcctccca aagtgctggg attacaggcg tgagtcacta 60 cgcccggcca ccctccctgt atattatttc taagtatact attatgttaa aaaaagttta 120 aaaatattga tttaatgaat tcccagaaac taggatttta catgtcacgt tttcttatta 180 taaaaataaa aatcaacaat aaatatatgg taaaagtaaa aagaaaaaca aaaacaaaaa 240 gtgaaaaaaa taaacaacac tcctgtcaaa aaacaacagt tgtgataaaa cttaagtgcc 300 tgaaaattta gaaacatcct tctaaagaag ttctgaataa aataaggaat aaaataatca 360 catagttttg gtcattggtt ctgtttatgt gatggattat gtttattgat ttgtgtatgt 420 tgaacttatc tcaatagatg cagacaaggc cttgataaaa gtttttaaca ccttttcatg 480 ttgaaaactc tcaatagact aggtattgat gaaacatatc tcaaaataat agaagctatt 540 tatgataaac ccatagccaa tatcatactg agtgggcaaa agctggaagc attccctttg 600 aaaactggca caagacaagg atgccctctc tcaccactcc tattaaatgt agtattggaa 660 gttctggcca gagcaatcag gcaggagaaa gaaaaggtat taaaatagga agagaggaag 720 tcaaattgtc tctgtttgca gtaaacatga ttgtatattt agaaaacccc attgtctcat 780 cctaaaaact ccttaagctg ataaacaact tcagcaaagt ctcaggatac aaaatcaatg 840 tgcaaaaatc acaagcattc ctatacaccg ataatagaca gcagagagcc aaatcatgag 900 tgaagtccca ttcacaattg cttcaaagaa aataaaatac ttaggaatac aactttcacg 960 ggacatgaag gacattttca aggacaacta aaaaccactg ctcaaggaaa tgagagagga 1020 cacaaagaaa tggaaaaaca ttccatgctc atggaagaat caatatcatg aaaatggcca 1080 tactgcccaa agtaatttat agattcaatg ctaaccccat caagccacca ttgactttct 1140 tcacagaact agaaaaaaac tattttaaaa ctcatatgta gtcaaaaaga gtcggtatag 1200 ccaagacaat cctaagcata aagaacaaag ctggatgcat cacgctgact tcaaaccata 1260 ctacaaggct acagtaacca aaacagcatg gtactggtac caaaacagat agatagaccg 1320 atagaacaga acagaggcct cggaaataac accacacatc tacaaccctt tgatcttcaa 1380 <210> 23 <211> 1246 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR23 <400> 23 atcccctcat ccttcagggc agctgagcag ggcctcgagc agctggggga gcctcactta 60 atgctcctgg gagggcagcc agggagcatg gggtctgcag gcatggtcca gggtcctgca 120 ggcggcacgc accatgtgca gccgccccca cctgttgctc tgcctccgcc acctggccat 180 gggcttcagc agccagccac aaagtctgca gctgctgtac atggacaaga agcccacaag 240 cagctagagg accttgtgtt ccacgtgccc agggagcatg gcccacagcc caaagaccag 300 tcaggagcag gcaggggctt ctggcaggcc cagctctacc tctgtcttca cacagatggg 360 agatttctgt tgtgattttg agtgatgtgc ccctttggtg acatccaaga tagttgctga 420 agcaccgctc taacaatgtg tgtgtattct gaaaacgaga acttctttat tctgaaataa 480 ttgatgcaaa ataaattagt ttggatttga aattctattc atgtaggcat gcacacaaaa 540 gtccaacatt gcatatgaca caaagaaaag aaaaagcttg cattccttaa atacaaatat 600 ctgttaacta tatttgcaaa tatatttgaa tacacttcta ttatgttaca tataatatta 660 tatgtatatg tatatataat atacatatat atgttacata taatatactt ctattatgtt 720 acatataata tttatctata agtaaataca taaatataaa gatttgagta gctgtagaac 780 attgtcttat gtgttatcag ctactactac aaaaatatct cttccactta tgccagtttg 840 ccatataaat atgatcttct cattgatggc ccagggcaag agtgcagtgg gtacttattc 900 tctgtgagga gggaggagaa aagggaacaa ggagaaagtc acaaagggaa aactctggtg 960 ttgccaaaat gtcaagtttc acatattccg agacggaaaa tgacatgtcc cacagaagga 1020 ccctgcccag ctaatgtgtc acagatatct caggaagctt aaatgatttt tttaaaagaa 1080 aagagatggc attgtcactt gtttcttgta gctgaggctg tgggatgatg cagatttctg 1140 gaaggcaaag agctcctgct ttttccacac cgagggactt tcaggaatga ggccagggtg 1200 ctgagcacta caccaggaaa tccctggaga gtgtttttct tactta 1246 <210> 24 <211> 939 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR24 <400> 24 acgaggtcac gagttcgaga ccagcctggc caagatggtg aagccctgtc tctactaaaa 60 atacaacaag tagccgggcg cggtgacggg cgcctgtaat cccagctact caggaggctg 120 aagcaggaga atctctagaa cccaggaggc ggaggtgcag tgagctgaga ctgccccgct 180 gcactctagc ctgggcaaca cagcaagact ctgtctcaaa taaataaata aataaataaa 240 taaataaata aataaataaa tagaaaggga gagttggaag tagatgaaag agaagaaaag 300 aaatcctaga tttcctatct gaaggcacca tgaagatgaa ggccacctct tctgggccag 360 gtcctcccgt tgcaggtgaa ccgagttctg gcctccattg gagaccaaag gagatgactt 420 tggcctggct cctagtgagg aagccatgcc tagtcctgtt ctgtttgggc ttgatcctgt 480 atcacttgat tgtctctcct ggactttcca tggattccag ggatgcaact gagaagttta 540 tttttaatgc acttacttga agtaagagtt attttaaaac attttagcaa aggaaatgaa 600 ttctgacagg ttttgcactg aagacattca catgtgagga aaacaggaaa accactatgc 660 tagaaaaagc aaatgctgtt gagattgtct cacaaacaca aattgcgtgc cagcaggtag 720 gtttgagcct caggttgggc acattttacc ttaagcgcac tgttggtgga acttaaggtg 780 actgtaggac ttatatatac atacatacat ataatatata tacatattta tgtgtatata 840 cacacacaca cacacacaca cacacagggt cttgctatct tgcccagggt ggtctccaac 900 tctgggtctc aagcgatcct ctgcctcccc ttcccaaag 939 <210> 25 <211> 1067 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR25 <400> 25 cagcccctct tgtgtttttc tttatttctc gtacacacac gcagttttaa gggtgatgtg 60 tgtataatta aaaggaccct tggcccatac tttcctaatt ctttagggac tgggattggg 120 tttgactgaa atatgttttg gtggggatgg gacggtggac ttccattctc cctaaactgg 180 agttttggtc ggtaatcaaa actaaaagaa acctctggga gactggaaac ctgattggag 240 cactgaggaa caagggaatg aaaaggcaga ctctctgaac gtttgatgaa atggactctt 300 gtgaaaatta acagtgaata ttcactgttg cactgtacga agtctctgaa atgtaattaa 360 aagtttttat tgagcccccg agctttggct tgcgcgtatt tttccggtcg cggacatccc 420 accgcgcaga gcctcgcctc cccgctgccc tcagcctccg atgacttccc cgcccccgcc 480 ctgctcggtg acagacgttc tactgcttcc aatcggaggc acccttcgcg ggagcggcca 540 atcgggagct ccggcaggcg gggaggccgg gccagttaga tttggaggtt caacttcaac 600 atggccgaag caagtagcgc caatctaggc agcggctgtg aggaaaaaag gcatgagggg 660 tcgtcttcgg aatctgtgcc acccggcact accatttcga gggtgaagct cctcgacacc 720 atggtggaca cttttcttca gaagctggtc gccgccggca ggtaaagtgg acgcagccgc 780 ggtgggagtg tttgttggca ccgaagctca aatcccgcga ggtcaggacg gccgcaggct 840 ggcgcgcggt gacgtgggtc cgcgttgggg gcggggcagt cggacgaggc gacccagtca 900 aatcctgagc cttaggagtc agggtattca cgcactgata acctgtagcg gaccgggata 960 gctagctact ccttcctaca ggaagccccg ttttcactaa aatttcaggt ggttgggagg 1020 aaagatagag cctttgcaaa ttagagcagg gttttttatt tttttat 1067 <210> 26 <211> 540 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR26 <400> 26 ccccctgaca agccccagtg tgtgatgttc cccactctgt gtccatgcat tctcattgtt 60 caactcccat ctgtgagtga gaacatgcag tgtttggttt tctgtccttg agatagtttg 120 ctgagaatga tggtttccag cttcatccat gtccttgcaa aggaagtgaa cttatccttt 180 tttatggctt catagtattc catggcacat atgtgccaca tttttttaat ccagtctatc 240 attgatggac atttgggttg gttccaagtc tttgctattg tgaatagcac cacaattaac 300 atatgtgtgc atgtatacat ctttatagta gcatgattta taatccttcg ggtatatacc 360 ctgtaatggg atcgctgggt caaatggtat ttctagttct agatccttga ggaatcacca 420 cactgctttc cacaatggtt gaactaattt acgctcccac cagcagtgta aaagcattcc 480 tatttctcca cgtcctctcc agtatctgtt gtttcctgac tttttaatga tcatcattct 540 <210> 27 <211> 1520 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR27 <400> 27 cttggccctc acaaagcctg tggccaggga acaattagcg agctgcttat tttgctttgt 60 atccccaatg ctgggcataa tgcctgccat tatgagtaat gccggtagaa gtatgtgttc 120 aaggaccaaa gttgataaat accaaagaat ccagagaagg gagagaacat tgagtagagg 180 atagtgacag aagagatggg aacttctgac aagagttgtg aagatgtact aggcaggggg 240 aacagcttaa ggagagtcac acaggaccga gctcttgtca agccggctgc catggaggct 300 gggtggggcc atggtagctt tcccttcctt ctcaggttca gagtgtcagc cttgaacttc 360 taattcccag aggcatttat tcaatgtttt cttctagggg catacctgcc ctgctgtgga 420 agactttctt ccctgtgggt cgccccagtc cccagatgag acggtttggg tcagggccag 480 gtgcaccgtt gggtgtgtgc ttatgtctga tgacagttag ttactcagtc attagtcatt 540 gagggaggtg tggtaaagat ggagatgctg ggtcacatcc ctagagaggt gttccagtat 600 gggcacatgg gagggctgga aggataggtt actgctagac gtagagaagc cacatccttt 660 aacaccctgg cttttcccac tgccaagatc cagaaagtcc ttgtggtttc gctgctttct 720 cctttttttt tttttttttt tttctgagat ggagtctggc tctgtcgccc aggctggagt 780 gcagtggcac gatttcggct cactgcaagt tccgcctcct aggttcatac cattctccca 840 cctcagcctc ccgagtagct gggactacag gcgccaccac acccagctaa ttttttgtat 900 ttttagtaga gacggcgttt caccatgtta gccaggatgg tcttgatccg cctgcctcag 960 cctcccaaag tgctgggatt acaggcgtga gccaccgcgc ccggcctgct ttcttctttc 1020 atgaagcatt cagctggtga aaaagctcag ccaggctggt ctggaactct tgacctcaag 1080 tgatctgcct gcctcagcct cccaaagtgc tgagattaca ggcatgagcc agtccgaatg 1140 tggctttttt tgttttgttt tgaaacaagg tctcactgtt gcccaggctg cagtgcagtg 1200 gcatacctca gctccactgc agcctcgacc tcctgggctc aagcaatcct cccaactgag 1260 cctccccagt agctggggct acaagcgcat gccaccacgc ctggctattt tttttttttt 1320 tttttttttt gagaaggagt ttcattcttg ttgcccaggc tggagtgcaa tggcacagtc 1380 tcagctcact gcagcctccg cctcctgggt tcaagcgatt ctcctgcctc agcctcccga 1440 gtagctggga ttataggcac ctgccaccat gcctggctaa tttttttgta tttttagtag 1500 ggatggggtt tcaccatgtt 1520 <210> 28 <211> 961 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR28 <400> 28 aggaggttat tcctgagcaa atggccagcc tagtgaactg gataaatgcc catgtaagat 60 ctgtttaccc tgagaagggc atttcctaac tctccctata aaatgccaag tggagcaccc 120 cagatgaaat agctgatatg ctttctatac aagccatcta ggactggctt tatcatgacc 180 aggatattca cccactgaat atggctatta cccaagttat ggtaaatgct gtagttaagg 240 gggtcccttc cacatggaca ccccaggtta taaccagaaa gggttcccaa tctagactcc 300 aagagagggt tcttagacct catgcaagaa agaacttggg gcaagtacat aaagtgaaag 360 caagtttatt aagaaagtaa agaaacaaaa aaatggctac tccataagca aagttatttc 420 tcacttatat gattaataag agatggatta ttcatgagtt ttctgggaaa ggggtgggca 480 attcctggaa ctgagggttc ctcccacttt tagaccatat agggtatctt cctgatattg 540 ccatggcatt tgtaaactgt catggcactg atgggagtgt cttttagcat tctaatgcat 600 tataattagc atataatgag cagtgaggat gaccagaggt cacttctgtt gccatattgg 660 tttcagtggg gtttggttgg cttttttttt tttttaacca caacctgttt tttatttatt 720 tatttattta tttatttatt tatatttttt attttttttt agatggagtc ttgctctgtc 780 acccaggtta gagtgcagtg gcaccatctc ggctcactgc aagctctgcc tccttggttc 840 acgccattct gctgcctcag cctcccgagt agctgggact acaggtgcct gccaccatac 900 ccggctaatt ttttctattt ttcagtagag acggggtttc accgtgttag ccaggatggt 960 c 961 <210> 29 <211> 2233 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR29 <400> 29 agcttggaca cttgctgatg ccactttgga tgttgaaggg ccgccctctc ccacaccgct 60 ggccactttt aaatatgtcc cctctgccca gaagggcccc agaggagggg ctggtgaggg 120 tgacaggagt tgactgctct cacagcaggg ggttccggag ggaccttttc tccccattgg 180 gcagcataga aggacctaga agggccccct ccaagcccag ctgggcgtgc agggccagcg 240 attcgatgcc ttcccctgac tcaggtggcg ctgtcctaaa ggtgtgtgtg ttttctgttc 300 gccagggggt ggcggataca gtggagcatc gtgcccgaag tgtctgagcc cgtggtaagt 360 ccctggaggg tgcacggtct cctccgactg tctccatcac gtcaggcctc acagcctgta 420 ggcaccgctc ggggaagcct ctggatgagg ccatgtggtc atccccctgg agtcctggcc 480 tggcctgaag aggaggggag gaggaggcca gcccctccct agccccaagg cctgcgaggc 540 tgcaagcccg gccccacatt ctagtccagg cttggctgtg caagaagcag attgcctggc 600 cctggccagg cttcccagct aggatgtggt atggcagggg tgggggacat tgaggggctg 660 ctgtagcccc cacaacctcc ccaggtaggg tggtgaacag taggctggac aagtggacct 720 gttcccatct gagattcaag agcccacctc tcggaggttg cagtgagccg agatccctcc 780 actgcactcc agcctgggca acagagcaag actctgtctc aaaaaaacag aacaacgaca 840 acaaaaaacc cacctctggc ccactgccta actttgtaaa taaagtttta ttggcacata 900 gacacaccca ttcatttaca tactgctgcg gctgcttttg cattaccctt gagtagacga 960 cagaccacgt ggccatggaa gccaaaaata tttactgtct ggccctttac agaagtctgc 1020 tctagaggga gaccccggcc catggggcag gaccactggg cgtgggcaga agggaggcct 1080 cggtgcctcc acgggcctag ttgggtatct cagtgcctgt ttcttgcatg gagcaccagg 1140 ggtcagggca agtacctgga ggaggcaggc tgttgcccgc ccagcactgg gacccaggag 1200 accttgagag gctcttaacg aatgggagac aagcaggacc agggctccca ttggctgggc 1260 ctcagtttcc ctgcctgtaa gtgagggagg gcagctgtga aggtgaactg tgaggcagag 1320 cctctgctca gccattgcag gggcggctct gccccactcc tgttgtgcac ccagagtgag 1380 gggcacgggg tgagatgtca ccatcagccc ataggggtgt cctcctggtg ccaggtcccc 1440 aagggatgtc ccatcccccc tggctgtgtg gggacagcag agtccctggg gctgggaggg 1500 ctccacactg ttttgtcagt ggtttttctg aactgttaaa tttcagtgga aaattctctt 1560 tcccctttta ctgaaggaac ctccaaagga agacctgact gtgtctgaga agttccagct 1620 ggtgctggac gtcgcccaga aagcccaggt actgccacgg gcgccggcca ggggtgtgtc 1680 tgcgccagcc atgggcacca gccaggggtg tgtctacgcc ggccaggggt aggtctccgc 1740 cggcctccgc tgctgcctgg ggagggccgt gcctgacact gcaggcccgg tttgtccgcg 1800 gtcagctgac ttgtagtcac cctgcccttg gatggtcgtt acagcaactc tggtggttgg 1860 ggaaggggcc tcctgattca gcctctgcgg acggtgcgcg agggtggagc tcccctccct 1920 ccccaccgcc cctggccagg gttgaacgcc cctgggaagg actcaggccc gggtctgctg 1980 ttgctgtgag cgtggccacc tctgccctag accagagctg ggccttcccc ggcctaggag 2040 cagccgggca ggaccacagg gctccgagtg acctcagggc tgcccgacct ggaggccctc 2100 ctggcgtcgc ggtgtgactg acagcccagg agcgggggct gttgtaattg ctgtttctcc 2160 ttcacacaga accttttcgg gaagatggct gacatcctgg agaagatcaa gaagtaagtc 2220 ccgcccccca ccc 2233 <210> 30 <211> 1851 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR30 <400> 30 gggtgcattt ccacccaggg gacacttggc aatggtggga gacattgctt gttgtcacaa 60 ctgggcatgg gagtgctgct gcgtctagtg ggtagaggcc agagatgctc ctaatatcct 120 acaaggcaca gaacagcccc ccacaacaga gaattatcca gcctgaaaat gtccacagtg 180 ctgaggttgg gaaaccctat tctagagcca acaggctgtg aagcttgact catggttcca 240 tcaccaatag ctgcgtgacc ttggtgagtt ccttagctgc tctgtgcctc ggattcatgg 300 taggttttcc ttgttaggtt taaatgagtg aagttataca gagggcctga agtctcatgg 360 tattttacta gagcctcatt gtgttttagt tataattaga aattgggtaa ggtaaggaca 420 cagaagaagc catctgatct gggggcttca cacttagaag tgacctcgga gcaattgtat 480 tggggtggaa agggactaac agccaggagc agagggcaca ttggaattgg ggccagaggg 540 cacagactgc cttgtccatc aggcatagca atggacagag gaaggggaat gactagttat 600 ggctgcaagg ccaagtacag gggacttatt tctcatatct atctatctat ctacctaccg 660 tctatttatc tatcatctat ctacttattt atctatctat ttatgcatgt gtaccaaccg 720 aaagttttag taaatgcaca aactgcgata taatgaaaat ggaaattttc aaaagaagag 780 aaatcacctg ccacctgact accttaacaa atgagtggtt ttcatctctc cttccaggcc 840 tgtcattttt acagtgcttt agtcataaaa caggtcctct attctattgt tttatgtcac 900 atgaaattgt accataagca ttttccatga tgtgactcca ctgtttcatt ttccattttt 960 ttccagaatg aagataacct cattgttttt ttcctgattg taaaaatgct ctgtgctctt 1020 tttttttttt tttaacaatg caggcagtac caaaaagtat gaagaagaat gtaatagttc 1080 ccatttccca tctcactctt taaggccagc attttggtga acatccatcc gaacaaatct 1140 ccacgcgttt atcaatttgt tgacttactc cttcttttat gtaaatatga acatgattta 1200 actgccagtc catttggaac cttaaagtga aggtttttta ttgttggggt ttgctatggt 1260 ctgaatatgt gtgtcccccc aaaatttatg ttgaatccta acgcccaatg cgattaggag 1320 gtggggccat taggaggtga ttaagtcatg aagtcatcag ccctaatgaa tgggatttgt 1380 ggccttgaaa agggacccca gagagctgcc ttgccccttc tgccatgtaa ggacacagtg 1440 aggagctagg aagggggcct cagcagagac caaatgtgat ggtgcctcga tattggactt 1500 cccagcctcc agaatgtgag aaatgaattt ctgttgttta taagtcaccc agtctatagt 1560 attttgttct agcagcccaa acagactaag tcagggttgt tgttttagga agtggggaat 1620 ggggccatgc atgggtgtac gccagaacaa aggaagccag caagtcctga aagatactgg 1680 aaaagggaat agtgggcacg tgcagtgtgt tagtttcctg aggctgctat aacaaagcac 1740 cacaggttgg gtggcttaaa taacagaaat tcattctccc atcattctgg ggaccagacg 1800 tctgaaatca agactcctat gccatgctcc ttctgaaggc tccaggggag g 1851 <210> 31 <211> 1701 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR31 <220> <221> misc_feature <222> (159)..(1696) <223> n is a, c, g, or t on various positions <400> 31 cacccgcctt ggccccccag agtgctggga ttacaagtgt aaaccaccat tcctggctag 60 atttaatttt ttaaaaaata aagagaagta ggaatagttc attttaggga gagcccctta 120 actgggacag gggcaggaca ggggtgaggc ttcccttant tcaagctcac ctcaaaccca 180 cccaggactg tgtgtcacat tctccaataa aggaaaggtt gctgcccccg cctgtgagtg 240 ctgcagtgga gggtagaggg ccgtgggcag agtgcttcat ggactgctca tcaagaaagg 300 cttcatgaca atcggcccag ctgctgtcat cccacattct acttccagct aggagaaggc 360 ggcttgccca cagtcaccca gccggcaagt gtcacccctg ggttggaccc agagctatga 420 tcctgcccag gggtccagct gagaatcagg cccacgttct aggcagaggg gctcacctac 480 tgggactcca gtagctgtag tgcatggagg catcatggct gcagcagcct ggacctggtc 540 tcacactggc tgtccctgtg ggcaggccat cctcaatgcc aggtcaggcc caagcatgta 600 tcccagacaa tgacaatggg gtggaatcct ctcttgtccc agaagccact cctcactgtt 660 ctacctgagg aaggcagggg catggtggaa tcctgaagcc tgctgtgagg gtctccagcg 720 aacttgcaca tggtcagccc tgccttctcc tccctgaact agattgagcg agagcaagaa 780 ggacattgaa ccagcaccca aagaattttg gggaacggcc tctcatccag gtcaggctca 840 cctccttttt aaaatttaat taattaatta attaattttt ttttagagac agagtcttac 900 tgtgtggccc aggctgtagt gcagtggcac aatcatagtt cactgcagcc tcaaactccc 960 cacctcagcc tctggattag ctgagactac aggtgcacca ccaccacacc cagctaatat 1020 ttttattttt gtagagagag ggtttcacca tcttgcccag gctggtctca aactcctggg 1080 ctcaagtgat cccgcccagg tctgaaagcc cccaggctgg cctcagactg tggggttttc 1140 catgcagcca cccgagggcg cccccaagcc agttcatctc ggagtccagg cctggccctg 1200 ggagacagag tgaaaccagt ggtttttatg aacttaactt agagtttaaa agatttctac 1260 tcgatcactt gtcaagatgc gccctctctg gggagaaggg aacgtgactg gattccctca 1320 ctgttgtatc ttgaataaac gctgctgctt catcctgtgg gggccgtggc cctgtccctg 1380 tgtgggtggg gcctcttcca tttccctgac ttagaaacca cagtccacct agaacagggt 1440 ttgagaggct tagtcagcac tgggtagcgt tttgactcca ttctcggctt tcttcttttt 1500 ctttccagga tttttgtgca gaaatggttc ttttgttgcc gtgttagtcc tccttggaag 1560 gcagctcaga aggcccgtga aatgtcgggg gacaggaccc ccagggaggg aaccccaggc 1620 tacgcacttt agggttcgtt ctccagggag ggcgacctga cccccgnatc cgtcggngcg 1680 cgnngnnacn aannnnttcc c 1701 <210> 32 <211> 771 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR32 <400> 32 gatcacacag cttgtatgtg ggagctagga ttggaacccc agaagtctgg ccccaggttc 60 atgctctcac ccactgcata caatggcctc tcataaatca atccagtata aaacattaga 120 atctgcttta aaaccataga attagtagcg taagtaataa atgcagagac catgcagtga 180 atggcattcc tggaaaaagc ccccagaagg aattttaaat cagctttcgt ctaatcttga 240 gcagctagtt agcaaatatg agaatacagt tgttcccaga taatgcttta tgtctgacca 300 tcttaaactg gcgctgtttt tcaaaaactt aaaaacaaaa tccatgactc ttttaattat 360 aaaagtgata catgtctact tgggaggctg aggtggtggg aggatggctt gagtttgagg 420 ctgcagtatg ctactatcat gcctataaat agccgctgca ttccagcttg ggcaacatac 480 ccaggcccta tctcaaaaaa ataaaaagta atacatctac attgaagaaa attaatttta 540 ttgggttttt ttgcattttt attatacaca gcacacacag cacatatgaa aaaatgggta 600 tgaactcagg cattcaactg gaagaacagt actaaatcaa tgtccatgta gtcagcgtga 660 ctgaggttgg tttgtttttt cttttttctt ctcttctctt ctcttttctt tttttttgag 720 acggagcttt gctctttttg cccaggcttg attgcaatgg cgtgatctca g 771 <210> 33 <211> 1368 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR33 <400> 33 gcttttatcc tccattcaca gctagcctgg cccccagagt acccaattct ccctaaaaaa 60 cggtcatgct gtatagatgt gtgtggcttg gtagtgctaa agtggccaca tacagagctc 120 tgacaccaaa cctcaggacc atgttcatgc cttctcactg agttctggct tgttcgtgac 180 acattatgac attatgatta tgatgacttg tgagagcctc agtcttctat agcactttta 240 gaatgcttta taaaaaccat ggggatgtca ttatattcta acctgttagc acttctgttc 300 gtattaccca tcacatccca acatcaattc tcatatatgc aggtacctct tgtcacgcgc 360 gtccatgtaa ggagaccaca aaacaggctt tgtttgagca acaaggtttt tatttcacct 420 gggtgcaggt gggctgagtc tgaaaagaga gtcagtgaag ggagacaggg gtgggtccac 480 tttataagat ttgggtaggt agtggaaaat tacaatcaaa gggggttgtt ctctggctgg 540 ccagggtggg ggtcacaagg tgctcagtgg gagagccttt gagccaggat gagccagaag 600 gaatttcaca aggtaatgtc atcagttaag gcagggactg gccattttca cttcttttgt 660 ggtggaatgt catcagttaa ggcaggaacc ggccattttc acttcttttg tgattcttca 720 cttgcttcag gccatctgga cgtataggtg caggtcacag tcacagggga taagatggca 780 atggcatagc ttgggctcag aggcctgaca cctctgagaa actaaagatt ataaaaatga 840 tggtcgcttc tattgcaaat ctgtgtttat tgtcaagagg cacttatttg tcaattaaga 900 acccagtggt agaatcgaat gtccgaatgt aaaacaaaat acaaaacctc tgtgtgtgtg 960 tgtgtgtgag tgtgtgtgta tgtgtgtgtg tgtgtattag agaggaaaag cctgtatttg 1020 gaggtgtgat tcttagattc taggttcttt cctgcccacc ccatatgcac ccaccccaca 1080 aaagaacaaa caacaaatcc caggacatct tagcgcaaca tttcagtttg catattttac 1140 atatttactt ttcttacata ttaaaaaact gaaaatttta tgaacacgct aagttagatt 1200 ttaaattaag tttgttttta cactgaaaat aatttaatat ttgtgaagaa tactaataca 1260 ttggtatatt tcattttctt aaaattctga acccctcttc ccttatttcc ttttgacccg 1320 attggtgtat tggtcatgtg actcatggat ttgccttaag gcaggagg 1368 <210> 34 <211> 755 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR34 <400> 34 actgggcacc ctcctaggca ggggaatgtg agaactgccg ctgctctggg gctgggcgcc 60 atgtcacagc aggagggagg acggtgttac accacgtggg aaggactcag ggtggtcagc 120 cacaaagctg ctggtgatga ccaggggctt gtgtcttcac tctgcagccc taacacccag 180 gctgggttcg ctaggctcca tcctgggggt gcagaccctg agagtgatgc cagtgggagc 240 ctcccgcccc tccccttcct cgaaggccca ggggtcaaac agtgtagact cagaggcctg 300 agggcacatg tttatttagc agacaaggtg gggctccatc agcggggtgg cctggggagc 360 agctgcatgg gtggcactgt ggggagggtc tcccagctcc ctcaatggtg ttcgggctgg 420 tgcggcagct ggcggcaccc tggacagagg tggatatgag ggtgatgggt ggggaaatgg 480 gaggcacccg agatggggac agcagaataa agacagcagc agtgctgggg ggcaggggga 540 tgagcaaagg caggcccaag acccccagcc cactgcaccc tggcctccca caagccccct 600 cgcagccgcc cagccacact cactgtgcac tcagccgtcg atacactggt ctgttaggga 660 gaaagtccgt cagaacaggc agctgtgtgt gtgtgtgcgt gtatgagtgt gtgtgtgtga 720 tccctgactg ccaggtcctc tgcactgccc ctggg 755 <210> 35 <211> 1193 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR35 <220> <221> misc_feature <222> (312)..(1191) <223> n is a, c, g, or t on various positions <400> 35 cgacttggtg atgcgggctc ttttttggtt ccatatgaac tttaaagtag tcttttccaa 60 ttctgtgaag aaagtcattg gtaggttgat ggggatggca ttgaatctgt aaattacctt 120 gggcagtatg gccattttca caatgttgat tcttcctatc catgatgatg gaatgttctt 180 ccattagttt gtatcctctt ttatttcctt gagcagtggt ttgtagttct ccttgaagag 240 gtccttcaca tcccttgtaa gttggattcc taggtatttt attctctttg aagcaaattg 300 tgaatgggag tncactcacg atttggctct ctgtttgtct gctgggtgta taaanaatgt 360 ngtgatnttn gtacattgat ttngtatccn tgagacttng ctgaatttgc ttnatcngct 420 tnngggaacc ttttgggctg aaacnatggg attttctaaa tatacaatca tgtcgtctgc 480 aaacagggaa caatttgact tcctcttttc ctaattgaat acactttatc tccttctcct 540 gcctaattgc cctgggcaaa acttccaaca ctatgntngn aataggagnt ggtgagagag 600 ggcatccctg ttcttgttgc cagnttttca aagggaatgc ttccagtttt ggcccattca 660 gtatgatatg ggctgtgggt ngtgtcataa atagctctta tnattttgaa atgtgtccca 720 tcaataccta atttattgaa agtttttagc atgaangcat ngttgaattt ggtcaaaggc 780 tttttctgca tctatggaaa taatcatgtg gtttttgtct ttggctcntg tttatatgct 840 ggatnacatt tattgatttg tgtatatnga acccagcctn ncatcccagg gatgaagccc 900 acttgatcca agcttggcgc gcngnctagc tcgaggcagg caaaagtatg caaagcatgc 960 atctcaatta gtcagcaccc atagtccgcc cctacctccg cccatccgcc cctaactcng 1020 nccgttcgcc cattctcgcc catggctgac taatnttttt annatccaag cggngccgcc 1080 ctgcttganc attcagagtn nagagnnttg gaggccnagc cttgcaaaac tccggacngn 1140 ttctnnggat tgaccccnnt taaatatttg gttttttgtn ttttcanngg nga 1193 <210> 36 <211> 1712 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR36 <400> 36 gatcccatcc ttagcctcat cgatacctcc tgctcacctg tcagtgcctc tggagtgtgt 60 gtctagccca ggcccatccc ctggaactca ggggactcag gactagtggg catgtacact 120 tggcctcagg ggactcagga ttagtgagcc ccacatgtac acttggcctc agtggactca 180 ggactagtga gccccacatg tacacttggc ctcaggggac tcaggattag tgagccccca 240 catgtacact tggcctcagg ggactcagga ttagtgagcc ccacatgtac acttggcctc 300 aggggactca ggactagtga gccccacatg tacacttggc ctcaggggac tcagaactag 360 tgagccccac atgtacactt ggcttcaggg gactcaggat tagtgagccc cacatgtaca 420 cttggacacg tgaaccacat cgatgtgctg cagagctcag ccctctgcag atgaaatgtg 480 gtcatggcat tccttcacag tggcacccct cgttccctcc ccacctcatc tcccattctt 540 gtctgtcttc agcacctgcc atgtccagcc ggcagattcc accgcagcat cttctgcagc 600 acccccgacc acacacctcc ccagcgcctg cttggccctc cagcccagct cccgcctttc 660 ttccttgggg aagctccctg gacagacacc ccctcctccc agccatggct ttttcctgct 720 ctgccccacg cgggaccctg ccctggatgt gctacaatag acacatcaga tacagtcctt 780 cctcagcagc cggcagaccc agggtggact gctcggggcc tgcctgtgag gtcacacagg 840 tgtcgttaac ttgccatctc agcaactagt gaatatgggc agatgctacc ttccttccgg 900 ttccctggtg agaggtactg gtggatgtcc tgtgttgccg gccacctttt gtccctggat 960 gccatttatt tttttccaca aatatttccc aggtctcttc tgtgtgcaag gtattagggc 1020 tgcagcgggg gccaggccac agatctctgt cctgagaaga cttggattct agtgcaggag 1080 actgaagtgt atcacaccaa tcagtgtaaa ttgttaactg ccacaaggag aaaggccagg 1140 aaggagtggg gcatggtggt gttctagtgt tacaagaaga agccagggag ggcttcctgg 1200 atgaagtggc atctgacctg ggatctggag gaggagaaaa atgtcccaaa agagcagaga 1260 gcccacccta ggctctgcac caggaggcaa cttgctgggc ttatggaatt cagagggcaa 1320 gtgataagca gaaagtcctt gggggccaca attaggattt ctgtcttcta aagggcctct 1380 gccctctgct gtgtgacctt gggcaagtta cttcacctct agtgctttgg ttgcctcatc 1440 tgtaaagtgg tgaggataat gctatcacac tggttgagaa ttgaagtaat tattgctgca 1500 aagggcttat aagggtgtct aatactagta ctagtaggta cttcatgtgt cttgacaatt 1560 ttaatcatta ttattttgtc atcaccgtca ctcttccagg ggactaatgt ccctgctgtt 1620 ctgtccaaat taaacattgt ttatccctgt gggcatctgg cgaggtggct aggaaagcct 1680 ggagctgttt cctgttgacg tgccagacta gt 1712 <210> 37 <211> 1321 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR37 <400> 37 aggatcacat ttaaggaagt gtgtggggtc cctggatgac accagcaccc agtgcggctc 60 tgtctggcaa ccgctcccaa ggtggcagga gtgggtgtcc cctgtgtgtc agtgggcagc 120 tcctgctgag cctacagctc actggggagc ctgacagcgg ggccatgtgc ctgacactcc 180 tctctgcttg tggacctggc aaggcaggga gcagaaaaca gagccacttg aaggctttct 240 gtctgcgtct gtgtgcagtg tggatttagt tgtgcttttt tcttgctggg agagcacagc 300 caccatttac aagcagtgtc accctcatgg gtggcgagga cagaacagga gcctctgctc 360 tctgtaccta tctgggcccg gtgggctccc ttgtcctggc ttccatctct gtctcagcga 420 ccattcagcc ctgcgcagga acacatgttg cttagaaaag ccaaattcag cccttgtctc 480 tgcctcctct ggtctcatga tgtgcatctg ttaccttgaa actggaaacc agtctatcaa 540 tgtctgtgcc aattttttat tccctcccca acctccttcc ccatacgact ttttatttat 600 gtaggatgtg tgctgtctaa tgatgggatg accacatttt tccatgttct aaaagtgctc 660 ctctcccgca gggtcccagg gctggtggtt gctttgggtc tacagctacg tcttacccgc 720 ctcctgcctc aacagcctgt gtggtggcaa agccggtgtg gggctgggga acgcagcgtt 780 ctccaggagg gggacccggc tctccttctg cagtgcaggc gaaggcctag atgccagtgt 840 gacctcccac aaggcgtggc ttccagactc cccggctgga agtgatgctt ttttgcctcc 900 ggccctgggt ttgaagcagc ctggctttct cttggtaagt ggctggtgtc ttagcagctg 960 caatctgagc tcagccacct acacaccacc gtggccgaca ctttcattaa aaagtttcct 1020 gagacgactt gcgtgcatgt tgacttcatg atcagcgccg ctgggaagaa cccctgagcc 1080 ggtggggtgg ggctggaagc agcaggtgca gtgatggggc tgggtgccca ggaggcctca 1140 gtgctcaatc aggccaaggt ggccaagccc aggctgcagg gaaggccggc ctgggggttg 1200 tgggtgagca caggcaggca ccagctgggc agtgttagga tgctggagca gcatccgtaa 1260 ccccactgag tggggtagtc tggttggggc agggaccgct gttgctttgg cagagagaga 1320 t 1321 <210> 38 <211> 1445 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR38 <220> <221> misc_feature <222> (348)..(949) <223> n is a, c, g, or t on various positions <400> 38 gatctatggg agtagcttcc ttagtgagct ttcccttcaa atactttgca accaggtaga 60 gaattttgga gtgaaggttt tgttcttcgt ttcttcacaa tatggatatg catcttcttt 120 tgaaaatgtt aaagtaaatt acctctcttt tcagatactg tcttcatgcg aacttggtat 180 cctgtttcca tcccagcctt ctataaccca gtaacatctt ttttgaaacc agtgggtgag 240 aaagacacct ggtcaggaac gcggaccaca ggacaactca ggctcaccca cggcatcaga 300 ctaaaggcaa acaaggactc tgtataaagt accggtggca tgtgtatnag tggagatgca 360 gcctgtgctc tgcagacagg gagtcacaca gacacttttc tataatttct taagtgcttt 420 gaatgttcaa gtagaaagtc taacattaaa tttgattgaa caattgtata ttcatggaat 480 attttggaac ggaataccaa aaaatggcaa tagtggttct ttctggatgg aagacaaact 540 tttcttgttt aaaataaatt ttattttata tatttgaggt tgaccacatg accttaagga 600 tacatataga cagtaaactg gttactacag tgaagcaaat taacatatct accatcgtac 660 atagttacat ttttttgtgt gacaggaaca gctaaaatct acgtatttaa caaaaatcct 720 aaagacaata catttttatt aactatagcc ctcatgatgt acattagatc gtgtggttgt 780 ttcttccgtc cccgccacgc cttcctcctg ggatggggat tcattcccta gcaggtgtcg 840 gagaactggc gcccttgcag ggtaggtgcc ccggagcctg aggcgggnac tttaanatca 900 gacgcttggg ggccggctgg gaaaaactgg cggaaaatat tataactgna ctctcaatgc 960 cagctgttgt agaagctcct gggacaagcc gtggaagtcc cctcaggagg cttccgcgat 1020 gtcctaggtg gctgctccgc ccgccacggt catttccatt gactcacacg cgccgcctgg 1080 aggaggaggc tgcgctggac acgccggtgg cgcctttgcc tgggggagcg cagcctggag 1140 ctctggcggc agcgctggga gcggggcctc ggaggctggg cctggggacc caaggttggg 1200 cggggcgcag gaggtgggct cagggttctc cagagaatcc ccatgagctg acccgcaggg 1260 cggccgggcc agtaggcacc gggcccccgc ggtgacctgc ggacccgaag ctggagcagc 1320 cactgcaaat gctgcgctga ccccaaatgc tgtgtccttt aaatgtttta attaagaata 1380 attaataggt ccgggtgtgg aggctcaagc cttaatcccc agcacctggc gaggccgagg 1440 aggga 1445 <210> 39 <211> 2331 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR39 <400> 39 gtgaaataga tcactaaagc tgattcctct tgtctaaatg aaactttcta ccctttgatg 60 gacagctatg ctttccccat cctctcccgt cccccagccc ttggtaacca tcatcctact 120 ctctacttgt aggagttcaa cttgtttaga ttttgtgagt gagaacatgt ggtatttgcc 180 tttagagtcc tctaggttta tccatattgt gttaaatgac aggattccct gcctttttaa 240 ggctgaatag tatttcattg taatatatat acatacacac acacatatac acacacatat 300 atatacatat atacatatat gtacatagat acatatatat gtacatatat acacacacat 360 atacacacat atatacacat atatacatat acatatatac acatatatgt acatatatat 420 aacttttttt catttatcca ttcacttaat acatatgatg gagggcttta tatatgccag 480 gctctgtgat gaatgctgga aattcaatag tgagaaagac tcagtctctg cctccaaaga 540 gcatcatggg ctaggtgctg caacgaggaa ttgccaactg ttgtcatgag agcacagaga 600 agggactcaa ccagccttga agaatcaggg gaggcttcta agctaatggt gtgtgcctgg 660 ggatcacatt gtttcaagca gcagtaacag gatgtgctca ggtccagatg tgagagagag 720 agagagcata tgtcttcaag aaactaacag tagctcccta tagctgaagc aggagtacaa 780 aatagtgagt ttaagtgatg aggcaagaga tatgaagaag cttgaccatg cagctacacc 840 gggcagcatg ccctctgaga catctcatgg aagccggaaa tgggagtgcc ttgataccaa 900 gccagagaaa ttataatact aagtagatag actgagcagc actcctcctg ggaagaatga 960 gacaagccct gaatttggag gtaagttgtg gattggtgat tagaggagag gtaacaggca 1020 ccaaagcaag aaatagtatt gatgcaaagc tgaggttaat tggatgacaa aatgaagagc 1080 ataaggggct cagacacaga ctgagcagaa aacgagtagc atctgaacct agattgagtt 1140 actaatggat gagaaagagt tcttaaagtt gatgaccacg ggatccatat ataagaatgt 1200 ccaatctccc caaattgatc cacgagttca gtgcaatgcc aatcaaaatc ccactaacaa 1260 gtttatttta aaatgtaaat gaaaatacaa aatttttaaa aagcaaagca atattgaaaa 1320 cccaggaaaa attaggagga cttacacaac ctgatctcaa aacttaccat tatcaagaca 1380 gagtgttatt gacacaagga gagacaaata gataaacgga atgtggtagt ctggagatgc 1440 acccacatgt atgtggtcaa ttgatttttg gccaaggcac caagtcaatt caaaggagca 1500 aggaaagtag tacagaaaca accaaatatt gttttggaaa ataatgacaa agggcttata 1560 accagaatat aagcatataa atataattct ttcaaatcaa taataagaag gcaaatatct 1620 aataaaaatg agcaaagact tgaaaagtca cttaaaaagg cttattaatt agaaatatgc 1680 aaatgttatt agtcttcagt ggaatttaca ttaaaccaca agggatacta ttatatctta 1740 tgcccactag aataaccaaa ggaaaaaaga cagacaaaac aaaatgctgg tgaggatgtg 1800 aagcaactgg aactctcata cattattggt ggtaatgtaa aatttataca accattatga 1860 ataaaggttt ggcagtttct tacaaagttg aatgcacttc tccacgatga ctaggctttt 1920 cactcatagg cgtctggctc cctagaactg aaaacatatg ttcacaagaa gacttgcaaa 1980 tatatattct cccacgtcag gagatatttg ctatgcattt aactgacata agattagtgc 2040 tagagtttat aatgaggttc ttcaaatcta aaagaaaatg caaagcatat aatagtaagg 2100 ggtgcaggcc aggcgcagtg gctcactctg taatcccagc actttgggag gccgaggtgg 2160 gcggatcaca aggtcaggag ttcgagacca acctggccaa catagtgaaa ccctgtctct 2220 actaaaaata caaaaactag ccaggtgcgg tgtcatgcac ctgtagtccc agctactcgg 2280 gaggccgagg caggagaatc acttgaacct gggaggtgga ggttgcagtg a 2331 <210> 40 <211> 1071 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR40 <400> 40 gctgtgattc aaactgtcag cgagataagg cagcagatca agaaagcact ccgggctcca 60 gaaggagcct tccaggccag ctttgagcat aagctgctga tgagcagtga gtgtcttgag 120 tagtgttcag ggcagcatgt taccattcat gcttgacttc tagccagtgt gacgagaggc 180 tggagtcagg tctctagaga gttgagcagc tccagcctta gatctcccag tcttatgcgg 240 tgtgcccatt cgctttgtgt ctgcagtccc ctggccacac ccagtaacag ttctgggatc 300 tatgggagta gcttccttag tgagctttcc cttcaaatac tttgcaacca ggtagagaat 360 tttggagtga aggttttgtt cttcgtttct tcacaatatg gatatgcatc ttcttttgaa 420 aatgttaaag taaattacct ctcttttcag atactgtctt catgcgaact tggtatcctg 480 tttccatccc agccttctat aacccagtaa catctttttt gaaaccagtg ggtgagaaag 540 acacctggtc aggaacgcgg accacaggac aactcaggct cacccacggc atcagactaa 600 aggcaaacaa ggactctgta taaagtaccg gtggcatgtg tattagtgga gatgcagcct 660 gtgctctgca gacagggagt cacacagaca cttttctata atttcttaag tgctttgaat 720 gttcaagtag aaagtctaac attaaatttg attgaacaat tgtatattca tggaatattt 780 tggaacggaa taccaaaaaa tggcaatagt ggttctttct ggatggaaga caaacttttc 840 ttgtttaaaa taaattttat tttatatatt tgaggttgac cacatgacct taaggataca 900 tatagacagt aaactggtta ctacagtgaa gcaaattaac atatctacca tcgtacatag 960 ttacattttt ttgtgtgaca ggaacagcta aaatctacgt atttaacaaa aatcctaaag 1020 acaatacatt tttattaact atagccctca tgatgtacat tagatctcta a 1071 <210> 41 <211> 1135 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR41 <400> 41 cgtgtgcagt ccacggagag tgtgttctcc tcatcctcgt tccggtggtt gtggcgggaa 60 acgtggcgct gcaggacacc aacatcagtc acgtatttca ttctggaaaa aaaagtagca 120 caagcctcgg ctggttccct ccagctctta ccaggcagcc taagcctagg ctccattccc 180 gctcaaggcc ttcctcaggg gcctgctcac cacaggagct gttcccatgc agggactaag 240 gacatgcagc ctgcatagaa accaagcacc caggaaaaca tgattggatg gagcgggggg 300 gtgtggtctc tagccttgtc cacctccggt cctcatgggt ctcacacctc ctgagaatgg 360 gcaccgcaga ggccacagcc catacagcca agatgacaga ctccgtaagt gacagggatc 420 cacagcagag tgggtgaaat gttccctata aactttacaa aattaatgag ggcaggggga 480 ggggagaaat gaaaatgaac ccagctcgca gcacatcagc atcagtcact aggtcggcgt 540 gctctctgac tgcttcctcg tagctgcttg gtgtctcatt gcctcagaag catgtagacc 600 ctgtcacaag attgtagttc ccctaactgc tccgtagatc acaacttgaa ccttaggaaa 660 tgctgttttc cctttgagat attcctttgg gtcctgtata ctgatggagc tactgactga 720 gctgctccga aggaccccac gaggagctga ctaaaccaag agtgcagttt gtacaccctg 780 atgattacat cccccttgcc ccaccaatca actctcccaa ttttccagcc cctcaccctc 840 cagtcccctt aaaagcccca gcccaggccg ggcacagtgg ctcatgcctg taatcccagc 900 actttgggag gccaaggtgg gcagatcacc tgagggcagg aatttgagac cagcctgacc 960 aacatgaaga aaccccgtct ctattacaaa tacaaaatta gccgggcgtg ttgctgcata 1020 ctggtaatcc cagctacttg ggagggtgag gcaggagaat cacttgaatc tgggaggcgg 1080 aggttgcgat gagccgagac agcgccattg cactgcagcc tgggcaacaa gagca 1135 <210> 42 <211> 735 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR42 <400> 42 aagggtgaga tcactaggga gggaggaagg agctataaaa gaaagaggtc actcatcaca 60 tcttacacac tttttaaaac cttggttttt taatgtccgt gttcctcatt agcagtaagc 120 cctgtggaag caggagtctt tctcattgac caccatgaca agaccctatt tatgaaacat 180 aatagacaca caaatgttta tcggatattt attgaaatat aggaattttt cccctcacac 240 ctcatgacca cattctggta cattgtatga atgaatatac cataatttta cctatggctg 300 tatatttagg tcttttcgtg caggctataa aaatatgtat gggccggtca cagtgactta 360 cgcccgtagt cccagaactt tgggaggccg aggcgggtgg atcacctgag gtcgggagtt 420 caaaaccagc ctgaccaaca tggagaaacc ccgtctctgc taaaaataca aaaattaact 480 ggacacggtg gcgtatgcct gtaatcccag ctactcggga agctgaggca ggagaactgc 540 ttgaacccag gaggcggagg ttgtggtgag tcgagattgc gccattgcac tccagcctgg 600 gcaacaagag cgaaattcca tctcaaaaaa aagaaaaaag tatgactgta tttagagtag 660 tatgtggatt tgaaaaatta ataagtgttg ccaacttacc ttagggttta taccatttat 720 gagggtgtcg gtttc 735 <210> 43 <211> 1227 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR43 <400> 43 caaatagatc tacacaaaac aagataatgt ctgcccattt ttccaaagat aatgtggtga 60 agtgggtaga gagaaatgca tccattctcc ccacccaacc tctgctaaat tgtccatgtc 120 acagtactga gaccaggggg cttattccca gcgggcagaa tgtgcaccaa gcacctcttg 180 tctcaatttg cagtctaggc cctgctattt gatggtgtga aggcttgcac ctggcatgga 240 aggtccgttt tgtacttctt gctttagcag ttcaaagagc agggagagct gcgagggcct 300 ctgcagcttc agatggatgt ggtcagcttg ttggaggcgc cttctgtggt ccattatctc 360 cagcccccct gcggtgttgc tgtttgcttg gcttgtctgg ctctccatgc cttgttggct 420 ccaaaatgtc atcatgctgc accccaggaa gaatgtgcag gcccatctct tttatgtgct 480 ttgggctatt ttgattcccc gttgggtata ttccctaggt aagacccaga agacacagga 540 ggtagttgct ttgggagagt ttggacctat gggtatgagg taatagacac agtatcttct 600 ctttcatttg gtgagactgt tagctctggc cgcggactga attccacaca gctcacttgg 660 gaaaacttta ttccaaaaca tagtcacatt gaacattgtg gagaatgagg gacagagaag 720 aggccctaga tttgtacatc tgggtgttat gtctataaat agaatgcttt ggtggtcaac 780 tagacttgtt catgttgaca tttagtcttg ccttttcggt ggtgatttaa aaattatgta 840 tatcttgttt ggaatatagt ggagctatgg tgtggcattt tcatctggct ttttgtttag 900 ctcagcccgt cctgttatgg gcagccttga agctcagtag ctaatgaaga ggtatcctca 960 ctccctccag agagcggtcc cctcacggct cattgagagt ttgtcagcac cttgaaatga 1020 gtttaaactt gtttattttt aaaacattct tggttatgaa tgtgcctata ttgaattact 1080 gaacaacctt atggttgtga agaattgatt tggtgctaag gtgtataaat ttcaggacca 1140 gtgtctctga agagttcatt tagcatgaag tcagcctgtg gcaggttggg tggagccagg 1200 gaacaatgga gaagctttca tgggtgg 1227 <210> 44 <211> 1586 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR44 <400> 44 cacctgcctc agcctcccaa agtgctgaga ttcaaagaaa ttttcatgga gaggggacag 60 atggagtcaa ttcttgtggg gtgaacatga gtaccacagt tagactgagg ttgggaaaga 120 ttttccagac aattggaaga gcatgtgaaa gacacagatt ttgagaaatg ttaagtctag 180 ggaactgcaa ggcttttggc acaagaaagc cactgtagac tatagaggca ggatgcctag 240 attcaaatcc caactgctac acttctaagc tttgtaattt tggcaagttt ttaccctcta 300 ttttcttatc tataaaatat agattttata tatatagata tagatatata gatagataat 360 aattgtgcat gcctaataaa gttgtcaaag attaaatgtt atatgtgaag tattttgtac 420 ggtgatagga acccaggaag ggctctatga atattatgta ttattattat tctaaagtag 480 ctggaataca atgttcaaag gagatagtgg caggagataa gtttgaattg aaagattgag 540 gccagaacat aaagtgcctc ctatattata ttttacataa ttggaacatc attgaaaaat 600 ttaagtatta tttatgtgtg tatgtgtgtt ttatataatt aattctagtt catcatttta 660 aaatatcttt ctgatgtcac tgtgaacaac agatgagaag aagtgaatcc tgagttaagg 720 agaccagctc tctgattact gccataatcc agggagggta ccataaggat ttcaactgga 780 agtgaatcca tcatgatgga gaggaaggac agggctgaaa aatacttagg aagtagtatc 840 agtaggactg gttaagagag agcagaggca ggctacaggg gttggaggtg tcaatcacag 900 agatagggaa aatgggagga gaagcaggct ttgaaaaagt ggcttgtctt gtaaaattat 960 gtgctgttaa aacagtacaa gaaattaata tattcaatcc caaaatacag ggacaattct 1020 ttttgaaaga gttacccaga tagtcttcct tgaagttttc agttaaagaa atttcttgtt 1080 aacaaataat gtagtcatag aagaaaacac ttaaaacttt attgaataaa gctaataaat 1140 catttaatat aatttatagg aaattgttac ataacacaca cattcaatac tttttgctaa 1200 agtataaatt aatggaagga gagcacgcac acagaggttg aattatgttt atgactttat 1260 tagtcaagaa tacaaaattg agtagctaca tcaagcagaa gcacatgctt tacaatccag 1320 cacagaatcc cttgacatcc aaactcccga aacagacatg taaatacaga tgacattgtc 1380 agaacaaaat agggtctcac ccgacctata atgttctttt cttgatataa atatgcacat 1440 gaattgcata cggtcatatg gttccaatta ccattatttc ctctgggctt agctatccat 1500 ctaaggggaa tttacaccaa cactgtactt ctacttgcaa gaatatatga aagcatagtt 1560 aacttctggc ttaggacccc aactca 1586 <210> 45 <211> 1981 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR45 <400> 45 atggatcata gggtaaataa atttataatt tcttgagaaa gcttcgtact gttttccaag 60 atggctgtac taatttccat tcctaccaac agtgtacagg gtttcttttt ctccacatcc 120 tcaccaacac ttatcttcca tcttttttta taatagccct agtaaaatgt gtgaggtgat 180 atctcattgt ggcattgatt tgcacttctc tgataattag gaatgtttat gattttttca 240 tgtacctggt tggccttttg tatgatgtag gaaatgtcta ttctgattct ttgcttattt 300 tttaataagc atagtttttt tcttattttt gagtaggttg agttgcttat atattattat 360 atgagcccct tacctgatgt atggtttaaa aatattatcc catttgtggg ttctcttaat 420 tctatcattg cttcttttcc tgtggaaaag ttttaagttt tatgcagtct catttgtgtg 480 ttttgctttt gttgcctttt ggaataatct acagaaaatc atagctcagg ccaatgtcat 540 acagtctcct tctatatttc cttgtagtag ttttacattt aaactttaat tttgatttga 600 tgcttgtata aagagcaaaa taaaagtcaa attttattct tctgtatgtg gatagtcagt 660 tttgtctaca ccatttattg aaaataattt tctttcttca ctgtgtattt ttagttattt 720 tatcaaaaaa tcaattgacc acagacacac ggatttattt acaggttcta tatccctttg 780 tactgtttta catgtctgtt tttatgccat tgctatgctg ttttaattcc tatagctttg 840 taatagagtt tggagtcagg tagtctgatg cctccagctt tgttcttttt gttcaagatt 900 gctttggttg gtccaggtct tttgtggttc catacaaatt ttagcagtaa tttttctatt 960 tctgtgaaga atgacattgg aatttgatag tggttgcatt taatctgtag attgctttgg 1020 gtagcattga cacttttaca atactaattt ttgaatccat caatgaagga tgtttctcca 1080 tttatttatg ccattttaat ttttttcatc aatgtgctat agttttcagt atgtaaatct 1140 tttatggttt tgattaaatt tactcctgtc ttttatatat ttatatatct gttttgattc 1200 tattataaat tgaattgcct ttatttttca ggtaatagtt tgtcattagt taatagaaac 1260 aataatgata tttgtatgtt gattttgtaa ctattaactt tattgaattt cttcatcagc 1320 tataaccatt tattttggtg gaatctttaa gattttctct atcttaagat tatattttca 1380 aaaaacagaa acaatcttac ctcttccttc cctatgtgga tttcttttac gtctttgtct 1440 tgtgtaactg ttctggctag gcaattacac ataatgtttt catcatttat aattttacat 1500 cacatccatc tattgtggca cattgattgc tacttttcaa gttgtaaacc tggacattta 1560 tcactactct tcctccaata caggagtcca tggcgtggtg tgggccctac tgtgccacag 1620 tccagggcac ggctgggctg aggttctctt gtgcaagagt ccgtggctct gcggagcaag 1680 agttctccag tgccttagtc cagggttagg caggggtggg gctccttcag tagcttagtc 1740 cagtgcgccg ccctgcgagg gtcctcctga gcaggagtac acgatgaggc agggtcctac 1800 tgtgccttag cccaggaagc ggggggctgg gtcctctggt gccatagtcc aggctgccgg 1860 gagctgggtc ctctggtgcc atagctcagg ccggcgggag ctgggtcctc tggtgccgta 1920 gtccagggtg cagcagaaca ggagtcctgc ggagcagtag tccagggcac gctggggcgt 1980 g 1981 <210> 46 <211> 1859 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR46 <400> 46 attgtttttc tcgcccttct gcattttctg caaattctgt tgaatcattg cagttactta 60 ggtttgcttc gtctccccca ttacaaacta cttactgggt ttttcaaccc tagttccctc 120 atttttatga tttatgctca tttctttgta cacttcgtct tgctccatct cccaactcat 180 ggcccctggc tttggattat tgttttggtc ttttattttt tgtcttcttc tacctcaaca 240 cttatcttcc tctcccagtc tccggtaccc tatcaccaag gttgtcatta acctttcata 300 ttattcctca ttatccatgt attcatttgc aaataagcgt atattaacaa aatcacaggt 360 ttatggagat ataattcaca taccttaaaa ttcaggcttt taaagtgtac ctttcatgtg 420 gtttttggta tattcacaaa gttatgcatt gatcaccacc atctgattcc ataacatgtt 480 caatacctca aaaagaagtc tgtactcatt agtagtcatt tcacattcac cactccctct 540 ggctctgggc agtcactgat ctttgtgtct ctatggattt gcctagtcta ggtattttta 600 tgtaaatggc atcatacaac atgtgacctt ttgtttggct tttttcattt agcaaaatgt 660 tatcaaggtc tgtccctgtt gtagcatgta ttagcacttc atttcttata tgctgaatga 720 tatactttat ttgtccatca gttgttcatg ctttatttgt ccatcagttg atgaacattt 780 gcgtttttgc cactttgggc tattaagaat aatgctactg tgaacaagtg tgtacaagtt 840 cctctacaaa tttttgtgtg gacatatcct ttcagttctc tcaggtgtat atctgggaat 900 tgaattgctg ggtcgtgtag tagctatgtt aaacactttg agaaactgct ataatgttct 960 ccagagctgt accattttaa attctgtgta tgaggattcc acgttctcca cttcctcacc 1020 agtgtatgga tttgggggta tactttttaa aaagtgggat taggctgggc acagtggctc 1080 acacctgtaa tcccaacact tcaggaagct gaggtgggag gatcacttga gcctagtagt 1140 ttgagaccag cctgggcaac atagggagac cctgtctcta caaaaaataa tttaaaataa 1200 attagctggg cgttgtggca cacacctgta gtcccagcta catgggaggc tgaggtggaa 1260 ggattccctg agcccagaag tttgaggttg cagtgagcca tgatggcagc actatactgt 1320 agcctgggtg tcagagcaag actccgtttc agggaagaaa aaaaaaagtg ggatgatatt 1380 tttgacactt ttcttcttgt tttcttaatt tcatacttct ggaaattcca ttaaattagc 1440 tggtaccact ctaactcatt gtgtttcatg gctgcatagt aatattgcat aatataaata 1500 taccattcat tcatcaaagt tagcagatat tgactgttag gtgccaggca ctgctctaag 1560 cgttaaagaa aaacacacaa aaacttttgc attcttagag tttattttcc aatggagggg 1620 gtggagggag gtaagaattt aggaaataaa ttaattacat atatagcata gggtttcacc 1680 agtgagtgca gcttgaatcg ttggcagctt tcttagtagt ataaatacag tactaaagat 1740 gaaattactc taaatggtgt tacttaaatt actggaatag gtattactat tagtcacttt 1800 gcaggtgaaa gtggaaacac catcgtaaaa tgtaaaatag gaaacagctg gttaatgtt 1859 <210> 47 <211> 1082 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR47 <400> 47 atcattagtc attagggaaa tgcaaatgaa aaacacaagc agccaccaat atacacctac 60 taggatgatt taaaggaaaa taagtgtgaa gaaggacgta aagaaattgt aaccctgata 120 cattgatggt agaaatggat aaagttgcag ccactgtgaa aaacagtctg cagtggctca 180 gaaggttaaa tatagaaccc ctgttggacc caggaactct actcttaggc accccaaaga 240 atagagaaca gaaatcaaac agatgtttgt atactaatgt ttgtagcatc acttttcaca 300 ggagccaaaa ggtggaaata atccaaccat cagtgaacaa atgaatgtaa taaaagcaag 360 gtggtctgca tgcaatgcta catcatccat ctgtaaaaaa cgaacatcat tttgatagat 420 gatacaacat gggtggacat tgagaacatt atgcttagtg aaataagcca gacacaaaag 480 gaatatattg tataattgta attacatgaa gtgcctagaa tagtcaaatt catacaagag 540 aaagtgggat aggaatcacc atgggctgga aataggggga aggtgctata ctgcttattg 600 tggacaaggt ttcgtaagaa atcatcaaaa ttgtgggtgt agatagtggt gttggttatg 660 caaccctgtg aatatattga atgccatgga gtgcacactt tggttaaaag gttcaaatga 720 taaatattgt gttatatata tttccccacg atagaaaaca cgcacagcca agcccacatg 780 ccagtcttgt tagctgcctt cctttacctt caagagtggg ctgaagcttg tccaatcttt 840 caaggttgct gaagactgta tgatggaagt catctgcatt gggaaagaaa ttaatggaga 900 gaggagaaaa cttgagaatc cacactactc accctgcagg gccaagaact ctgtctccca 960 tgctttgctg tcctgtctca gtatttcctg tgaccacctc ctttttcaac tgaagacttt 1020 gtacctgaag gggttcccag gtttttcacc tcggcccttg tcaggactga tcctctcaac 1080 ta 1082 <210> 48 <211> 1242 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR48 <400> 48 atcatgtatt tgttttctga attaattctt agatacatta atgttttatg ttaccatgaa 60 tgtgatatta taatataata tttttaattg gttgctactg tttataagaa tttcattttc 120 tgtttacttt gccttcatat ctgaaaacct tgctgatttg attagtgcat ccacaaattt 180 tcttggattt tctatgggta attacaaatc tccacacaat gaggttgcag tgagccaaga 240 tcacaccact gtactccagc ctgggcgaca gagtgagaca ccatctcaca aaaacacata 300 aacaaacaaa cagaaactcc acacaatgac aacgtatgtg ctttcttttt ttcttcctct 360 ttctataata tttctttgtc ctatcttaac tgaactggcc agaaacccca ggacaatgat 420 aaatacgagc agtgtcaaca gacatctcat tccctttcct agcttttata aaaataacga 480 ttatgcttca acattacata tggtggtgtc gatggttttg ttatagataa gcttatcagg 540 ttaagaaatt tgtctgcgtt tcctagtttg gtataaagat tttaatataa atgaatgttg 600 tattttatca tcttattttt ttcctacatc tgctaaggta atcctgtgtt ttcccctttt 660 caatctccta atgtggtgaa tgacattaaa ataccttcta ttgttaaaat attcttgcaa 720 cgctgtatag aaccaatgcc tttattctgt attgctgatg gatttttgaa aaatatgtag 780 gtggacttag ttttctaagg ggaatagaat ttctaatata tttaaaatat tttgcatgta 840 tgttctgaag gacattggtg tgtcatttct ataccatctg gctactagag gagccgactg 900 aaagtcacac tgccggagga ggggagaggt gctcttccgt ttctggtgtc tgtagccatc 960 tccagtggta gctgcagtga taataatgct gcagtgccga cagttctgga aggagcaaca 1020 acagtgattt cagcagcagc agtattgcgg gatccccacg atggagcaag ggaaataatt 1080 ctggaagcaa tgacaatatc agctgtggct atagcagctg agatgtgagt tctcacggtg 1140 gcagcttcaa ggacagtagt gatggtccaa tggcgcccag acctagaaat gcacatttcc 1200 tcagcaccgg ctccagatgc tgagcttgga cagctgacgc ct 1242 <210> 49 <211> 1015 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR49 <400> 49 aaaccagaaa cccaaaacaa tgggagtgac atgctaaaac cagaaaccca aaacaatggg 60 agggtcctgc taaaccagaa acccaaaaca atgggagtga agtgctaaaa ccagaaaccc 120 aaaacaatgg gagtgtcctg ctacaccaga aacccaaaac gatgggagtg acgtgataaa 180 accagacacc caaaacaatg ggagtgacgt gctaaaccag aaacccaaaa caatgggagt 240 gacgtgctaa aacctggaaa cctaaaacaa tgcgagtgag gtgctaacac cagaatccat 300 aacaatgtga gtgacgtgct aaaccagaac ccaaaacaat gggagtgacg tgctaaaaca 360 ggaacccaaa acaatgagag tgacgtgcta aaccagaaac ccaaaacaat gggaatgacg 420 tgctaaaacc ggaacccaaa acaatgggag tgatgtgcta aaccagaaac ccaaaacaat 480 gggaatgaca tgctaaaact ggaacccaaa acaatggtaa ctaagagtga tgctaaggcc 540 ctacattttg gtcacactct caactaagtg agaacttgac tgaaaaggag gatttttttt 600 tctaagacag agttttggtc tgtcccccag agtggagtgc agtggcatga tctcggctca 660 ctgcaagctc tgcctcccgg gttcaggcca ttctcctgcc tcagcctcct gagtagctgg 720 gaatacaggc acccgccacc acacttggct aattttttgt atttttagta gagatggggt 780 ttcaccatat tagcaaggat ggtctcaatc tcctgacctc gtgatctgcc cacctcaggc 840 tcccaaagtg ctgggattac aggtgtgagc caccacaccc agcaaaaagg aggaattttt 900 aaagcaaaat tatgggaggc cattgttttg aactaagctc atgcaatagg tcccaacaga 960 ccaaaccaaa ccaaaccaaa atggagtcac tcatgctaaa tgtagcataa tcaaa 1015 <210> 50 <211> 2355 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR50 <400> 50 caaccatcgt tccgcaagag cggcttgttt attaaacatg aaatgaggga aaagcctagt 60 agctccattg gattgggaag aatggcaaag agagacaggc gtcattttct agaaagcaat 120 cttcacacct gttggtcctc acccattgaa tgtcctcacc caatctccaa cacagaaatg 180 agtgactgtg tgtgcacatg cgtgtgcatg tgtgaaagta tgagtgtgaa tgtgtctata 240 tgggaacata tatgtgattg tatgtgtgta actatgtgtg actggcagcg tggggagtgc 300 tggttggagt gtggtgtgat gtgagtatgc atgagtggct gtgtgtatga ctgtggcggg 360 aggcggaagg ggagaagcag caggctcagg tgtcgccaga gaggctggga ggaaactata 420 aacctgggca atttcctcct catcagcgag cctttcttgg gcaatagggg cagagctcaa 480 agttcacaga gatagtgcct gggaggcatg aggcaaggcg gaagtactgc gaggaggggc 540 agagggtctg acacttgagg ggttctaatg ggaaaggaaa gacccacact gaattccact 600 tagccccaga ccctgggccc agcggtgccg gcttccaacc ataccaacca tttccaagtg 660 ttgccggcag aagttaacct ctcttagcct cagtttcccc acctgtaaaa tggcagaagt 720 aaccaagctt accttcccgg cagtgtgtga ggatgaaaag agctatgtac gtgatgcact 780 tagaagaagg tctagggtgt gagtggtact cgtctggtgg gtgtggagaa gacattctag 840 gcaatgagga ctggggagag cctggcccat ggcttccact cagcaaggtc agtctcttgt 900 cctctgcact cccagccttc cagagaggac cttcccaacc agcactcccc acgctgccag 960 tcacacatag ttacacacat acaatcacat atatgttccc atatagacac attcacactc 1020 ataccttcac acatgcacac gcatgtgcac acacagtcac tcatttctgt gttggagatt 1080 gggtgaggac attcaatggg tgaggaccaa caggtgtgaa gattgctttc tagaaaatga 1140 ctcctgtctc tctttgccat tcttcccaat ccgatggagc tactaggctt ttccctcatt 1200 tcatgtttaa taaaccttcc caatggcgaa atgggctttc tcaagaagtg gtgagtgtcc 1260 catccctgcg gtggggacag gggtggcagc ggacaagcct gcctggaggg aactgtcagg 1320 ctgattccca gtccaactcc agcttccaac acctcatcct ccaggcagtc ttcattcttg 1380 gctctaattt cgctcttgtt ttctttttta tttttatcga gaactgggtg gagagctttt 1440 ggtgtcattg gggattgctt tgaaaccctt ctctgcctca cactgggagc tggcttgagt 1500 caactggtct ccatggaatt tcttttttta gtgtgtaaac agctaagttt taggcagctg 1560 ttgtgccgtc cagggtggaa agcagcctgt tgatgtggaa ctgcttggct cagatttctt 1620 gggcaaacag atgccgtgtc tctcaactca ccaattaaga agcccagaaa atgtggcttg 1680 gagaccacat gtctggttat gtctagtaat tcagatggct tcacctggga agccctttct 1740 gaatgtcaaa gccatgagat aaaggacata tatatagtag ctagggtggt ccacttctta 1800 ggggccatct ccggaggtgg tgagcactaa gtgccaggaa gagaggaaac tctgttttgg 1860 agccaaagca taaaaaaacc ttagccacaa accactgaac atttgttttg tgcaggttct 1920 gagtccaggg agggcttctg aggagagggg cagctggagc tggtaggagt tatgtgagat 1980 ggagcaaggg ccctttaaga ggtgggagca gcatgagcaa aggcagagag gtggtaatgt 2040 ataaggtatg tcatgggaaa gagtttggct ggaacagagt ttacagaata gaaaaattca 2100 acactattaa ttgagcctct actacgtgct cgacattgtt ctagtcactg agataggttt 2160 ggtatacaaa acaaaatcca tcctctatgg acattttagt gactaacaac aatataaata 2220 ataaaagtga acaaaagctc aaaacatgcc aggcactatt atttatttat ttatttattt 2280 atttatttat tttttgaaac agagtctcgc tctgttgccc aggctggagt gtagtggtgc 2340 gatctcggct cactg 2355 <210> 51 <211> 2289 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR51 <400> 51 tcacaggtga caccaatccc ctgaccacgc tttgagaagc actgtactag attgactttc 60 taatgtcagt cttcattttc tagctctgtt acagccatgg tctccatatt atctagtaca 120 acacacatac aaatatgtgt gatacagtat gaatataata taaaaatatg tgttataata 180 taaatataat attaaaatat gtctttatac tagataataa tacttaataa cgttgagtgt 240 ttaactgctc taagcacttt acctgcagga aacagttttt tttttatttt ggtgaaatac 300 aactaacata aatttattta caattttaag catttttaag tgtatagttt agtggagtta 360 atatattcaa aatgttgtgc agccgtcacc atcatcagtc ttcataactc ttttcatatt 420 gtaaaattaa aagtttatgc tcatttaaaa atgactccca atttcccccc tcctcaacct 480 ctggaaacta ccattctatt ttctgcctcc gtagttttgc ccactctaag tacctcacat 540 aagtggaatt tgtcttattt gcctgtttgt gaccggctga tttcatttag tataatgtcc 600 tcaagtttta ttcacgttat atagcatatg tcataatttt cttcactttt aagcttgagt 660 aatatttcat cgtatgtatc tcacattttg cttatccatt catctctcag tggacacttg 720 agttgcttct acattttagc tgttgtgaat actgctgcta tgaacatggg tgtataaata 780 tctcaagacc tttttatcag ttttttaaaa tatatactca gtagtagttt agctggatta 840 tatggtaatt ttatttttaa tttttgagga actgtcctac ccttttattc aatagtagct 900 ataccaattg acaattggca ttcctaccaa cagggcataa gggttctcaa ttctccacat 960 attccctgat acttgttatt ttcaggtgtt tttttttttt tttttttttt atgggagcca 1020 tgttaatggg tgtaaggtga tatttcatta tagttttgat ttgcatttcc ctaatgatta 1080 gtgatgttaa gcatctcttc atgtgcctat tggccatttg tatatcttct ttaaaaatat 1140 atatatactc attcctttgc ccatttttga attatgttta ttttttgtta ttgagtttca 1200 atacttttct atataaccta ggtattaatc ctttatcaga cttaagattt gcaaatattc 1260 tctttcattc cacaggttgc taattctctc tgttggtaat atcttttgat gctgttgtgt 1320 ccagaattga ttcattcctg tgggttcttg gtctcactga cttcaagaat aaagctgcgg 1380 accctagtgg tgagtgttac acttcttata gatggtgttt ccggagtttg ttccttcaga 1440 tgtgtccaga gtttcttcct tccaatgggt tcatggtctt gctgacttca ggaatgaagc 1500 cgcagacctt cgcagtgagg tttacagctc ttaaaggtgg cgtgtccaga gttgtttgtt 1560 ccccctggtg ggttcgtggt cttgctgact tcaggaatga agccgcagac cctcgcagtg 1620 agtgttacag ctcataaagg tagtgcggac acagagtgag ctgcagcaag atttactgtg 1680 aagagcaaaa gaacaaagct tccacagcat agaaggacac cccagcgggt tcctgctgct 1740 ggctcaggtg gccagttatt attcccttat ttgccctgcc cacatcctgc tgattggtcc 1800 attttacaga gtactgattg gtccatttta cagagtgctg attggtgcat ttacaatcct 1860 ttagctagac acagagtgct gattgctgca ttcttacaga gtgctgattg gtgcatttac 1920 agtcctttag ctagatacag aacgctgatt gctgcgtttt ttacagagtg ctgattggtg 1980 catttacaat cctttagcta gacacagtgc tgattggtgg gtttttacag agtgctgatt 2040 ggtgcgtctt tacagagtgc tgattggtgc atttacaatc ctttagctag acacagagtg 2100 ctgattggtg cgtttataat cctctagcta gacagaaaag ttttccaagt ccccacctga 2160 ccgagaagcc ccactggctt cacctctcac tgttatactt tggacatttg tccccccaaa 2220 atctcatgtt gaaatgtaac ccctaatgtt ggaactgagg ccagactgga tgtggctggg 2280 ccatgggga 2289 <210> 52 <211> 1184 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR52 <400> 52 ctcttctttg tttttttatt ttggggtgtg tgggtacgtg taagatgaga aatgtacaaa 60 cacaagtatt tcagaaactc caagtaatat tctgtctgtg agttcacggt aaataaataa 120 aaagggcaaa gtgacagaaa tacaggatta ttaaaagcaa aataatgttc tttgaaatcc 180 cccccttggt gtatttttta tcttaggatg cagcactttc agcatgccca agtattgaaa 240 gcagtgtttt tacgctacca cggtaatttt atttagaaac cccatgttca cttttagttt 300 taaaatggtc tttatgacat aaaattatca gcattcatat ttttgtgttt taatattcct 360 ttggctactt attgaaacag taaacattac gaaaattagt aaacaaatct ttgatagttg 420 cttatttttg tttaattgaa tgtttatttt attaggtaaa tatacaatca aatttattta 480 aaaataatga ggaaaagaat acttttcttt cgctttgcga aagcaaagtg atttttcatt 540 cttctccgtc cgattccttc tcttccagct gccacagccg actgacaggc tcccggcggc 600 ctgaggagta gtatgcaaat tttggatgat tgacacctac agtagaagcc aatcacgtca 660 aagtaggatg ctgattggtt gacaacaata ggcgtaaacc ttgacgtttt aaaaacctga 720 cacccaatcc aggcgattca tgcaaataaa ggaagggagt cacattacca ggggccagag 780 agacttgagt acgacctcac gtgttcagtg gtggatattg cacagacgtc tgcaaggtct 840 atataaacgc tacataatgt tcaactcaat tgcttgcctt ggcctttccc aaacttgtca 900 ctggaatata aattatccct tttttaaaaa taaaaaaata agaattatgt agtgcacata 960 tatgatggtt catgtagaaa tctaaatgga cttccaacgc atggaatttt cctatttccc 1020 cctttcttta aattaatcct cagtgaagga ggctgttttc ccctagattt caaaaggacg 1080 agatttacag agcctttcct tggagaaacc cgctctaggc acagatggtc agtaaattta 1140 gcttcttcag cgaagttcca catggcaccg ccagatggca taag 1184 <210> 53 <211> 1431 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR53 <400> 53 ccctgaggaa gatgacgagt aactccgtaa gagaaccttc cactcatccc ccacatccct 60 gcagacgtgc tattctgtta tgatactggt atcccatctg tcacttgctc cccaaatcat 120 tcccttctta caattttcta ctgtacagca ttgaggctga acgatgagag atttcccatg 180 ctctttctac tccctgccct gtatatatcc ggggatcctc cctacccagg atgctgtggg 240 gtcccaaacc ccaagtaagc cctgatatgc gggccacacc tttctctagc ctaggaattg 300 ataacccagg cgaggaagtc actgtggcat gaacagatgg ttcacttcga ggaaccgtgg 360 aaggcgtgtg caggtcctga gatagggcag aatcggagtg tgcagggtct gcaggtcagg 420 aggagttgag attgcgttgc cacgtggtgg gaactcactg ccacttattt ccttctctct 480 tcttgcctca gcctcaggga tacgacacat gcccatgatg agaagcagaa cgtggtgacc 540 tttcacgaac atgggcatgg ctgcggaccc ctcgtcatca ggtgcatagc aagtgaaagc 600 aagtgttcac aacagtgaaa agttgagcgt catttttctt agtgtgccaa gagttcgatg 660 ttagcgttta cgttgtattt tcttacactg tgtcattctg ttagatacta acattttcat 720 tgatgagcaa gacatactta atgcatattt tggtttgtgt atccatgcac ctaccttaga 780 aaacaagtat tgtcggttac ctctgcatgg aacagcatta ccctcctctc tccccagatg 840 tgactactga gggcagttct gagtgtttaa tttcagattt tttcctctgc atttacacac 900 acacgcacac aaaccacacc acacacacac acacacacac acacacacac acacacacac 960 acacaccaag taccagtata agcatctgcc atctgctttt cccattgcca tgcgtcctgg 1020 tcaagctccc ctcactctgt ttcctggtca gcatgtactc ccctcatccg attcccctgt 1080 agcagtcact gacagttaat aaacctttgc aaacgttccc cagttgtttg ctcgtgccat 1140 tattgtgcac acagctctgt gcacgtgtgt gcatatttct ttaggaaaga ttcttagaag 1200 tggaattgct gtgtcaaagg agtcatttat tcaacaaaac actaatgagt gcgtcctcgt 1260 gctgagcgct gttctaggtg ctggagcgac gtcagggaac aaggcagaca ggagttcctg 1320 acccccgttc tagaggagga tgtttccagt tgttgggttt tgtttgtttg tttcttctag 1380 agatggtggt cttgctctgt ccaggctaga gtgcagtggc atgatcatag c 1431 <210> 54 <211> 975 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR54 <400> 54 ccataaaagt gtttctaaac tgcagaaaaa tccccctaca gtcttacagt tcaagaattt 60 tcagcatgaa atgcctggta gattacctga ctttttttgc caaaaataag gcacagcagc 120 tctctcctga ctctgacttt ctatagtcct tactgaatta tagtccttac tgaattcatt 180 cttcagtgtt gcagtctgaa ggacacccac attttctctt tgtctttgtc aattctttgt 240 gttgtaaggg caggatgttt aaaagttgaa gtcattgact tgcaaaatga gaaatttcag 300 agggcatttt gttctctaga ccatgtagct tagagcagtg ttcacactga ggttgctgct 360 aatgtttctg cagttcttac caatagtatc atttacccag caacaggata tgatagagga 420 cttcgaaaac cccagaaaat gttttgccat atatccaaag ccctttggga aatggaaagg 480 aattgcgggc tcccattttt atatatggat agatagagac caagaaagac caaggcaact 540 ccatgtgctt tacattaata aagtacaaaa tgttaacatg taggaagtct aggcgaagtt 600 tatgtgagaa ttctttacac taattttgca acattttaat gcaagtctga aattatgtca 660 aaataagtaa aaatttttac aagttaagca gagaataaca atgattagtc agagaaataa 720 gtagcaaaat cttcttctca gtattgactt ggttgctttt caatctctga ggacacagca 780 gtcttcgctt ccaaatccac aagtcacatc agtgaggaga ctcagctgag actttggcta 840 atgttggggg gtccctcctg tgtctcccca ggcgcagtga gcctgcaggc cgacctcact 900 cgtggcacac aactaaatct ggggagaagc aacccgatgc cagcatgatg cagatatctc 960 agggtatgat cggcc 975 <210> 55 <211> 501 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR55 <400> 55 cctgaactca tgatccgccc acctcagcct cctgaagtgc tgggattaca ggtgtgagcc 60 accacaccca gccgcaacac actcttgagc aaccaatgtg tcataaaaga aataaaatgg 120 aaatcagaaa gtatcttgag acagacaaaa atggaaacac aacataccaa aatttatggg 180 acacagcaaa agcagtttta ggagggaagt ttatagtgat gaatacctac ctcaaaatca 240 ttagcctgat tggatgacac tacagtgtat aaatgaattg aaaaccacat tgtgccccat 300 acatatatac aatttttatt tgttaattaa aaataaaata aaactttaaa aaagaagaaa 360 gagctcaaat aaacaaccta actttatacc tcaaggaaat agaagagcca gctaagccca 420 aagttgacag aaggaaaaaa atattggcag aaagaaatga aacagagact agaaagacaa 480 ttgaagagat cagcaaaact a 501 <210> 56 <211> 741 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR56 <400> 56 acacaggaaa agatcgcaat tgttcagcag agctttgaac cggggatgac ggtctccctc 60 gttgcccggc aacatggtgt agcagccagc cagttatttc tctggcgtaa gcaataccag 120 gaaggaagtc ttactgctgt cgccgccgga gaacaggttg ttcctgcctc tgaacttgct 180 gccgccatga agcagattaa agaactccag cgcctgctcg gcaagaaaac gatggaaaat 240 gaactcctca aagaagccgt tgaatatgga cgggcaaaaa agtggatagc gcacgcgccc 300 ttattgcccg gggatgggga gtaagcttag tcagccgttg tctccgggtg tcgcgtgcgc 360 agttgcacgt cattctcaga cgaaccgatg actggatgga tggccgccgc agtcgtcaca 420 ctgatgatac ggatgtgctt ctccgtatac accatgttat cggagagctg ccaacgtatg 480 gttatcgtcg ggtatgggcg ctgcttcgca gacaggcaga acttgatggt atgcctgcga 540 tcaatgccaa acgtgtttac cggatcatgc gccagaatgc gctgttgctt gagcgaaaac 600 ctgctgtacc gccatcgaaa cgggcacata caggcagagt ggccgtgaaa gaaagcaatc 660 agcgatggtg ctctgacggg ttcgagttct gctgtgataa cggagagaga ctgcgtgtca 720 cgttcgcgct ggactgctgt g 741 <210> 57 <211> 1365 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR57 <400> 57 tccttctgta aataggcaaa atgtatttta gtttccacca cacatgttct tttctgtagg 60 gcttgtatgt tggaaatttt atccaattat tcaattaaca ctataccaac aatctgctaa 120 ttctggagat gtggcagtga ataaaaaagt tatagtttct gattttgtgg agcttggact 180 ttaatgatgg acaaaacaac acattcttaa atatatattt catcaaaatt atagtgggtg 240 aattatttat atgtgcattt acatgtgtat gtatacataa atgggcggtt actggctgca 300 ctgagaatgt acacgtggcg cgaacgaggc tgggcggtca gagaaggcct cccaaggagg 360 tggctttgaa gctgagtggt gcttccacgt gaaaaggctg gaaagggcat tccaagaaaa 420 ggctgaggcc agcgggaaag aggttccagt gcgctctggg aacggaaagc gcacctgcct 480 gaaacgaaaa tgagtgtgct gaaataggac gctagaaagg gaggcagagg ctggcaaaag 540 cgaccgagga ggagctcaaa ggagcgagcg gggaaggccg ctgtggagcc tggaggaagc 600 acttcggaag cgcttctgag cgggtaaggc cgctgggagc atgaactgct gagcaggtgt 660 gtccagaatt cgtgggttct tggtctcact gacttcaaga atgaagaggg accgcggacc 720 ctcgcggtga gtgttacagc tcttaaggtg gcgcgtctgg agtttgttcc ttctgatgtt 780 cggatgtgtt cagagtttct tccttctggt gggttcgtgg tctcgctggc tcaggagtga 840 agctgcagac cttcgcggtg agtgttacag ctcataaaag cagggtggac tcaaagagtg 900 agcagcagca agatttattg caaagaatga aagaacaaag cttccacact gtggaagggg 960 accccagcgg gttgccactg ctggctccgc agcctgcttt tattctctta tctggcccca 1020 cccacatcct gctgattggt agagccgaat ggtctgtttt gacggcgctg attggtgcgt 1080 ttacaatccc tgcgctagat acaaaggttc tccacgtccc caccagatta gctagataga 1140 gtctccacac aaaggttctc caaggcccca ccagagtagc tagatacaga gtgttgattg 1200 gtgcattcac aaaccctgag ctagacacag ggtgatgact ggtgtgttta caaaccttgc 1260 ggtagataca gagtatcaat tggcgtattt acaatcactg agctaggcat aaaggttctc 1320 caggtcccca ccagactcag gagcccagct ggcttcaccc agtgg 1365 <210> 58 <211> 1401 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR58 <400> 58 aagtttacct tagccctaaa ttatttcatt gtgattggca ttttaggaaa tatgtattaa 60 ggaatgtctc ttaggagata aggataacat atgtctaaga aaattatatt gaaatattat 120 tacatgaact aaaatgttag aactgaaaaa aaattattgt aactccttcc agcgtaggca 180 ggagtatcta gataccaact ttaacaactc aactttaaca acttcgaacc aaccagatgg 240 ctaggagatt cacctattta gcatgatatc ttttattgat aaaaaaatat aaaacttcca 300 ttaaattttt aagctactac aatcctatta aattttaact taccagtgtt ctcaatgcta 360 cataatttaa aatcattgaa atcttctgat tttaactcct cagtcttgaa atctacttat 420 ttttagttac atatatatcc aatctactgc cgctagtaga agaagcttgg aatttgagaa 480 aaaaatcaga cgttttgtat attctcatat tcactaattt attttttaaa tgagtttctg 540 caatgcatca agcagtggca aaacaggaga aaaattaaaa ttggttgaaa agatatgtgt 600 gccaaacaat cccttgaaat ttgatgaagt gactaatcct gagttattgt ttcaaatgtg 660 tacctgttta tacaagggta tcacctttga aatctcaaca ttaaatgaaa ttttataagc 720 aatttgttgt aacatgatta ttataaaatt ctgatataac attttttatt acctgtttag 780 agtttaaaga gagaaaagga gttaagaata attacatttt cattagcatt gtccgggtgc 840 aaaaacttct aacactatct tcaaatcttt ttctccattg ccttctgaac atacccactt 900 gggtatctca ttagcactgc aaattcaaca ttttcgattg ctaatttttc tccctaaata 960 tttatttgtt ttctcagctt tagccaatgt ttcactattg accatttgct caagtatagt 1020 gacgcttcaa tgaccttcag agagctgttt cagtccttcc tggactactt gcatgcttcc 1080 aacaaaatga agcactcttg atgtcagtca ctcaaataaa tggaaatggg cccatttact 1140 aggaatgtta acagaataaa aagatagacg tgacaccagt tgcttcagtc catctccatt 1200 tacttgctta aggcctggcc atatttctca cagttgatat ggcgcagggc acatgtttaa 1260 atggctgttc ttgtaggatg gtttgactgt tggattcctc atcttccctc tccttaggaa 1320 ggaaggttac agtagtactg ttggctcctg gaatatagat tcataaagaa ctaatggagt 1380 atcatctccc actgctcttg t 1401 <210> 59 <211> 866 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR59 <400> 59 gagatcacgc cactgcactc cagcctgggg gacagagcaa gactccatct cagaaacaaa 60 caaacacaca aagccagtca aggtgtttaa ttcgacggtg tcaggctcag gtctcttgac 120 aggatacatc cagcacccgg gggaaacgtc gatgggtggg gtggaatcta ttttgtggcc 180 tcaagggagg gtttgagagg tagtcccgca agcggtgatg gcctaaggaa gcccctccgc 240 ccaagaagcg atattcattt ctagcctgta gccacccaag agggagaatc gggctcgcca 300 cagaccccac aacccccaac ccaccccacc cccacccctc ccacctcgtg aaatgggctc 360 tcgctccgtc aggctctagt cacaccgtgt ggttttggaa cctccagcgt gtgtgcgtgg 420 gttgcgtggt ggggtggggc cggctgtgga cagaggaggg gataaagcgg cggtgtcccg 480 cgggtgcccg ggacgtgggg cgtggggcgt gggtggggtg gccagagcct tgggaactcg 540 tcgcctgtcg ggacgtctcc cctcctggtc ccctctctga cctacgctcc acatcttcgc 600 cgttcagtgg ggaccttgtg ggtggaagtc accatccctt tggactttag ccgacgaagg 660 ccgggctccc aagagtctcc ccggaggcgg ggccttgggc aggctcacaa ggatgctgac 720 ggtgacggtt ggtgacggtg atgtacttcg gaggcctcgg gccaatgcag aggtatccat 780 ttgacctcgg tgggacaggt cagctttgcg gagtcccgtg cgtccttcca gagactcatc 840 cagcgctagc aagcatggtc ccgagg 866 <210> 60 <211> 2067 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR60 <220> <221> misc_feature <222> (92)..(1777) <223> n is a, c, g, or t on various positions <400> 60 agcagtgcag aactggggaa gaagaagagt ccctacacca cttaatactc aaaagtactc 60 gcaaaaaata acacccctca ccaggtggca tnattactct ccttcattga gaaaattagg 120 aaactggact tcgtagaagc taattgcttt atccagagcc acctgcatac aaacctgcag 180 cgccacctgc atacaaacct gtcagccgac cccaaagccc tcagtcgcac caagcctctg 240 ctgcacaccc tcgtgccttc acactggccg ttccccaagc ctggggcata ctncccagct 300 ctgagaaatg tattcatcct tcaaagccct gctcatgtgt cctnntcaac aggaaaatct 360 cccatgagat gctctgctat ccccatctct cctgccccat agcttaggca nacttctgtg 420 gtggtgagtc ctgggctgtg ctgtgatgtg ttcgcctgcn atgtntgttc ttccccacaa 480 tgatgggccc ctgaattctc tatctctagc acctgtgctc agtaaaggct tgggaaacca 540 ggctcaaagc ctggcccaga tgccaccttt tccagggtgc ttccgggggc caccaaccag 600 agtgcagcct tctcctccac caggaactct tgcagcccca cccctgagca cctgcacccc 660 attacccatc tttgtttctc cgtgtgatcg tattattaca gaattatata ctgtattctt 720 aatacagtat ataattgtat aattattctt aatacagtat ataattatac aaatacaaaa 780 tatgtgttaa tggaccgttt atgttactgg taaagcttta agtcaacagt gggacattag 840 ttaggttttt ggcgaagtca aaagttatat gtgcattttc aacttcttga ggggtcggta 900 cntctnaccc ccatgttgtt caanggtcaa ctgtctacac atatcatagc taattcacta 960 cagaaatgtt agcttgtgtc actagtatct ccccttctca taagcttaat acacatacct 1020 tgagagagct cttggccatc tctactaatg actgaagttt ttatttatta tagatgtcat 1080 aataggcata aaactacatt acatcattcg agtgccaatt ttgccacctt gaccctcttt 1140 tgcaaaacac caacgtcagt acacatatga agaggaaact gcccgagaac tgaagttcct 1200 gagaccagga gctgcaggcg ttagatagaa tatggtgacg agagttacga ggatgacgag 1260 agtaaatact tcatactcag tacgtgccaa gcactgctat aagcgctctg tatgtgtgaa 1320 gtcatttaat cctcacagca tcccacggtg taattatttt cattatcccc atgagggaac 1380 agaaactcag aacggttcaa cacatatgcg agaagtcgca gccggtcagt gagagagcag 1440 gttcccgtcc aagcagtcag accccgagtg cacactctcg acccctgtcc agcagactca 1500 ctcgtcataa ggcggggagt gntctgtttc agccagatgc tttatgcatc tcagagtacc 1560 caaaccatga aagaatgagg cagtattcan gagcagatgg ngctgggcag taaggctggg 1620 cttcagaata gctggaaagc tcaagtnatg ggacctgcaa gaaaaatcca ttgtttngat 1680 aaatagccaa agtccctagg ctgtaagggg aaggtgtgcc aggtgcaagt ggagctctaa 1740 tgtaaaatcg cacctgagtc tcctggtctt atgagtnctg ggtgtacccc agtgaaaggt 1800 cctgctgcca ccaagtgggc catggttcag ctgtgtaagt gctgagcggc agccggaccg 1860 cttcctctaa cttcacctcc aaaggcacag tgcacctggt tcctccagca ctcagctgcg 1920 aggcccctag ccagggtccc ggcccccggc ccccggcagc tgctccagct tccttcccca 1980 cagcattcag gatggtctgc gttcatgtag acctttgttt tcagtctgtg ctccgaggtc 2040 actggcagca ctagccccgg ctcctgt 2067 <210> 61 <211> 1470 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR61 <220> <221> misc_feature <222> (130)..(976) <223> n is a, c, g, or t on various positions <400> 61 cagcccccac atgcccagcc ctgtgctcag ctctgcagcg gggcatggtg ggcagagaca 60 cagaggccaa ggccctgctt cggggacggt gggcctggga tgagcatggc cttggccttc 120 gccgagagtn ctcttgtgaa ggaggggtca ggaggggctg ctgcagctgg ggaggagggc 180 gatggcactg tggcangaag tgaantagtg tgggtgcctn gcaccccagg cacggccagc 240 ctggggtatg gacccggggc cntctgttct agagcaggaa ggtatggtga ggacctcaaa 300 aggacagcca ctggagagct ccaggcagag gnacttgaga ggccctgggg ccatcctgtc 360 tcttttctgg gtctgtgtgc tctgggcctg ggcccttcct ctgctccccc gggcttggag 420 agggctggcc ttgcctcgtg caaaggacca ctctagactg gtaccaagtc tggcccatgg 480 cctcctgtgg gtgcaggcct gtgcgggtga cctgagagcc agggctggca ggtcagagtc 540 aggagaggga tggcagtgga tgccctgtgc aggatctgcc taatcatggt gaggctggag 600 gaatccaaag tgggcatgca ctctgcactc atttctttat tcatgtgtgc ccatcccaac 660 aagcagggag cctggccagg agggcccctg ggagaaggca ctgatgggct gtgttccatt 720 taggaaggat ggacggttgt gagacgggta agtcagaacg ggctgcccac ctcggccgag 780 agggccccgt ggtgggttgg caccatctgg gcctggagag ctgctcagga ggctctctag 840 ggctgggtga ccaggnctgg ggtacagtag ccatgggagc aggtgcttac ctggggctgt 900 ccctgagcag gggctgcatt gggtgctctg tgagcacaca cttctctatt cacctgagtc 960 ccnctgagtg atgagnacac ccttgttttg cagatgaatc tgagcatgga gatgttaagt 1020 ggcttgcctg agccacacag cagatggatg gtgtagctgg gacctgaggg caggcagtcc 1080 cagcccgagg acttcccaag gttgtggcaa actctgacag catgacccca gggaacaccc 1140 atctcagctc tggtcagaca ctgcggagtt gtgttgtaac ccacacagct ggagacagcc 1200 accctagccc cacccttatc ctctcccaaa ggaacctgcc ctttcccttc attttcctct 1260 tactgcattg agggaccaca cagtgtggca gaaggaacat gggttcagga cccagatgga 1320 cttgcttcac agtgcagccc tcctgtcctc ttgcagagtg cgtcttccac tgtgaagttg 1380 ggacagtcac accaactcaa tactgctggg cccgtcacac ggtgggcagg caacggatgg 1440 cagtcactgg ctgtgggtct gcagaggtgg 1470 <210> 62 <211> 1011 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR62 <400> 62 agtgtcaaat agatctacac aaaacaagat aatgtctgcc catttttcca aagataatgt 60 ggtgaagtgg gtagagagaa atgcatccat tctccccacc caacctctgc taaattgtcc 120 atgtcacagt actgagacca gggggcttat tcccagcggg cagaatgtgc accaagcacc 180 tcttgtctca atttgcagtc taggccctgc tatttgatgg tgtgaaggct tgcacctggc 240 atggaaggtc cgttttgtac ttcttgcttt agcagttcaa agagcaggga gagctgcgag 300 ggcctctgca gcttcagatg gatgtggtca gcttgttgga ggcgccttct gtggtccatt 360 atctccagcc cccctgcggt gttgctgttt gcttggcttg tctggctctc catgccttgt 420 tggctccaaa atgtcatcat gctgcacccc aggaagaatg tgcaggccca tctcttttat 480 gtgctttggg ctattttgat tccccgttgg gtatattccc taggtaagac ccagaagaca 540 caggaggtag ttgctttggg agagtttgga cctatgggta tgaggtaata gacacagtat 600 cttctctttc atttggtgag actgttagct ctggccgcgg actgaattcc acacagctca 660 cttgggaaaa ctttattcca aaacatagtc acattgaaca ttgtggagaa tgagggacag 720 agaagaggcc ctagatttgt acatctgggt gttatgtcta taaatagaat gctttggtgg 780 tcaactagac ttgttcatgt tgacatttag tcttgccttt tcggtggtga tttaaaaatt 840 atgtatatct tgtttggaat atagtggagc tatggtgtgg cattttcatc tggctttttg 900 tttagctcag cccgtcctgt tatgggcagc cttgaagctc agtagctaat gaagaggtat 960 cctcactccc tccagagagc ggtcccctca cggctcattg agagtttgtc a 1011 <210> 63 <211> 1410 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR63 <400> 63 ccacagcctg atcgtgctgt cgatgagagg aatctgctct aagggtctga gcggagggag 60 atgccgaagc tttgagcttt ttgtttctgg cttaaccttg gtggattttc accctctggg 120 cattacctct tgtccagggg aggggctggg ggagtgcctg gagctgtagg gacagagggc 180 tgagtggggg ggactgcttg ggctgaccac ataatattct gctgcgtatt aatttttttt 240 tgagacagtc tttctctgtt gcccaggctg gagtgtaatg gcttgatagc tcactgccac 300 ctccgcctcc tgggttcaag tgattctcct gcttcagctt ccggagtagc tgggactgca 360 ggtgcccgcc accatggctg gctaattttt gtatttttat tagcaatggg gttttgctat 420 gttgcccagg ccggtcccga actcctgccc tcaagtgata cacctgcctc ggcctcccaa 480 agtgctggga ttagaggctt gagccactgc gcctggccag ctgcatattg ttaattagac 540 ataaaatgca aaataagatg atataaacac aaaggtgtga aataagatgg acacctgctg 600 agcgcgcctg tcctgaagca tcgcccctct gcaaaagcag gggtcagcat gtgttctccg 660 gtccttgctc ttacagagga gtgagctgcc tatgcgtctt ccagccactt cctgggctgc 720 tcagaggcct ctcacgggtg ttctgggttg ctgccacttg caggggtgct gaggcggggc 780 tcctcccgtg cggggcatgt ccaggccgcc ctctctgaag gcttggcagg tacaggtggg 840 agtgggggtc tctgggctgc tgtggggact gggcaggctc ctggaagacc tccctgtgtt 900 tgggctgaaa gcgcagcccg aggggaggtc cccagggagg ccgctgtcgg gggtgggggc 960 ttggaggagg gaggggccga ggagccggcg acactccgtg acggcccagg aacgtcccta 1020 aacaaggcgc cgcgttctcg atggggtggg gtccgctttc ttttctcaaa agctgcagtt 1080 actccatgct cggaggactg gcgtccgcgc cctgttccaa tgctgccccg gggccctggc 1140 cttggggaat cggggccttg gactggaccc tgggggcttc gcggagccgg gcctggcggg 1200 gcgagcggag cagaggctgg gcagccccgg ggaagcgctc gccaaagccg ggcgctgctc 1260 ccagagcgcg aggtgcagaa ccagaggctg gtcccgcggc gctaacgaga gaagaggaag 1320 cgcgctgtgt agagggcgcc caccccgtgg ggcgaacccc cttcctcaac tccatggacg 1380 gggctcatgg gttcccagcg gctcagacgc 1410 <210> 64 <211> 1414 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR64 <400> 64 tggatcagat ttgttttata ccctcccttc tactgctctg agagttgtac atcacagtct 60 actgtatctg tttcccatta ttataatttt tttgcactgt gcttgcctga agggagcctc 120 aagttcatga gtctccctac cctcctccca aatgagacat ggacctttga atgctttcct 180 gggaccacca ccccaccttt catgctgctg ttatccagga ttttagttca acagtgtttt 240 aaccccccaa atgagtcatt tttattgttt cgtatagtga atgtgtattt gggtttgctt 300 atatggtgac ctgtttattt gctcctcatt gtacctcatg ctctgctctt tccttctaga 360 ttcagtctct ttcctaatga ggtgtctcgc agcaattctt tacaagacag ccaagatagg 420 ccagctctca gagcacttgt tgtctgaaaa agtcttgtct tatttaattt ctttttctta 480 gagatggggt ctcattatgt tacccacact ggtctcaaac ttctggctta aagcggtcct 540 cccaccttgg cctcccaaag tgctaggatt acaggcgtga gcgacctcgt ccagcctgtc 600 tgagaaagcg tttgttttgc ccttgctctc agatgacagt ttggggatag aattctaggt 660 ggacggtttt tttccttcag ccctttgaag agtctgtatt ttcattatct ccctgcatta 720 gatgttcttt tgcaagtaac gtgtcttttc tctctgggta ttcttaaggt tttctctttg 780 cctttggtga gctgcagtgg atttgctttt ttcaagaggt caagagaaag gaaagtgtga 840 ggtttctgtt ttttactgac aatttgtttg ttgatttgtt ttcccaccca gaggttcctt 900 gccactttgc caggctggaa ggcagacttc ttctggtgtc ctgttcacag acggggcagc 960 ctgcggaagg ccctgccaca tgcagggcct cggtcctcat tcccttgcat gtggacccgg 1020 gcgtgactcc tgttcaggct ggcacttccc agagctgagc cccagcctga ccttcctccc 1080 atactgtctt cacaccccct cctttcttct gatacctgga ggttttcctt tctttcctgt 1140 cacctccact tggattttaa atcctctgtc tgtggaattg tattcggcac aggaagatgc 1200 ttgcaagggc caggctcatc agccctgtcc ctgctgctgg aagcagcaca gcagagcctc 1260 atgctcaggc tgagatggag cagaggcctg cagacgagca cccagctcag ctggggttgg 1320 cgccgatggt ggagggtcct cgaaagctct ggggacgatg gcagagctat tggcagggga 1380 gccgcagggt cttttgagcc cttaaaagat ctct 1414 <210> 65 <211> 1310 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR65 <400> 65 gtgaatgttg atggatcaaa tatctttctg tgttgtttat caaagttaaa ataaatgtgg 60 tcatttaaag gacaaaagat gaggggttgg agtctgttca agcaaagggt atattaggag 120 aaaagcagaa ttctctccct gtgaagggac agtgactcct attttccacc tcatttttac 180 taactctcct aactatctgc ttaggtagag atatatccat gtacatttat aaaccacagt 240 gaatcatttg attttggaat aaagatagta taaaatgtgt cccagtgttg atatacatca 300 tacattaaat atgtctggca gtgttctaat tttacagttg tccaaagata atgttagggc 360 atactggcta tggatgaagc tccaatgttc agattgcaaa gaaacttaga attttactaa 420 tgaaaccaaa tacatcccaa gaaatttttc agaagaaaaa aagagaaact agtagcaaag 480 taaagaatca ccacaatatc atcagatttt ttttatatgt agaatattta ttcagttctt 540 ttttcaagta caccttgtct tcattcattg tactttattt tttgtgaagg tttaaattta 600 tttcttctat gtgtttagtg atatttaaaa tttttattta atcaagttta tcagaaagtt 660 ctgttagaaa atatgacgag gctttaattc cgccatctat attttccgct attatataaa 720 gataattgtt ttctcttttt aaaacaactt gaattgggat tttatatcat aattttttaa 780 tgtctttttt tattatactt taagttctgg gatacatgtg cagaacgtgc aggtgtgtta 840 catagatata cacgtgccat ggtggtttgc tgcacccact aacctgttat cgacattagg 900 tatttctcct aatgctatca ccccctattt ccccaccccc cgagaggccc cagtgtgtga 960 tgttctcctc cctgtgtcca tgtgttctca ttgttcatct cccacttatg gtatctacca 1020 taaccttgaa attgtcttat gcattcactt gtttggttgt tatatagcct ccatcaggac 1080 agggatattt gctgctgctt cttttttttt tctttttgag acagtcttgc tccgtcatcc 1140 aggctggagt gcttctcggc tcaatgcaac ctccacctcc caggtttaag cgattctcca 1200 acttcagcct cccaaatggc tgggactgca ggcatgcacc actacacctg gctaattttt 1260 gtatttgtaa tagagacaat gtttcaccat gttggccagg ctggtctcga 1310 <210> 66 <211> 1917 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR67 <400> 66 aggatcctaa aattttgtga ccctagagca agtactaact atgaaagtga aatagagaat 60 gaaggaatta tttaattaag tccagcaaaa cccaaccaaa tcatctgtaa aatatatttg 120 ttttcaacat ccaggtattt tctgtgtaaa aggttgagtt gtatgctgac ttattgggaa 180 aaataattga gttttcccct tcactttgcc agtgagagga aatcagtact gtaattgtta 240 aaggttaccc atacctacct ctactaccgt ctagcatagg taaagtaatg tacactgtga 300 agtttcctgc ttgactgtaa tgttttcagt ttcatcccat tgattcaaca gctatttatt 360 cagcacttac tacaaccatg ctggaaaccc aagagtaaat aggctgtgtt actcaacagg 420 actgaggtac agccgaactg tcaggcaagg ttgctgtcct ttggacttgc ctgctttctc 480 tctatgtagg aagaagaaat ggacataccg tccaggaaat agatatatgt tacatttcct 540 tattccataa ttaatattaa taaccctgga cagaaactac caagtttcta gacccttata 600 gtaccacctt accctttctg gatgaatcct tcacatgttg atacatttta tccaaatgaa 660 aattttggta ctgtaggtat aacagacaaa gagagaacag aaaactagag atgaagtttg 720 ggaaaaggtc aagaaagtaa ataatgcttc tagaagacac aaaaagaaaa atgaaatggt 780 aatgttggga aagttttaat acattttgcc ctaaggaaaa aaactacttg ttgaaattct 840 acttaagact ggaccttttc tctaaaaatt gtgcttgatg tgaattaaag caacacaggg 900 aaatttatgg gctccttcta agttctaccc aactcaccgc aaaactgttc ctagtaggtg 960 tggtatactc tttcagattc tttgtgtgta tgtatatgtg tgtgtgtgtg tgtgtttgta 1020 tgtgtacagt ctatatacat atgtgtacct acatgtgtgt atatataaat atatatttac 1080 ctggatgaaa tagcatatta tagaatattc ttttttcttt aaatatatat gtgcatacat 1140 atgtatatgc acatatatac ataaatgtag atatagctag gtaggcattc atgtgaaaca 1200 aagaagccta ttacttttta atggttgcat gatattccat cataggagta tagtacaact 1260 tatgtaacac acatttggct tgttgtaaaa ttttggtatt aataaaatag cacatatcat 1320 gcaaagacac ccttgcatag gtctattcat tctttgattt ttaccttagg acaaaattta 1380 aaagtagaat ttctgggtca agcagtatgc tcatttaaaa tgtcattgca tatttccaaa 1440 ttgtcctcca gaaaagtagt aacagtaaca attgatggac tgcgtgtttt ctaaaacttg 1500 catttttttc cttattggtg aggtttggca ttttccatat gtttattggc attttaattt 1560 tttttggttc atgtctttta ttcccttcct gcaaatttgt ggtgtgtctc aactttattt 1620 atactctcat tttcataatt ttctaaagga atttgacttt aaaaaaataa gacagccaat 1680 gctttggttt aatttcattg ctgctttttg aagtgactgc tgtgttttta tatactttta 1740 tattttgttg ttttagcaaa ttcttctata ttataattgt gtatgctgga acaaaaagtt 1800 atatttctta atctagataa aatatttcaa gatgttgtaa ttacagtccc ctctaaaatc 1860 atataaatag acgcatagct gtgtgatttg taattagtta tgtccattga tagatcc 1917 <210> 67 <211> 375 <212> DNA <213> Artificial <220> <223> wt zeocin resistance gene <220> <221> CDS <222> (1)..(375) <400> 67 atg gcc aag ttg acc agt gcc gtt ccg gtg ctc acc gcg cgc gac gtc 48 Met Ala Lys Leu Thr Ser Ala Val Pro Val Leu Thr Ala Arg Asp Val 1 5 10 15 gcc gga gcg gtc gag ttc tgg acc gac cgg ctc ggg ttc tcc cgg gac 96 Ala Gly Ala Val Glu Phe Trp Thr Asp Arg Leu Gly Phe Ser Arg Asp 20 25 30 ttc gtg gag gac gac ttc gcc ggt gtg gtc cgg gac gac gtg acc ctg 144 Phe Val Glu Asp Asp Phe Ala Gly Val Val Arg Asp Asp Val Thr Leu 35 40 45 ttc atc agc gcg gtc cag gac cag gtg gtg ccg gac aac acc ctg gcc 192 Phe Ile Ser Ala Val Gln Asp Gln Val Val Pro Asp Asn Thr Leu Ala 50 55 60 tgg gtg tgg gtg cgc ggc ctg gac gag ctg tac gcc gag tgg tcg gag 240 Trp Val Trp Val Arg Gly Leu Asp Glu Leu Tyr Ala Glu Trp Ser Glu 65 70 75 80 gtc gtg tcc acg aac ttc cgg gac gcc tcc ggg ccg gcc atg acc gag 288 Val Val Ser Thr Asn Phe Arg Asp Ala Ser Gly Pro Ala Met Thr Glu 85 90 95 atc ggc gag cag ccg tgg ggg cgg gag ttc gcc ctg cgc gac ccg gcc 336 Ile Gly Glu Gln Pro Trp Gly Arg Glu Phe Ala Leu Arg Asp Pro Ala 100 105 110 ggc aac tgc gtg cac ttc gtg gcc gag gag cag gac tga 375 Gly Asn Cys Val His Phe Val Ala Glu Glu Gln Asp 115 120 <210> 68 <211> 124 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 68 Met Ala Lys Leu Thr Ser Ala Val Pro Val Leu Thr Ala Arg Asp Val 1 5 10 15 Ala Gly Ala Val Glu Phe Trp Thr Asp Arg Leu Gly Phe Ser Arg Asp 20 25 30 Phe Val Glu Asp Asp Phe Ala Gly Val Val Arg Asp Asp Val Thr Leu 35 40 45 Phe Ile Ser Ala Val Gln Asp Gln Val Val Pro Asp Asn Thr Leu Ala 50 55 60 Trp Val Trp Val Arg Gly Leu Asp Glu Leu Tyr Ala Glu Trp Ser Glu 65 70 75 80 Val Val Ser Thr Asn Phe Arg Asp Ala Ser Gly Pro Ala Met Thr Glu 85 90 95 Ile Gly Glu Gln Pro Trp Gly Arg Glu Phe Ala Leu Arg Asp Pro Ala 100 105 110 Gly Asn Cys Val His Phe Val Ala Glu Glu Gln Asp 115 120 <210> 69 <211> 399 <212> DNA <213> Artificial <220> <223> wt blasticidin resistance gene <220> <221> CDS <222> (1)..(399) <400> 69 atg gcc aag cct ttg tct caa gaa gaa tcc acc ctc att gaa aga gca 48 Met Ala Lys Pro Leu Ser Gln Glu Glu Ser Thr Leu Ile Glu Arg Ala 1 5 10 15 acg gct aca atc aac agc atc ccc atc tct gaa gac tac agc gtc gcc 96 Thr Ala Thr Ile Asn Ser Ile Pro Ile Ser Glu Asp Tyr Ser Val Ala 20 25 30 agc gca gct ctc tct agc gac ggc cgc atc ttc act ggt gtc aat gta 144 Ser Ala Ala Leu Ser Ser Asp Gly Arg Ile Phe Thr Gly Val Asn Val 35 40 45 tat cat ttt act ggg gga cct tgt gca gaa ctc gtg gtg ctg ggc act 192 Tyr His Phe Thr Gly Gly Pro Cys Ala Glu Leu Val Val Leu Gly Thr 50 55 60 gct gct gct gcg gca gct ggc aac ctg act tgt atc gtc gcg atc gga 240 Ala Ala Ala Ala Ala Ala Gly Asn Leu Thr Cys Ile Val Ala Ile Gly 65 70 75 80 aat gag aac agg ggc atc ttg agc ccc tgc gga cgg tgc cga cag gtg 288 Asn Glu Asn Arg Gly Ile Leu Ser Pro Cys Gly Arg Cys Arg Gln Val 85 90 95 ctt ctc gat ctg cat cct ggg atc aaa gcc ata gtg aag gac agt gat 336 Leu Leu Asp Leu His Pro Gly Ile Lys Ala Ile Val Lys Asp Ser Asp 100 105 110 gga cag ccg acg gca gtt ggg att cgt gaa ttg ctg ccc tct ggt tat 384 Gly Gln Pro Thr Ala Val Gly Ile Arg Glu Leu Leu Pro Ser Gly Tyr 115 120 125 gtg tgg gag ggc taa 399 Val Trp Glu Gly 130 <210> 70 <211> 132 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 70 Met Ala Lys Pro Leu Ser Gln Glu Glu Ser Thr Leu Ile Glu Arg Ala 1 5 10 15 Thr Ala Thr Ile Asn Ser Ile Pro Ile Ser Glu Asp Tyr Ser Val Ala 20 25 30 Ser Ala Ala Leu Ser Ser Asp Gly Arg Ile Phe Thr Gly Val Asn Val 35 40 45 Tyr His Phe Thr Gly Gly Pro Cys Ala Glu Leu Val Val Leu Gly Thr 50 55 60 Ala Ala Ala Ala Ala Ala Gly Asn Leu Thr Cys Ile Val Ala Ile Gly 65 70 75 80 Asn Glu Asn Arg Gly Ile Leu Ser Pro Cys Gly Arg Cys Arg Gln Val 85 90 95 Leu Leu Asp Leu His Pro Gly Ile Lys Ala Ile Val Lys Asp Ser Asp 100 105 110 Gly Gln Pro Thr Ala Val Gly Ile Arg Glu Leu Leu Pro Ser Gly Tyr 115 120 125 Val Trp Glu Gly 130 <210> 71 <211> 600 <212> DNA <213> Artificial <220> <223> wt puromycin resistance gene <220> <221> CDS <222> (1)..(600) <400> 71 atg acc gag tac aag ccc acg gtg cgc ctc gcc acc cgc gac gac gtc 48 Met Thr Glu Tyr Lys Pro Thr Val Arg Leu Ala Thr Arg Asp Asp Val 1 5 10 15 ccc agg gcc gta cgc acc ctc gcc gcc gcg ttc gcc gac tac ccc gcc 96 Pro Arg Ala Val Arg Thr Leu Ala Ala Ala Phe Ala Asp Tyr Pro Ala 20 25 30 acg cgc cac acc gtc gat ccg gac cgc cac atc gag cgg gtc acc gag 144 Thr Arg His Thr Val Asp Pro Asp Arg His Ile Glu Arg Val Thr Glu 35 40 45 ctg caa gaa ctc ttc ctc acg cgc gtc ggg ctc gac atc ggc aag gtg 192 Leu Gln Glu Leu Phe Leu Thr Arg Val Gly Leu Asp Ile Gly Lys Val 50 55 60 tgg gtc gcg gac gac ggc gcc gcg gtg gcg gtc tgg acc acg ccg gag 240 Trp Val Ala Asp Asp Gly Ala Ala Val Ala Val Trp Thr Thr Pro Glu 65 70 75 80 agc gtc gaa gcg ggg gcg gtg ttc gcc gag atc ggc ccg cgc atg gcc 288 Ser Val Glu Ala Gly Ala Val Phe Ala Glu Ile Gly Pro Arg Met Ala 85 90 95 gag ttg agc ggt tcc cgg ctg gcc gcg cag caa cag atg gaa ggc ctc 336 Glu Leu Ser Gly Ser Arg Leu Ala Ala Gln Gln Gln Met Glu Gly Leu 100 105 110 ctg gcg ccg cac cgg ccc aag gag ccc gcg tgg ttc ctg gcc acc gtc 384 Leu Ala Pro His Arg Pro Lys Glu Pro Ala Trp Phe Leu Ala Thr Val 115 120 125 ggc gtc tcg ccc gac cac cag ggc aag ggt ctg ggc agc gcc gtc gtg 432 Gly Val Ser Pro Asp His Gln Gly Lys Gly Leu Gly Ser Ala Val Val 130 135 140 ctc ccc gga gtg gag gcg gcc gag cgc gcc ggg gtg ccc gcc ttc ctg 480 Leu Pro Gly Val Glu Ala Ala Glu Arg Ala Gly Val Pro Ala Phe Leu 145 150 155 160 gag acc tcc gcg ccc cgc aac ctc ccc ttc tac gag cgg ctc ggc ttc 528 Glu Thr Ser Ala Pro Arg Asn Leu Pro Phe Tyr Glu Arg Leu Gly Phe 165 170 175 acc gtc acc gcc gac gtc gag tgc ccg aag gac cgc gcg acc tgg tgc 576 Thr Val Thr Ala Asp Val Glu Cys Pro Lys Asp Arg Ala Thr Trp Cys 180 185 190 atg acc cgc aag ccc ggt gcc tga 600 Met Thr Arg Lys Pro Gly Ala 195 <210> 72 <211> 199 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 72 Met Thr Glu Tyr Lys Pro Thr Val Arg Leu Ala Thr Arg Asp Asp Val 1 5 10 15 Pro Arg Ala Val Arg Thr Leu Ala Ala Ala Phe Ala Asp Tyr Pro Ala 20 25 30 Thr Arg His Thr Val Asp Pro Asp Arg His Ile Glu Arg Val Thr Glu 35 40 45 Leu Gln Glu Leu Phe Leu Thr Arg Val Gly Leu Asp Ile Gly Lys Val 50 55 60 Trp Val Ala Asp Asp Gly Ala Ala Val Ala Val Trp Thr Thr Pro Glu 65 70 75 80 Ser Val Glu Ala Gly Ala Val Phe Ala Glu Ile Gly Pro Arg Met Ala 85 90 95 Glu Leu Ser Gly Ser Arg Leu Ala Ala Gln Gln Gln Met Glu Gly Leu 100 105 110 Leu Ala Pro His Arg Pro Lys Glu Pro Ala Trp Phe Leu Ala Thr Val 115 120 125 Gly Val Ser Pro Asp His Gln Gly Lys Gly Leu Gly Ser Ala Val Val 130 135 140 Leu Pro Gly Val Glu Ala Ala Glu Arg Ala Gly Val Pro Ala Phe Leu 145 150 155 160 Glu Thr Ser Ala Pro Arg Asn Leu Pro Phe Tyr Glu Arg Leu Gly Phe 165 170 175 Thr Val Thr Ala Asp Val Glu Cys Pro Lys Asp Arg Ala Thr Trp Cys 180 185 190 Met Thr Arg Lys Pro Gly Ala 195 <210> 73 <211> 564 <212> DNA <213> Artificial <220> <223> wt DHFR gene (from mouse) <220> <221> CDS <222> (1)..(564) <400> 73 atg gtt cga cca ttg aac tgc atc gtc gcc gtg tcc caa aat atg ggg 48 Met Val Arg Pro Leu Asn Cys Ile Val Ala Val Ser Gln Asn Met Gly 1 5 10 15 att ggc aag aac gga gac cta ccc tgg cct ccg ctc agg aac gag ttc 96 Ile Gly Lys Asn Gly Asp Leu Pro Trp Pro Pro Leu Arg Asn Glu Phe 20 25 30 aag tac ttc caa aga atg acc aca acc tct tca gtg gaa ggt aaa cag 144 Lys Tyr Phe Gln Arg Met Thr Thr Thr Ser Ser Val Glu Gly Lys Gln 35 40 45 aat ctg gtg att atg ggt agg aaa acc tgg ttc tcc att cct gag aag 192 Asn Leu Val Ile Met Gly Arg Lys Thr Trp Phe Ser Ile Pro Glu Lys 50 55 60 aat cga cct tta aag gac aga att aat ata gtt ctc agt aga gaa ctc 240 Asn Arg Pro Leu Lys Asp Arg Ile Asn Ile Val Leu Ser Arg Glu Leu 65 70 75 80 aaa gaa cca cca cga gga gct cat ttt ctt gcc aaa agt ttg gat gat 288 Lys Glu Pro Pro Arg Gly Ala His Phe Leu Ala Lys Ser Leu Asp Asp 85 90 95 gcc tta aga ctt att gaa caa ccg gaa ttg gca agt aaa gta gac atg 336 Ala Leu Arg Leu Ile Glu Gln Pro Glu Leu Ala Ser Lys Val Asp Met 100 105 110 gtt tgg ata gtc gga ggc agt tct gtt tac cag gaa gcc atg aat caa 384 Val Trp Ile Val Gly Gly Ser Ser Val Tyr Gln Glu Ala Met Asn Gln 115 120 125 cca ggc cac ctc aga ctc ttt gtg aca agg atc atg cag gaa ttt gaa 432 Pro Gly His Leu Arg Leu Phe Val Thr Arg Ile Met Gln Glu Phe Glu 130 135 140 agt gac acg ttt ttc cca gaa att gat ttg ggg aaa tat aaa ctt ctc 480 Ser Asp Thr Phe Phe Pro Glu Ile Asp Leu Gly Lys Tyr Lys Leu Leu 145 150 155 160 cca gaa tac cca ggc gtc ctc tct gag gtc cag gag gaa aaa ggc atc 528 Pro Glu Tyr Pro Gly Val Leu Ser Glu Val Gln Glu Glu Lys Gly Ile 165 170 175 aag tat aag ttt gaa gtc tac gag aag aaa gac taa 564 Lys Tyr Lys Phe Glu Val Tyr Glu Lys Lys Asp 180 185 <210> 74 <211> 187 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 74 Met Val Arg Pro Leu Asn Cys Ile Val Ala Val Ser Gln Asn Met Gly 1 5 10 15 Ile Gly Lys Asn Gly Asp Leu Pro Trp Pro Pro Leu Arg Asn Glu Phe 20 25 30 Lys Tyr Phe Gln Arg Met Thr Thr Thr Ser Ser Val Glu Gly Lys Gln 35 40 45 Asn Leu Val Ile Met Gly Arg Lys Thr Trp Phe Ser Ile Pro Glu Lys 50 55 60 Asn Arg Pro Leu Lys Asp Arg Ile Asn Ile Val Leu Ser Arg Glu Leu 65 70 75 80 Lys Glu Pro Pro Arg Gly Ala His Phe Leu Ala Lys Ser Leu Asp Asp 85 90 95 Ala Leu Arg Leu Ile Glu Gln Pro Glu Leu Ala Ser Lys Val Asp Met 100 105 110 Val Trp Ile Val Gly Gly Ser Ser Val Tyr Gln Glu Ala Met Asn Gln 115 120 125 Pro Gly His Leu Arg Leu Phe Val Thr Arg Ile Met Gln Glu Phe Glu 130 135 140 Ser Asp Thr Phe Phe Pro Glu Ile Asp Leu Gly Lys Tyr Lys Leu Leu 145 150 155 160 Pro Glu Tyr Pro Gly Val Leu Ser Glu Val Gln Glu Glu Lys Gly Ile 165 170 175 Lys Tyr Lys Phe Glu Val Tyr Glu Lys Lys Asp 180 185 <210> 75 <211> 1143 <212> DNA <213> Artificial <220> <223> wt hygromycin resistance gene <220> <221> CDS <222> (1)..(1143) <400> 75 atg aaa aag cct gaa ctc acc gcg acg tct gtc gag aag ttt ctg atc 48 Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile 1 5 10 15 gaa aag ttc gac agc gtc tcc gac ctg atg cag ctc tcg gag ggc gaa 96 Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu 20 25 30 gaa tct cgt gct ttc agc ttc gat gta gga ggg cgt gga tat gtc ctg 144 Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu 35 40 45 cgg gta aat agc tgc gcc gat ggt ttc tac aaa gat cgt tat gtt tat 192 Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr 50 55 60 cgg cac ttt gca tcg gcc gcg ctc ccg att ccg gaa gtg ctt gac att 240 Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile 65 70 75 80 ggg gaa ttc agc gag agc ctg acc tat tgc atc tcc cgc cgt gca cag 288 Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln 85 90 95 ggt gtc acg ttg caa gac ctg cct gaa acc gaa ctg ccc gct gtt ctg 336 Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu 100 105 110 cag ccg gtc gcg gag gcc atg gat gcg atc gct gcg gcc gat ctt agc 384 Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser 115 120 125 cag acg agc ggg ttc ggc cca ttc gga ccg caa gga atc ggt caa tac 432 Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr 130 135 140 act aca tgg cgt gat ttc ata tgc gcg att gct gat ccc cat gtg tat 480 Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr 145 150 155 160 cac tgg caa act gtg atg gac gac acc gtc agt gcg tcc gtc gcg cag 528 His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln 165 170 175 gct ctc gat gag ctg atg ctt tgg gcc gag gac tgc ccc gaa gtc cgg 576 Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg 180 185 190 cac ctc gtg cac gcg gat ttc ggc tcc aac aat gtc ctg acg gac aat 624 His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn 195 200 205 ggc cgc ata aca gcg gtc att gac tgg agc gag gcg atg ttc ggg gat 672 Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp 210 215 220 tcc caa tac gag gtc gcc aac atc ttc ttc tgg agg ccg tgg ttg gct 720 Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala 225 230 235 240 tgt atg gag cag cag acg cgc tac ttc gag cgg agg cat ccg gag ctt 768 Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu 245 250 255 gca gga tcg ccg cgg ctc cgg gcg tat atg ctc cgc att ggt ctt gac 816 Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp 260 265 270 caa ctc tat cag agc ttg gtt gac ggc aat ttc gat gat gca gct tgg 864 Gln Leu Tyr Gln Ser Leu Val Asp Gly Asn Phe Asp Asp Ala Ala Trp 275 280 285 gcg cag ggt cga tgc gac gca atc gtc cga tcc gga gcc ggg act gtc 912 Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val 290 295 300 ggg cgt aca caa atc gcc cgc aga agc gcg gcc gtc tgg acc gat ggc 960 Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly 305 310 315 320 tgt gta gaa gta ctc gcc gat agt gga aac cga cgc ccc agc act cgt 1008 Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg 325 330 335 ccg gag gca aag gaa ttc ggg aga tgg ggg agg cta act gaa aca cgg 1056 Pro Glu Ala Lys Glu Phe Gly Arg Trp Gly Arg Leu Thr Glu Thr Arg 340 345 350 aag gag aca ata ccg gaa gga acc cgc gct atg acg gca ata aaa aga 1104 Lys Glu Thr Ile Pro Glu Gly Thr Arg Ala Met Thr Ala Ile Lys Arg 355 360 365 cag aat aaa acg cac ggg tgt tgg gtc gtt tgt tca taa 1143 Gln Asn Lys Thr His Gly Cys Trp Val Val Cys Ser 370 375 380 <210> 76 <211> 380 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 76 Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile 1 5 10 15 Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu 20 25 30 Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu 35 40 45 Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr 50 55 60 Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile 65 70 75 80 Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln 85 90 95 Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu 100 105 110 Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser 115 120 125 Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr 130 135 140 Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr 145 150 155 160 His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln 165 170 175 Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg 180 185 190 His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn 195 200 205 Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp 210 215 220 Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala 225 230 235 240 Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu 245 250 255 Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp 260 265 270 Gln Leu Tyr Gln Ser Leu Val Asp Gly Asn Phe Asp Asp Ala Ala Trp 275 280 285 Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val 290 295 300 Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly 305 310 315 320 Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg 325 330 335 Pro Glu Ala Lys Glu Phe Gly Arg Trp Gly Arg Leu Thr Glu Thr Arg 340 345 350 Lys Glu Thr Ile Pro Glu Gly Thr Arg Ala Met Thr Ala Ile Lys Arg 355 360 365 Gln Asn Lys Thr His Gly Cys Trp Val Val Cys Ser 370 375 380 <210> 77 <211> 804 <212> DNA <213> Artificial <220> <223> wt neomycin resistance gene <220> <221> CDS <222> (1)..(804) <400> 77 atg gga tcg gcc att gaa caa gat gga ttg cac gca ggt tct ccg gcc 48 Met Gly Ser Ala Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala 1 5 10 15 gct tgg gtg gag agg cta ttc ggc tat gac tgg gca caa cag aca atc 96 Ala Trp Val Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile 20 25 30 ggc tgc tct gat gcc gcc gtg ttc cgg ctg tca gcg cag ggg cgc ccg 144 Gly Cys Ser Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro 35 40 45 gtt ctt ttt gtc aag acc gac ctg tcc ggt gcc ctg aat gaa ctg cag 192 Val Leu Phe Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln 50 55 60 gac gag gca gcg cgg cta tcg tgg ctg gcc acg acg ggc gtt cct tgc 240 Asp Glu Ala Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys 65 70 75 80 gca gct gtg ctc gac gtt gtc act gaa gcg gga agg gac tgg ctg cta 288 Ala Ala Val Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu 85 90 95 ttg ggc gaa gtg ccg ggg cag gat ctc ctg tca tct cac ctt gct cct 336 Leu Gly Glu Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro 100 105 110 gcc gag aaa gta tcc atc atg gct gat gca atg cgg cgg ctg cat acg 384 Ala Glu Lys Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr 115 120 125 ctt gat ccg gct acc tgc cca ttc gac cac caa gcg aaa cat cgc atc 432 Leu Asp Pro Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile 130 135 140 gag cga gca cgt act cgg atg gaa gcc ggt ctt gtc gat cag gat gat 480 Glu Arg Ala Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp 145 150 155 160 ctg gac gaa gag cat cag ggg ctc gcg cca gcc gaa ctg ttc gcc agg 528 Leu Asp Glu Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg 165 170 175 ctc aag gcg cgc atg ccc gac ggc gat gat ctc gtc gtg acc cat ggc 576 Leu Lys Ala Arg Met Pro Asp Gly Asp Asp Leu Val Val Thr His Gly 180 185 190 gat gcc tgc ttg ccg aat atc atg gtg gaa aat ggc cgc ttt tct gga 624 Asp Ala Cys Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly 195 200 205 ttc atc gac tgt ggc cgg ctg ggt gtg gcg gac cgc tat cag gac ata 672 Phe Ile Asp Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile 210 215 220 gcg ttg gct acc cgt gat att gct gaa gag ctt ggc ggc gaa tgg gct 720 Ala Leu Ala Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala 225 230 235 240 gac cgc ttc ctc gtg ctt tac ggt atc gcc gct ccc gat tcg cag cgc 768 Asp Arg Phe Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg 245 250 255 atc gcc ttc tat cgc ctt ctt gac gag ttc ttc tga 804 Ile Ala Phe Tyr Arg Leu Leu Asp Glu Phe Phe 260 265 <210> 78 <211> 267 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 78 Met Gly Ser Ala Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala 1 5 10 15 Ala Trp Val Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile 20 25 30 Gly Cys Ser Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro 35 40 45 Val Leu Phe Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln 50 55 60 Asp Glu Ala Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys 65 70 75 80 Ala Ala Val Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu 85 90 95 Leu Gly Glu Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro 100 105 110 Ala Glu Lys Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr 115 120 125 Leu Asp Pro Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile 130 135 140 Glu Arg Ala Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp 145 150 155 160 Leu Asp Glu Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg 165 170 175 Leu Lys Ala Arg Met Pro Asp Gly Asp Asp Leu Val Val Thr His Gly 180 185 190 Asp Ala Cys Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly 195 200 205 Phe Ile Asp Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile 210 215 220 Ala Leu Ala Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala 225 230 235 240 Asp Arg Phe Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg 245 250 255 Ile Ala Phe Tyr Arg Leu Leu Asp Glu Phe Phe 260 265 <210> 79 <211> 1121 <212> DNA <213> Artificial <220> <223> wt glutamine synthase gene (human) <220> <221> CDS <222> (1)..(1119) <400> 79 atg acc acc tca gca agt tcc cac tta aat aaa ggc atc aag cag gtg 48 Met Thr Thr Ser Ala Ser Ser His Leu Asn Lys Gly Ile Lys Gln Val 1 5 10 15 tac atg tcc ctg cct cag ggt gag aaa gtc cag gcc atg tat atc tgg 96 Tyr Met Ser Leu Pro Gln Gly Glu Lys Val Gln Ala Met Tyr Ile Trp 20 25 30 atc gat ggt act gga gaa gga ctg cgc tgc aag acc cgg acc ctg gac 144 Ile Asp Gly Thr Gly Glu Gly Leu Arg Cys Lys Thr Arg Thr Leu Asp 35 40 45 agt gag ccc aag tgt gtg gaa gag ttg cct gag tgg aat ttc gat ggc 192 Ser Glu Pro Lys Cys Val Glu Glu Leu Pro Glu Trp Asn Phe Asp Gly 50 55 60 tcc agt act tta cag tct gag ggt tcc aac agt gac atg tat ctc gtg 240 Ser Ser Thr Leu Gln Ser Glu Gly Ser Asn Ser Asp Met Tyr Leu Val 65 70 75 80 cct gct gcc atg ttt cgg gac ccc ttc cgt aag gac cct aac aag ctg 288 Pro Ala Ala Met Phe Arg Asp Pro Phe Arg Lys Asp Pro Asn Lys Leu 85 90 95 gtg tta tgt gaa gtt ttc aag tac aat cga agg cct gca gag acc aat 336 Val Leu Cys Glu Val Phe Lys Tyr Asn Arg Arg Pro Ala Glu Thr Asn 100 105 110 ttg agg cac acc tgt aaa cgg ata atg gac atg gtg agc aac cag cac 384 Leu Arg His Thr Cys Lys Arg Ile Met Asp Met Val Ser Asn Gln His 115 120 125 ccc tgg ttt ggc atg gag cag gag tat acc ctc atg ggg aca gat ggg 432 Pro Trp Phe Gly Met Glu Gln Glu Tyr Thr Leu Met Gly Thr Asp Gly 130 135 140 cac ccc ttt ggt tgg cct tcc aac ggc ttc cca ggg ccc cag ggt cca 480 His Pro Phe Gly Trp Pro Ser Asn Gly Phe Pro Gly Pro Gln Gly Pro 145 150 155 160 tat tac tgt ggt gtg gga gca gac aga gcc tat ggc agg gac atc gtg 528 Tyr Tyr Cys Gly Val Gly Ala Asp Arg Ala Tyr Gly Arg Asp Ile Val 165 170 175 gag gcc cat tac cgg gcc tgc ttg tat gct gga gtc aag att gcg ggg 576 Glu Ala His Tyr Arg Ala Cys Leu Tyr Ala Gly Val Lys Ile Ala Gly 180 185 190 act aat gcc gag gtc atg cct gcc cag tgg gaa ttt cag att gga cct 624 Thr Asn Ala Glu Val Met Pro Ala Gln Trp Glu Phe Gln Ile Gly Pro 195 200 205 tgt gaa gga atc agc atg gga gat cat ctc tgg gtg gcc cgt ttc atc 672 Cys Glu Gly Ile Ser Met Gly Asp His Leu Trp Val Ala Arg Phe Ile 210 215 220 ttg cat cgt gtg tgt gaa gac ttt gga gtg ata gca acc ttt gat cct 720 Leu His Arg Val Cys Glu Asp Phe Gly Val Ile Ala Thr Phe Asp Pro 225 230 235 240 aag ccc att cct ggg aac tgg aat ggt gca ggc tgc cat acc aac ttc 768 Lys Pro Ile Pro Gly Asn Trp Asn Gly Ala Gly Cys His Thr Asn Phe 245 250 255 agc acc aag gcc atg cgg gag gag aat ggt ctg aag tac atc gag gag 816 Ser Thr Lys Ala Met Arg Glu Glu Asn Gly Leu Lys Tyr Ile Glu Glu 260 265 270 gcc att gag aaa cta agc aag cgg cac cag tac cac atc cgt gcc tat 864 Ala Ile Glu Lys Leu Ser Lys Arg His Gln Tyr His Ile Arg Ala Tyr 275 280 285 gat ccc aag gga ggc ctg gac aat gcc cga cgt cta act gga ttc cat 912 Asp Pro Lys Gly Gly Leu Asp Asn Ala Arg Arg Leu Thr Gly Phe His 290 295 300 gaa acc tcc aac atc aac gac ttt tct ggt ggt gta gcc aat cgt agc 960 Glu Thr Ser Asn Ile Asn Asp Phe Ser Gly Gly Val Ala Asn Arg Ser 305 310 315 320 gcc agc ata cgc att ccc cgg act gtt ggc cag gag aag aag ggt tac 1008 Ala Ser Ile Arg Ile Pro Arg Thr Val Gly Gln Glu Lys Lys Gly Tyr 325 330 335 ttt gaa gat cgt cgc ccc tct gcc aac tgc gac ccc ttt tcg gtg aca 1056 Phe Glu Asp Arg Arg Pro Ser Ala Asn Cys Asp Pro Phe Ser Val Thr 340 345 350 gaa gcc ctc atc cgc acg tgt ctt ctc aat gaa acc ggc gat gag ccc 1104 Glu Ala Leu Ile Arg Thr Cys Leu Leu Asn Glu Thr Gly Asp Glu Pro 355 360 365 ttc cag tac aaa aat ta 1121 Phe Gln Tyr Lys Asn 370 <210> 80 <211> 373 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 80 Met Thr Thr Ser Ala Ser Ser His Leu Asn Lys Gly Ile Lys Gln Val 1 5 10 15 Tyr Met Ser Leu Pro Gln Gly Glu Lys Val Gln Ala Met Tyr Ile Trp 20 25 30 Ile Asp Gly Thr Gly Glu Gly Leu Arg Cys Lys Thr Arg Thr Leu Asp 35 40 45 Ser Glu Pro Lys Cys Val Glu Glu Leu Pro Glu Trp Asn Phe Asp Gly 50 55 60 Ser Ser Thr Leu Gln Ser Glu Gly Ser Asn Ser Asp Met Tyr Leu Val 65 70 75 80 Pro Ala Ala Met Phe Arg Asp Pro Phe Arg Lys Asp Pro Asn Lys Leu 85 90 95 Val Leu Cys Glu Val Phe Lys Tyr Asn Arg Arg Pro Ala Glu Thr Asn 100 105 110 Leu Arg His Thr Cys Lys Arg Ile Met Asp Met Val Ser Asn Gln His 115 120 125 Pro Trp Phe Gly Met Glu Gln Glu Tyr Thr Leu Met Gly Thr Asp Gly 130 135 140 His Pro Phe Gly Trp Pro Ser Asn Gly Phe Pro Gly Pro Gln Gly Pro 145 150 155 160 Tyr Tyr Cys Gly Val Gly Ala Asp Arg Ala Tyr Gly Arg Asp Ile Val 165 170 175 Glu Ala His Tyr Arg Ala Cys Leu Tyr Ala Gly Val Lys Ile Ala Gly 180 185 190 Thr Asn Ala Glu Val Met Pro Ala Gln Trp Glu Phe Gln Ile Gly Pro 195 200 205 Cys Glu Gly Ile Ser Met Gly Asp His Leu Trp Val Ala Arg Phe Ile 210 215 220 Leu His Arg Val Cys Glu Asp Phe Gly Val Ile Ala Thr Phe Asp Pro 225 230 235 240 Lys Pro Ile Pro Gly Asn Trp Asn Gly Ala Gly Cys His Thr Asn Phe 245 250 255 Ser Thr Lys Ala Met Arg Glu Glu Asn Gly Leu Lys Tyr Ile Glu Glu 260 265 270 Ala Ile Glu Lys Leu Ser Lys Arg His Gln Tyr His Ile Arg Ala Tyr 275 280 285 Asp Pro Lys Gly Gly Leu Asp Asn Ala Arg Arg Leu Thr Gly Phe His 290 295 300 Glu Thr Ser Asn Ile Asn Asp Phe Ser Gly Gly Val Ala Asn Arg Ser 305 310 315 320 Ala Ser Ile Arg Ile Pro Arg Thr Val Gly Gln Glu Lys Lys Gly Tyr 325 330 335 Phe Glu Asp Arg Arg Pro Ser Ala Asn Cys Asp Pro Phe Ser Val Thr 340 345 350 Glu Ala Leu Ile Arg Thr Cys Leu Leu Asn Glu Thr Gly Asp Glu Pro 355 360 365 Phe Gln Tyr Lys Asn 370 <210> 81 <211> 154 <212> DNA <213> Artificial <220> <223> combined synthetic polyadenylation sequence and pausing signal from the human alpha2 globin gene <220> <221> synthetic polyadenylation sequence <222> (1)..(49) <220> <221> cloning site <222> (50)..(62) <220> <221> pausing signal from the human alpha2 globin gene <222> (63)..(154) <400> 81 aataaaatat ctttattttc attacatctg tgtgttggtt ttttgtgtga atcgatagta 60 ctaacatacg ctctccatca aaacaaaacg aaacaaaaca aactagcaaa ataggctgtc 120 cccagtgcaa gtgcaggtgc cagaacattt ctct 154 <210> 82 <211> 596 <212> DNA <213> Artificial <220> <223> IRES sequence <400> 82 gcccctctcc ctcccccccc cctaacgtta ctggccgaag ccgcttggaa taaggccggt 60 gtgcgtttgt ctatatgtga ttttccacca tattgccgtc ttttggcaat gtgagggccc 120 ggaaacctgg ccctgtcttc ttgacgagca ttcctagggg tctttcccct ctcgccaaag 180 gaatgcaagg tctgttgaat gtcgtgaagg aagcagttcc tctggaagct tcttgaagac 240 aaacaacgtc tgtagcgacc ctttgcaggc agcggaaccc cccacctggc gacaggtgcc 300 tctgcggcca aaagccacgt gtataagata cacctgcaaa ggcggcacaa ccccagtgcc 360 acgttgtgag ttggatagtt gtggaaagag tcaaatggct ctcctcaagc gtattcaaca 420 aggggctgaa ggatgcccag aaggtacccc attgtatggg atctgatctg gggcctcggt 480 gcacatgctt tacatgtgtt tagtcgaggt taaaaaaacg tctaggcccc ccgaaccacg 540 gggacgtggt tttcctttga aaaacacgat gataagcttg ccacaacccc gggata 596 SEQUENCE LISTING <110> ChromaGenics B.V. Otte, Arie P. Kwaks, Theodorus H.J. Sewalt, Richard G.A.B. van Blokland, Rik <120> Selection of host cells expressing protein at high levels <130> 0117 A WO 01 ORD <150> US 11 / 359,953 <151> 2006-02-21 <150> US 11 / 269,525 <151> 2005-11-07 <150> US 60 / 626,301 <151> 2004-11-08 <150> US 60 / 696,610 <151> 2005-07-05 <150> EP 04105593.0 <151> 2004-11-08 <160> 82 <170> PatentIn version 3.3 <210> 1 <211> 749 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 1 <400> 1 atgcggtggg ggcgcgccag agactcgtgg gatccttggc ttggatgttt ggatctttct 60 gagttgcctg tgccgcgaaa gacaggtaca tttctgatta ggcctgtgaa gcctcctgga 120 ggaccatctc attaagacga tggtattgga gggagagtca cagaaagaac tgtggcccct 180 ccctcactgc aaaacggaag tgattttatt ttaatgggag ttggaatatg tgagggctgc 240 aggaaccagt ctccctcctt cttggttgga aaagctgggg ctggcctcag agacaggttt 300 tttggccccg ctgggctggg cagtctagtc gaccctttgt agactgtgca cacccctaga 360 agagcaacta cccctataca ccaggctggc tcaagtgaaa ggggctctgg gctccagtct 420 ggaaaatctg gtgtcctggg gacctctggt cttgcttctc tcctcccctg cactggctct 480 gggtgcttat ctctgcagaa gcttctcgct agcaaaccca cattcagcgc cctgtagctg 540 aacacagcac aaaaagccct agagatcaaa agcattagta tgggcagttg agcgggaggt 600 gaatatttaa cgcttttgtt catcaataac tcgttggctt tgacctgtct gaacaagtcg 660 agcaataagg tgaaatgcag gtcacagcgt ctaacaaata tgaaaatgtg tatattcacc 720 ccggtctcca gccggcgcgc caggctccc 749 <210> 2 <211> 883 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 2 <400> 2 gggtgcttcc tgaattcttc cctgagaagg atggtggccg gtaaggtccg tgtaggtggg 60 gtgcggctcc ccaggccccg gcccgtggtg gtggccgctg cccagcggcc cggcaccccc 120 atagtccatg gcgcccgagg cagcgtgggg gaggtgagtt agaccaaaga gggctggccc 180 ggagttgctc atgggctcca catagctgcc ccccacgaag acggggcttc cctgtatgtg 240 tggggtccca tagctgccgt tgccctgcag gccatgagcg tgcgggtcat agtcgggggt 300 gccccctgcg cccgcccctg ccgccgtgta gcgcttctgt gggggtggcg ggggtgcgca 360 gctgggcagg gacgcagggt aggaggcggg gggcagcccg taggtaccct gggggggctt 420 ggagaagggc gggggcgact ggggctcata cgggacgctg ttgaccagcg aatgcataga 480 gttcagatag ccaccggctc cggggggcac ggggctgcga cttggagact ggccccccga 540 tgacgttagc atgcccttgc ccttctgatc ctttttgtac ttcatgcggc gattctggaa 600 ccagatcttg atctggcgct cagtgaggtt cagcagattg gccatctcca cccggcgcgg 660 ccggcacagg tagcggttga agtggaactc tttctccagc tccaccagct gcgcgctcgt 720 gtaggccgtg cgcgcgcgct tggacgaagc ctgccccggc gggctcttgt cgccagcgca 780 gctttcgcct gcgaggacag agagaggaag agcggcgtca ggggctgccg cggccccgcc 840 cagcccctga cccagcccgg cccctccttc caccaggccc caa 883 <210> 3 <211> 2126 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 3 <400> 3 atctcgagta ctgaaatagg agtaaatctg aagagcaaat aagatgagcc agaaaaccat 60 gaaaagaaca gggactacca gttgattcca caaggacatt cccaaggtga gaaggccata 120 tacctccact acctgaacca attctctgta tgcagattta gcaaggttat aaggtagcaa 180 aagattagac ccaagaaaat agagaacttc caatccagta aaaatcatag caaatttatt 240 gatgataaca attgtctcca aaggaacaag gcagagtcgt gctagcagag gaagcacgtg 300 agctgaaaac agccaaatct gctttgtttt catgacacag gagcataaag tacacaccac 360 caactgacct attaaggctg tggtaaaccg attcatagag agaggttcta aatacattgg 420 tccctcacag gcaaactgca gttcgctccg aacgtagtcc ctggaaattt gatgtccagt 480 atagaaaagc agagcagtca aaaaatatag ataaagctga accagatgtt gcctgggcaa 540 tgttagcagc accacactta agatataacc tcaggctgtg gactccctcc ctggggagcg 600 gtgctgccgg cggcgggcgg gctccgcaac tccccggctc tctcgcccgc cctcccgttc 660 tcctcgggcg gcggcggggg ccgggactgc gccgctcaca gcggcggctc ttctgcgccc 720 ggcctcggag gcagtggcgg tggcggccat ggcctcctgc gttcgccgat gtcagcattt 780 cgaactgagg gtcatctcct tgggactggt tagacagtgg gtgcagccca cggagggcga 840 gttgaagcag ggtggggtgt cacctccccc aggaagtcca gtgggtcagg gaactccctc 900 ccctagccaa gggaggccgt gagggactgt gcccggtgag agactgtgcc ctgaggaaag 960 gtgcactctg gcccagatac tacacttttc ccacggtctt caaaacccgc agaccaggag 1020 attccctcgg gttcctacac caccaggacc ctgggtttca accacaaaac cgggccattt 1080 gggcagacac ccagctagct gcaagagttg tttttttttt tatactcctg tggcacctgg 1140 aacgccagcg agagagcacc tttcactccc ctggaaaggg ggctgaaggc agggaccttt 1200 agctgcgggc tagggggttt ggggttgagt gggggagggg agagggaaaa ggcctcgtca 1260 ttggcgtcgt ctgcagccaa taaggctacg ctcctctgct gcgagtagac ccaatccttt 1320 cctagaggtg gagggggcgg gtaggtggaa gtagaggtgg cgcggtatct aggagagaga 1380 aaaagggctg gaccaatagg tgcccggaag aggcggaccc agcggtctgt tgattggtat 1440 tggcagtgga ccctcccccg gggtggtgcc ggaggggggg atgatgggtc gaggggtgtg 1500 tttatgtgga agcgagatga ccggcaggaa cctgccccaa tgggctgcag agtggttagt 1560 gagtgggtga cagacagacc cgtaggccaa cgggtggcct taagtgtctt tggtctcctc 1620 caatggagca gcggcggggc gggaccgcga ctcgggttta atgagactcc attgggctgt 1680 aatcagtgtc atgtcggatt catgtcaacg acaacaacag ggggacacaa aatggcggcg 1740 gcttagtcct acccctggcg gcggcggcag cggtggcgga ggcgacggca ctcctccagg 1800 cggcagccgc agtttctcag gcagcggcag cgcccccggc aggcgcggtg gcggtggcgc 1860 gcagccaggt ctgtcaccca ccccgcgcgt tcccaggggg aggagactgg gcgggagggg 1920 ggaacagacg gggggggatt caggggcttg cgacgcccct cccacaggcc tctgcgcgag 1980 ggtcaccgcg gggccgctcg gggtcaggct gcccctgagc gtgacggtag ggggcggggg 2040 aaaggggagg agggacaggc cccgcccctc ggcagggcct ctagggcaag ggggcggggc 2100 tcgaggagcg gaggggggcg gggcgg 2126 <210> 4 <211> 1625 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 4 <400> 4 gatctgagtc atgttttaag gggaggattc ttttggctgc tgagttgaga ttaggttgag 60 ggtagtgaag gtaaaggcag tgagaccacg taggggtcat tgcagtaatc caggctggag 120 atgatggtgg ttcagttgga atagcagtgc atgtgctgta acaacctcag ctgggaagca 180 gtatatgtgg cgttatgacc tcagctggaa cagcaatgca tgtggtggtg taatgacccc 240 agctgggtag ggtgcatgtg gtgtaacgac ctcagctggg tagcagtgtg tgtgatgtaa 300 caacctcagc tgggtagcag tgtacttgat aaaatgttgg catactctag atttgttatg 360 agggtagtgc cattaaattt ctccacaaat tggttgtcac gtatgagtga aaagaggaag 420 tgatggaaga cttcagtgct tttggcctga ataaatagaa gacgtcattt ccagttaatg 480 gagacaggga agactaaagg tagggtggga ttcagtagag caggtgttca gttttgaata 540 tgatgaactc tgagagagga aaaacttttt ctacctctta gtttttgtga ctggacttaa 600 gaattaaagt gacataagac agagtaacaa gacaaaaata tgcgaggtta tttaatattt 660 ttacttgcag aggggaatct tcaaaagaaa aatgaagacc caaagaagcc attagggtca 720 aaagctcata tgccttttta agtagaaaat gataaatttt aacaatgtga gaagacaaag 780 gtgtttgagc tgagggcaat aaattgtggg acagtgatta agaaatatat gggggaaatg 840 aaatgataag ttattttagt agatttattc ttcatatcta ttttggcttc aacttccagt 900 ctctagtgat aagaatgttc ttctcttcct ggtacagaga gagcaccttt ctcatgggaa 960 attttatgac cttgctgtaa gtagaaaggg gaagatcgat ctcctgtttc ccagcatcag 1020 gatgcaaaca tttccctcca ttccagttct caaccccatg gctgggcctc atggcattcc 1080 agcatcgcta tgagtgcacc tttcctgcag gctgcctcgg gtagctggtg cactgctagg 1140 tcagtctatg tgaccaggag ctgggcctct gggcaatgcc agttggcagc ccccatccct 1200 ccactgctgg gggcctccta tccagaaggg cttggtgtgc agaacgatgg tgcaccatca 1260 tcattcccca cttgccatct ttcaggggac agccagctgc tttgggcgcg gcaaaaaaca 1320 cccaactcac tcctcttcag gggcctctgg tctgatgcca ccacaggaca tccttgagtg 1380 ctgggcagtc tgaggacagg gaaggagtga tgaccacaaa acaggaatgg cagcagcagt 1440 gacaggagga agtcaaaggc ttgtgtgtcc tggccctgct gagggctggc gagggccctg 1500 ggatggcgct cagtgcctgg tcggctgcaa gaggccagcc ctctgcccat gaggggagct 1560 ggcagtgacc aagctgcact gccctggtgg tgcatttcct gccccactct ttccttctaa 1620 gatcc 1625 <210> 5 <211> 1571 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 5 <400> 5 cacctgattt aaatgatctg tctggtgagc tcactgggtc tttactcgca tgctgggtcc 60 acagctccac tgtcctgcag ggtccgtgag tgtgggcccc ttatctattt catcatcata 120 accctgcgtg tcctcaactc ctggcacata ttgggtggcc ccatccacac acggttgttg 180 agtgaatcca tgagatgaca aaggctatga tgtagactat atcatgagcc agaaccaggc 240 tttcctacct ccagacaatc aagggccttg atttgggatt gagggagaaa ggagtagaag 300 ccaggaagga gaagagattg aggtttacca agggtgcaaa gtcctggccc ctgactgtag 360 gctgaaaact atagaaatga tagaacaatt ttgcaatgaa atgcagaaga ccctgcatca 420 actttaggtg ggacttcggg tatttttatg gccacagaac atcctcccat ttacctgcat 480 ggcccagaca cagacttcaa aacagttgag gccagcaggc tccaggtaag tggtaggatt 540 ccagaatgcc ctcagagtgt tgtgggaggc agcaggcgat tttcctggac ttctgagttt 600 atgagaaccc caaaccccaa ttggcattaa cattgaggtc tcaatgtatc atggcaggaa 660 gcttccgagt ggtgaaaagg aaagtgaaca tcaaagctcg gaagacaaga gggtggagtg 720 atggcaacca agagcaagac ccttccctct cctgtgatgg ggtggctcta tgtgaagccc 780 ccaaactgga cacaggtctg gcagaatgag gaacccactg agatttagcg ccaacatcca 840 gcataaaagg gagactgaca tagaatttga gttagttaaa aataaggcac aatgcttttc 900 atgtattcct gagttttgtg gactggtgtt caatttgcag cattcttagt tgattaaatc 960 tgagatgaag aaagagtgtc caacactttc accttggaaa gctctggaaa agcaaaaggg 1020 agagacaatt agcttcatcc attaactcac ttagtcatta tgcattcatt catgtaacta 1080 ccaaacacgt actgagtgcc taacactcct gagacactga gaagtttctt gggaatacaa 1140 agatgaataa aaaccacgcc aggcaggagt tggaggaagg ttctggatgc caccacgctc 1200 tacctcctgg ctggacacca ggcaatgttg gtaaccttct gcctccaatt tctgcaaata 1260 cataattaat aaacacaagg ttatcttcta aacagttctt aaaatgagtc aactttgttt 1320 aaacttgttc tttttagaga aaaatgtatt tttgaaagag ttggttagtg ctaggggaaa 1380 tgtctgggca cagctcagtc tggtgtgaga gcaggaagca gctctgtgtg tctggggtgg 1440 gtacgtatgt aggacctgtg ggagaccagg ttgggggaag gcccctcctc atcaagggct 1500 cctttgcttt ggtttgcttt ggcgtgggag gtgctgtgcc acaagggaat acgggaaata 1560 agatctctgc t 1571 <210> 6 <211> 1173 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 6 <400> 6 tgacccacca cagacatccc ctctggcctc ctgagtggtt tcttcagcac agcttccaga 60 gccaaattaa acgttcactc tatgtctata gacaaaaagg gttttgacta aactctgtgt 120 tttagagagg gagttaaatg ctgttaactt tttaggggtg ggcgagaggg atgacaaata 180 acaacttgtc tgaatgtttt acatttctcc ccactgcctc aagaaggttc acaacgaggt 240 catccatgat aaggagtaag acctcccagc cggactgtcc ctcggccccc agaggacact 300 ccacagagat atgctaactg gacttggaga ctggctcaca ctccagagaa aagcatggag 360 cacgagcgca cagagcaggg ccaaggtccc agggacagaa tgtctaggag ggagattggg 420 gtgagggtaa tctgatgcaa ttactgtggc agctcaacat tcaagggagg gggaagaaag 480 aaacagtccc tgtcaagtaa gttgtgcagc agagatggta agctccaaaa tttgaaactt 540 tggctgctgg aaagttttag ggggcagaga taagaagaca taagagactt tgagggttta 600 ctacacacta gacgctctat gcatttattt atttattatc tcttatttat tactttgtat 660 aactcttata ataatcttat gaaaacggaa accctcatat acccatttta cagatgagaa 720 aagtgacaat tttgagagca tagctaagaa tagctagtaa gtaaaggagc tgggacctaa 780 accaaaccct atctcaccag agtacacact cttttttttt ttccagtgta atttttttta 840 atttttattt tactttaagt tctgggatac atgtgcagaa ggtatggttt gttacatagg 900 tatatgtgtg ccatagtgga ttgctgcacc tatcaacccg tcatctaggt ttaagcccca 960 catgcattag ctatttgtcc tgatgctctc cctcccctcc ccacaccaga caggccttgg 1020 tgtgtgatgt tcccctccct gtgtccatgt gttctcactg ttcagctccc acttatgagt 1080 gagaacgtgt ggtatttggt tttctgttcc tgtgttagtt tgctgaggat gatggcttcc 1140 agcttcatcc atgtccctgc aaaggacacg atc 1173 <210> 7 <211> 2101 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 7 <400> 7 aggtgggtgg atcacccgag gtcaggagtt caagaccagc ctggccaaca tggtaaaacc 60 tcgtctctac taaaaaatac gaaaaattag ctggttgtgg tggtgcgtgc ttgtaatccc 120 agctactcgg gaggctgagg caggagaatc acttgaatct gggaggcaga ggttgcagtg 180 agctgagata gtgccattgc actccagcct gggcaacaga cggagactct gtctccaaaa 240 Aaaaaaaaaaa aaatcttaga ggacaagaat ggctctctca aacttttgaa gaaagaataa 300 ataaattatg cagttctaga agaagtaatg gggatatagg tgcagctcat gatgaggaag 360 acttagctta actttcataa tgcatctgtc tggcctaaga cgtggtgagc tttttatgtc 420 tgaaaacatt ccaatataga atgataataa taatcacttc tgacccccct tttttttcct 480 ctccctagac tgtgaagcag aaaccccata tttttcttag ggaagtggct acgcactttg 540 tatttatatt aacaactacc ttatcaggaa attcatattg ttgccctttt atggatgggg 600 aaactggaca agtgacagag caaaatccaa acacagctgg ggatttccct cttttagatg 660 atgattttaa aagaatgctg ccagagagat tcttgcagtg ttggaggaca tatatgacct 720 ttaagatatt ttccagctca gagatgctat gaatgtatcc tgagtgcatg gatggacctc 780 agttttgcag attctgtagc ttatacaatt tggtggtttt ctttagaaga aaataacaca 840 tttataaata ttaaaatagg cccaagacct tacaagggca ttcatacaaa tgagaggctc 900 tgaagtttga gtttgttcac tttctagtta attatctcct gcctgtttgt cataaatgcg 960 tttagtaggg agctgctaat gacaggttcc tccaacagag tgtggaagaa ggagatgaca 1020 gctggcttcc cctctgggac agcctcagag ctagtgggga aactatgtta gcagagtgat 1080 gcagtgacca agaaaatagc actaggagaa agctggtcca tgagcagctg gtgagaaaag 1140 gggtggtaat catgtatgcc ctttcctgtt ttatttttta ttgggtttcc ttttgcctct 1200 caattccttc tgacaataca aaatgttggt tggaacatgg agcacctgga agtctggttc 1260 attttctctc agtctcttga tgttctctcg ggttcactgc ctattgttct cagttctaca 1320 cttgagcaat ctcctcaata gctaaagctt ccacaatgca gattttgtga tgacaaattc 1380 agcatcaccc agcagaactt aggttttttt ctgtcctccg tttcctgacc tttttcttct 1440 gagtgcttta tgtcacctcg tgaaccatcc tttccttagt catctaccta gcagtcctga 1500 ttcttttgac ttgtctccct acaccacaat aaatcactaa ttactatgga ttcaatccct 1560 aaaatttgca caaacttgca aatagattac gggttgaaac ttagagattt caaacttgag 1620 aaaaaagttt aaatcaagaa aaatgacctt taccttgaga gtagaggcaa tgtcatttcc 1680 aggaataatt ataataatat tgtgtttaat atttgtatgt aacatttgaa taccttcaat 1740 gttcttattt gtgttatttt aatctcttga tgttactaac tcatttggta gggaagaaaa 1800 catgctaaaa taggcatgag tgtcttatta aatgtgacaa gtgaatagat ggcagaaggt 1860 ggattcatat tcagttttcc atcaccctgg aaatcatgcg gagatgattt ctgcttgcaa 1920 ataaaactaa cccaatgagg ggaacagctg ttcttaggtg aaaacaaaac aaacacgcca 1980 aaaaccttta ttctctttat tatgaatcaa atttttcctc tcagataatt gttttattta 2040 tttattttta ttattattgt tattatgtcc agtctcactc tgtcgcctaa gctggcatga 2100 t 2101 <210> 8 <211> 1821 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 8 <400> 8 gagatcacct cgaagagagt ctaacgtccg taggaacgct ctcgggttca caaggattga 60 ccgaacccca ggatacgtcg ctctccatct gaggcttgct ccaaatggcc ctccactatt 120 ccaggcacgt gggtgtctcc cctaactctc cctgctctcc tgagcccatg ctgcctatca 180 cccatcggtg caggtccttt ctgaagagct cgggtggatt ctctccatcc cacttccttt 240 cccaagaaag aagccaccgt tccaagacac ccaatgggac attccccttc cacctccttc 300 tccaaagttg cccaggtgtt catcacaggt tagggagaga agcccccagg tttcagttac 360 aaggcatagg acgctggcat gaacacacac acacacacac acacacacac acacacacac 420 acacgactcg aagaggtagc cacaagggtc attaaacact tgacgactgt tttccaaaaa 480 cgtggatgca gttcatccac gccaaagcca agggtgcaaa gcaaacacgg aatggtggag 540 agattccaga ggctcaccaa accctctcag gaatattttc ctgaccctgg gggcagaggt 600 tggaaacatt gaggacattt cttgggacac acggagaagc tgaccgacca ggcattttcc 660 tttccactgc aaatgaccta tggcgggggc atttcacttt cccctgcaaa tcacctatgg 720 cgaggtacct ccccaagccc ccacccccac ttccgcgaat cggcatggct cggcctctat 780 ccgggtgtca ctccaggtag gcttctcaac gctctcggct caaagaagga caatcacagg 840 tccaagccca aagcccacac ctcttccttt tgttataccc acagaagtta gagaaaacgc 900 cacactttga gacaaattaa gagtccttta tttaagccgg cggccaaaga gatggctaac 960 gctcaaaatt ctctgggccc cgaggaaggg gcttgactaa cttctatacc ttggtttagg 1020 aaggggaggg gaactcaaat gcggtaattc tacagaagta aaaacatgca ggaatcaaaa 1080 gaagcaaatg gttatagaga gataaacagt tttaaaaggc aaatggttac aaaaggcaac 1140 ggtaccaggt gcggggctct aaatccttca tgacacttag atataggtgc tatgctggac 1200 acgaactcaa ggctttatgt tgttatctct tcgagaaaaa tcctgggaac ttcatgcact 1260 gtttgtgcca gtatcttatc agttgattgg gctcccttga aatgctgagt atctgcttac 1320 acaggtcaac tccttgcgga agggggttgg gtaaggagcc cttcgtgtct cgtaaattaa 1380 ggggtcgatt ggagtttgtc cagcattccc agctacagag agccttattt acatgagaag 1440 caaggctagg tgattaaaga gaccaacagg gaagattcaa agtagcgact tagagtaaaa 1500 acaaggttag gcatttcact ttcccagaga acgcgcaaac attcaatggg agagaggtcc 1560 cgagtcgtca aagtcccaga tgtggcgagc ccccgggagg aaaaaccgtg tcttccttag 1620 gatgcccgga acaagagcta ggcttccgga gctaggcagc catctatgtc cgtgagccgg 1680 cgggagggag accgccggga ggcgaagtgg ggcggggcca tccttctttc tgctctgctg 1740 ctgccgggga gctcctggct ggcgtccaag cggcaggagg ccgccgtcct gcagggcgcc 1800 gtagagtttg cggtgcagag t 1821 <210> 9 <211> 1929 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 9 <400> 9 cacttcctgg gagtggagca gaggctctgc gtggagcatc catgtgcagt actcttaggt 60 acggaaggga ttgggctaaa ccatggatgg gagctgggaa gggaagggac caacttcagg 120 ccccactggg acactggagc tgccaccctt tagagccctc ctaaccctac accagaggct 180 gagggggacc tcagacatca cacacatgct ttcccatgtt ttcagaaatc tggaaacgta 240 gaacttcagg ggtgagagtg cctagatatt gaatacaagg ctagattggg cttctgtaat 300 atcccaaagg accctccagc tttttcacca gcacctaatg cccatcagat accaaagaca 360 cagcttagga gaggttcacc ctgaagctga ggaggaggca gccggattag agttgactga 420 gcaaggatga ctgccttctc cacctgacga tttcagctgc tgcccttttc ttttcctggg 480 aatgcctgtc gccatggcct tctgtgtcca caggagagtt tgacccagat actcatggac 540 caggcaaagg tgctgttcct cccagcccag ggcccaccat gaagcatgcc tgggagcctg 600 gtaaggaccc agccactcct gggctgttga cattggcttc tcttgcccag cattgtagcc 660 acgccactgc attgtactgt gagataagtc aaggtgggct caccaggacc tgcactaaat 720 tgtgaaattc agctccaaag aactttggaa attacccatg catttaagca aaatgaatga 780 tacctgagca aaccctttca cattggcaca agttacaatc ctgtctcatc ctcttgatta 840 caaattccat ccaggcaaga gctgtatcac cctgaggtct ccccattcat gttttggtca 900 ataatattta gtttcctttt gaaaatagat ttttgtgtta ctccattatg atgggcagag 960 gccagatgct tatattctat ttaaatgact atgtttttct atctgtaact gggtttgtgt 1020 tcaggtggta aatgcttttt ttttgcagtc agaagattcc tggaaggcga ccagaaatta 1080 gctggccgct gtcagacctg aagttacttc taaagggcct ttagaaatga attctttttt 1140 atgccttctc tgaattctga gaagtaggct tgacttcccc taagtgtgga gttgggagtc 1200 aactcttctg aaaagaaagt ttcagagcat tttccaaagc catggtcagc tgtgggaagg 1260 gaagacgatg gatagtacag ttgccggaaa acactgatgg aggcggatgc tccagctcag 1320 ccaaagacct ttgttctgcc caccccagaa atgccccttc ctcaatcgca gaaacgttgc 1380 cccatggctc ctgatactca gaatgcagcc tctgaccagg accatctgca tcctccagga 1440 gctcgtaaga aatgcagcat cgtgggacct gctggcacct ggtgaaccca aacctgcagg 1500 gctcctgggt gtgcttgggg cggctgcagg ggaagaggga gtcagcagcc tcctcctgac 1560 cttcccgggg gctgcttttc tgaggggcca gaatgcaccg gttgaccttg ttgcatcact 1620 ggcccatgac tggctgcttt ggtcaggtgt aaaaaggtgt ttccagaggg tctgctcctc 1680 tcactatcgg accaggtttc catggagagc tcagcctccc agcaaggata gagaacttca 1740 aatggctcaa agaactgaga ggccacacat gtgtgacctg aatagtctct gctgcaaaac 1800 aaagggtttc ttaatgtaaa acgttctctt cctcacagag gggttcccag ctgctagtgg 1860 gcatgttgca ggcatttcct gggctgcatc aggttgtcat aagccagagg atcatttttg 1920 ggggctcat 1929 <210> 10 <211> 1167 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 10 <220> <221> misc_feature (222) (452) .. (1143) <223> n is a, c, g, or t on various positions <400> 10 aggtcaggag ttcaagacca gcctggccaa catggtgaaa ccctgtccct acaaaaaata 60 caaaaattag ccgggcgtgg tggggggcgc ctataatccc agctactcag gatgctgaga 120 caggagaatt gtttgaaccc gggaggtgga ggttgcagtg aactgagatc gcgccactgc 180 actccagcct ggtgacagag agagactccg tctcaacaac agacaaacaa acaaacaaac 240 aacaacaaaa atgtttactg acagctttat tgagataaaa ttcacatgcc ataaaggtca 300 ccttctacag tatacaattc agtggattta gtatgttcac aaagttgtac gttgttcacc 360 atctactcca gaacatttac atcaccccta aaagaagctc tttagcagtc acttctcatt 420 ctccccagcc cctgccaacc acgaatctac tntctgtctc tattctgaat atttcatata 480 aaggagtcct atcatatggg ccttttacgt ctaccttctt tcacttagca tcatgttttt 540 aagattcatc cacagtgtag cacgtgtcag ttaattcatt tcatcttatg gctggataat 600 gctctattgt atgcatatcc ctcactttgc ttatccattc atcaactgat tgacatttgg 660 gttatttcta ctttttgact attatgagta atgctgctat gaacattcct gtaccaatcg 720 ttacgtggac atatgctttc aattctcctg agtatgtaac tagggttgga gttgctgggt 780 catatgttaa ctcagtgttt catttttttg aagaactacc aaatggtttt ccaaagtgga 840 tgcaacactt tacattccca ccagcaagat atgaaggttc caatgtctct acatttttgc 900 caacacttgt gattttcttt tatttattta tttatttatt tatttttgag atggagtctc 960 actctgtcac ccaggctgga gtgcagtggc acaatttcag ctcactgcaa tctccacctc 1020 tcgggctcaa gcgatactcc tgcctcaacc tcccgagtaa ctgggattac aggcgcccac 1080 caccacacca agctaatttt ttgtattttt agtagagacg gggtttcatc atgtcggcca 1140 ggntgtactc gaactctgac ctcaagt 1167 <210> 11 <211> 1377 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 11 <400> 11 aggatcactt gagcccagga gttcaagacc agcctgggca acatagcgag aacatgtctc 60 aaaaaggaaa aaaatggggg aaaaaaccct cccagggaca gatatccaca gccagtcttg 120 ataagctcca tcattttaaa gtgcaaggcg gtgcctccca tgtggatgat tatttaatcc 180 tcttgtactt tgtttagtcc tttgtggaaa tgcccatctt ataaattaat agaattctag 240 aatctaatta aaatggttca actctacatt ttactttagg ataatatcag gaccatcaca 300 gaatgtctga gatgtggatt taccctatct gtagctcact tcttcaacca ttcttttagc 360 aaggctagtt atcttcagtg acaacccctt gctgccctct actatctcct ccctcagatg 420 gactactctg attaagcttg agctagaata agcatgttat cccgggattt catatggaat 480 attttataca tgagtgagcc attatgagtt gtttgaaaat ttattatgtt gagggagggt 540 aaccgctgta acaaccatca ccaaatctaa tcgactgaat acatttgacg tttatttctt 600 gttcacctga cagttcagtg ttacctaaat ttacatgaag acccagaggc ccacgctcct 660 tcattttggg ctccaccgac ctccaaggtt tcagggccct ctgccccgcc ttctgcaccc 720 acaggggaag agagtggagg atgcacacgc ccaggcctgg aagtgacgca tgtggcttcc 780 ccgtccacag acttcaccca cagtccattg gccttcttaa gtcatggact cctgctgagc 840 tgccagggtg catgggaaat ccatgtgact gtgtgccctg gaggaagggg agcgtttcgg 900 tgagcacaca ggagtctttg ccactagacg ctgatgagga ttccccacag gcgatgaagc 960 atggagactc atcttgtaac aaacagatga gttgttgaca tctcttaagt ttactttgtg 1020 tgcagttttt attcagatag gaaaggctgt taaaatctta acacctaact ggaagaaggg 1080 ttttagagaa gtgtggtttt cagtaagcca gttctttcca caatccaaga aacgaaataa 1140 atttccagca tggagcagtt ggcaggtaag gtttttgttg tggtctcgcc caggcttgag 1200 tgtaaccggt gtggtcatag ctcactacat tctcaaactc ctggccttaa gtcatcctcc 1260 tgcctcagcc tcccaaaggc aagtaaggtt aagaataggg gaaaggtgaa gtttcacagc 1320 ttttctagaa ttctttttat tcaagggact ctcagatcat caaacccacc cagaatc 1377 <210> 12 <211> 1051 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR12 <400> 12 atcctgcttc tgggaagaga gtggcctccc ttgtgcaggt gactttggca ggaccagcag 60 aaacccaggt ttcctgtcag gaggaagtgc tcagcttatc tctgtgaagg gtcgtgataa 120 ggcacgagga ggcaggggct tgccaggatg ttgcctttct gtgccatatg ggacatctca 180 gcttacgttg ttaagaaata tttggcaaga agatgcacac agaatttctg taacgaatag 240 gatggagttt taagggttac tacgaaaaaa agaaaactac tggagaagag ggaagccaaa 300 caccaccaag tttgaaatcg attttattgg acgaatgtct cactttaaat ttaaatggag 360 tccaacttcc ttttctcacc cagacgtcga gaaggtggca ttcaaaatgt ttacacttgt 420 ttcatctgcc tttttgctaa gtcctggtcc cctacctcct ttccctcact tcacatttgt 480 cgtttcatcg cacacatatg ctcatcttta tatttacata tatataattt ttatatatgg 540 cttgtgaaat atgccagacg agggatgaaa tagtcctgaa aacagctgga aaattatgca 600 acagtgggga gattgggcac atgtacattc tgtactgcaa agttgcacaa cagaccaagt 660 ttgttataag tgaggctggg tggtttttat tttttctcta ggacaacagc ttgcctggtg 720 gagtaggcct cctgcagaag gcattttctt aggagcctca acttccccaa gaagaggaga 780 gggcgagact ggagttgtgc tggcagcaca gagacaaggg ggcacggcag gactgcagcc 840 tgcagagggg ctggagaagc ggaggctggc acccagtggc cagcgaggcc caggtccaag 900 tccagcgagg tcgaggtcta gagtacagca aggccaaggt ccaaggtcag tgagtctaag 960 gtccatggtc agtgaggctg agacccaggg tccaatgagg ccaaggtcca gagtccagta 1020 aggccgagat ccagggtcca gggaggtcaa g 1051 <210> 13 <211> 1291 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 13 <400> 13 agccactgag gtcctaactg cagccaaggg gccgttctgc acatgtcgct caccctctgt 60 gctctgttcc ccacagagca aacgcacatg gcaacgttgg tccgctcagc cactggttct 120 gtggtggaac ggtggatgtc tgcactgtga catcagctga gtaagtaaca acgactgagg 180 atgccgctga cccagggctg gggaagggga ctcccagctc agacaggctt ggctgtggtt 240 tgctttggga ggagagtgaa catcacaggg aatggctcat gtcagcccca ggagggtggg 300 ctggcccctg gtccccgggc tccttctggc cctgcaggcg atagagagcc tcaacctgct 360 gccgcttctc cttggcccgg gtgatggccg tctggaagag cctgcagtag aggtgcacag 420 ccagcggaga gtcgtcattg ccgggtacag ggtaggtgat gaggcagggg ttgcagttgg 480 tgtccacgat gcccactgtg gggatgttca tcttggctgc gtctctcacg gccacgtgtg 540 gctcaaagat gttgttgagc gtgtgcagga agatgatgag gtccggcagg cggaccgtgg 600 ggccaaagag gaggcgcgcg ttggtcagca tgccgcccct gaagtagcga gtgtgggcgt 660 actcgccaca gtcacgggcc atgttctcaa tcaggtacga gaactgccgg ttgcggctta 720 taaacaagat gatgcccttg cggtaggcca tgtgggcggt gaagttcaag gccagctgga 780 ggtgcgtggc tgtctgttcc aggtcgatga tgtcgtggtc caggcggctc ccaaagatgt 840 acggctccat aaacctgcca gagaccccac caaggcaagg gggatgagag ttcacggggc 900 catctccact ggctccttgc aggaacacag acgcccacca gggactcccg ggctcctctg 960 tgggggcact atgggctggg aagcacaatt tgcaacgctc cccgtgtgca tggacagcag 1020 tgcagaccca tccaggccac ccctctgcat gcctcgtctc gtggcttaac ccctcctacc 1080 ctctacctct tcccgaagga atcctaatag aactgacccc atatggatgt gtggacatcc 1140 aacatgacgc caaaaggaca ttctgccccg tgcagctcac agggcagccg cctccgtcac 1200 tgtcctcttc ccgaggcttt gcggatgagg cccctctggg gttggactta gcggggtgct 1260 ctgggccaaa agcattaagg gatcagggca g 1291 <210> 14 <211> 711 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 14 <400> 14 ccctggacca gggtccgtgg tcttggtggg cactggcttc ttcttgctgg gtgttttcct 60 gtgggtctct ggcaaggcac tttttgtggc gctgcttgtg ctgtgtgcgg gaggggcagg 120 tgctctttcc tcttggagct ggaccctctg gggcgggtcc ccgtcggcct ccttgtgtgt 180 tttctgcacc tggtacagct ggatggcctc ctcaatgccg tcgtcgctgc tggagtcgga 240 cgcctcgggc gcctgtacgg cgctcgtgac tcgctttccc ctccttgcgg tgctggcgtt 300 ccttttaatc ccacttttat tctgtactgc ttctgaaggg cggtgggggt tgctggcttt 360 gtgctgccct ccttctcctg cgtggtcgtg gtcgtgacct tggacctgag gcttctgggc 420 tgcacgtttg tctttgctaa ccgggggagg tctgcagaag gcgaactcct tctggacgcc 480 catcaggccc tgccggtgca ccacctttgt agccggctct tggtgggatt tcgagagtga 540 cttcgccgaa ttttcatgtg tgtctggttt cttctccact gacccatcac atttttgggt 600 ctcatgctgt cttttctcat tcagaaactg ttctatttct gccctgatgc tctgctcaaa 660 ggagtctgct ctgctcatgc tgactgggga ggcagagccc tggtccttgc t 711 <210> 15 <211> 1876 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR15 <400> 15 gagtccaaga tcaaggtgcc agcatcttgt gagggccttc ttgttacgtc actccctagc 60 gaaagggcaa agagagggtg agcaagagaa aggggggctg aactcgtcct tgtagaagag 120 gcccattccc gagacaatgg cattcatcca ttcactccac cctcatggcc tcaccacctc 180 tcatgaggct ccacctccca gccctggttt gttggggatt aaatttccaa cacatgcctt 240 ttgggggaca tgttaaaatt atagcacccc aaatgttaca ctatcttttg atgagcggta 300 gttctgattt taagtctagc tggcctactt tttcttgcac gtgggatgct ttctgcctgt 360 tccagggcag gcagctcttc tctgtccctc tgctggcccc acctcatcct ctgttgtcct 420 cttccctcct tctgtgccct ggggtcctgg tgggggtgtg actgtcaact gcgttgggct 480 aacttttttc cctgctggtg gcccgtaatg aaagaaagct tcttgctccc aagttcctta 540 aatccaagct catagacaac gcggtctcac agcaggcctg gggccagcct cacgtgagcc 600 ccttccctgg tgtagtcact ggcatggggg aatgggattt cctgttgccc tactgtgtgg 660 ctgaggtggg ggttgcttcc tggagccagg ccttgtggaa gggcagtgcc cactgcagtg 720 gatgctgggc cctgaatctg accccagtgt tcattggctc tgtgagaccc agtgagggca 780 gggagggaag tggagctggg gtgagaagta gaggccctgc agggcccacg tgccagccac 840 caggcctcag actaggctca gatgacggag agctgcacac ctgcccaacc caggccctgc 900 agtgcccaca tgccagccgc tggggcccag acttgctcca gagggcggag agctttacac 960 cggcccaacc caggccatgg ctccaaatgc gtgacagttt tgctgttgct tcttttagtc 1020 attgtcaagt tgatgcttgt tttgcagagg accaaggctt tatgaaccta ttaccctgtg 1080 tgaagagttt caccaggtta tggaaatttc tttaaaacca taccacagtt ttttcattat 1140 tcatgtatat ttttaaaaat aattactgca ctcagtagaa taacatgaaa atgttgcctg 1200 ttagcccttt tccagtttgc cccgagaata ctgggggcac ttgtggctgc aatgtttatc 1260 ctgcggcagc tttgccatga agtatctcac ttttattatt atttttgcat tgctcgagta 1320 tattgacttt ggaaacaaaa gacatcattc tatttatagc attatgtttt tagtagtggt 1380 atttccatat acaagataca gtaattttcc gtcaatgaaa atgtcaaatt ctagaaaatg 1440 taacattcct atgcgtggtg ttaacatcgt tctctaacag ttgttggccg aagattcgtt 1500 tgatgaatcc gatttttcca aaatagccga ttctgatgat tcagacgatt ctgatgttct 1560 gtttagaaat aattccaaga acagttttta cattttattt tcacattgaa aatcagtcag 1620 atttgcttca gcctcaaaga gcacgtttat gtaaaattaa atgagtgctg gcagccagct 1680 gcgctttgtt tttctaaatg ggaaaagggt taaatttcac tcagctttta aatgacagcg 1740 cacagcctgt gtcatagagg gttggaggag atgactttaa ctgcctgtgg ttaggatccc 1800 tttcccccag gaatgtctgg gagcccactg ccgggtttgc tgtccgtctc gtttggactc 1860 agttctgcat gtactg 1876 <210> 16 <211> 1282 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR16 <400> 16 cgcccacctc ggctttccaa agtgctggga ttacaggcat gagtcactgc gcccatcctg 60 attccaagtc tttagataat aacttaactt tttcgaccaa ttgccaatca ggcaatcttt 120 gaatctgcct atgacctagg acatccctct ccctacaagt tgccccgcgt ttccagacca 180 aaccaatgta catcttacat gtattgattg aagttttaca tctccctaaa acatataaaa 240 ccaagctata gtctgaccac ctcaggcacg tgttctcagg acctccctgg ggctatggca 300 tgggtcctgg tcctcagatt tggctcagaa taaatctctt caaatatttt ccagaatttt 360 actcttttca tcaccattac ctatcaccca taagtcagag ttttccacaa ccccttcctc 420 agattcagta atttgctaga atggccacca aactcaggaa agtattttac ttacaattac 480 caatttatta tgaagaactc aaatcaggaa tagccaaatg gaagaggcat agggaaaggt 540 atggaggaag gggcacaaag cttccatgcc ctgtgtgcac accaccctct cagcatcttc 600 atgtgttcac caactcagaa gctcttcaaa ctttgtcatt taggggtttt tatggcagtt 660 ccactatgta ggcatggttg ataaatcact ggtcatcggt gatagaactc tgtctccagc 720 tcctctctct ctcctcccca gaagtcctga ggtggggctg aaagtttcac aaggttagtt 780 gctctgacaa ccagccccta tcctgaagct attgaggggt cccccaaaag ttaccttagt 840 atggttggaa gaggcttatt atgaataaca aaagatgctc ctatttttac cactagggag 900 catatccaag tcttgcggga acaaagcatg ttactggtag caaattcata caggtagata 960 gcaatctcaa ttcttgcctt ctcagaagaa agaatttgac caagggggca taaggcagag 1020 tgagggacca agataagttt tagagcagga gtgaaagttt attaaaaagt tttaggcagg 1080 aatgaaagaa agtaaagtac atttggaaga gggccaagtg ggcgacatga gagagtcaaa 1140 caccatgccc tgtttgatgt ttggcttggg gtcttatatg atgacatgct tctgagggtt 1200 gcatccttct cccctgattc ttcccttggg gtgggctgtc cgcatgcaca atggcctgcc 1260 agcagtaggg aggggccgca tg 1282 <210> 17 <211> 793 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR17 <400> 17 atccgagggg aggaggagaa gaggaaggcg agcagggcgc cggagcccga ggtgtctgcg 60 agaactgttt taaatggttg gcttgaaaat gtcactagtg ctaagtggct tttcggattg 120 tcttatttat tactttgtca ggtttcctta aggagagggt gtgttggggg tgggggagga 180 ggtggactgg ggaaacctct gcgtttctcc tcctcggctg cacagggtga gtaggaaacg 240 cctcgctgcc acttaacaat ccctctatta gtaaatctac gcggagactc tatgggaagc 300 cgagaaccag tgtcttcttc cagggcagaa gtcacctgtt gggaacggcc cccgggtccc 360 cctgctgggc tttccggctc ttctaggcgg cctgatttct cctcagccct ccacccagcg 420 tccctcaggg acttttcaca cctccccacc cccatttcca ctacagtctc ccagggcaca 480 gcacttcatt gacagccaca cgagccttct cgttctcttc tcctctgttc cttctctttc 540 tcttctcctc tgttccttct ctttctctgt cataatttcc ttggtgcttt cgccacctta 600 aacaaaaaag agaaaaaaat aaaataaaaa aaacccattc tgagccaaag tattttaaga 660 tgaatccaag aaagcgaccc acatagccct ccccacccac ggagtgcgcc aagacgcacc 720 caggctccat cacagggccg agagcagcgc cactctggtc gtacttttgg gtcaagagat 780 cttgcaaaag agg 793 <210> 18 <211> 492 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR18 <400> 18 atctttttgc tctctaaatg tattgatggg ttgtgttttt tttcccacct gctaataaat 60 attacattgc aacattcttc cctcaacttc aaaactgctg aactgaaaca atatgcataa 120 aagaaaatcc tttgcagaag aaaaaaagct attttctccc actgattttg aatggcactt 180 gcggatgcag ttcgcaaatc ctattgccta ttccctcatg aacattgtga aatgaaacct 240 ttggacagtc tgccgcattg cgcatgagac tgcctgcgca aggcaagggt atggttccca 300 aagcacccag tggtaaatcc taacttatta ttcccttaaa attccaatgt aacaacgtgg 360 gccataaaag agtttctgaa caaaacatgt catctttgtg gaaaggtgtt tttcgtaatt 420 aatgatggaa tcatgctcat ttcaaaatgg aggtccacga tttgtggcca gctgatgcct 480 gcaaattatc ct 492 <210> 19 <211> 1840 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 19 <400> 19 tcacttcctg atattttaca ttcaaggcta gctttatgca tatgcaacct gtgcagttgc 60 acagggcttt gtgttcagaa agactagctc ttggtttaat actctgttgt tgccatcttg 120 agattcatta taatataatt tttgaatttg tgttttgaac gtgatgtcca atgggacaat 180 ggaacattca cataacagag gagacaggtc aggtggcagc ctcaattcct tgccaccctt 240 ttcacataca gcattggcaa tgccccatga gcacaaaatt tgggggaacc atgatgctaa 300 gactcaaagc acatataaac atgttacctc tgtgactaaa agaagtggag gtgctgacag 360 cccccagagg ccacagttta tgttcaaacc aaaacttgct tagggtgcag aaagaaggca 420 atggcagggt ctaagaaaca gcccatcata tccttgttta ttcatgttac gtccctgcat 480 gaactaatca cttacactga aaatattgac agaggaggaa atggaaagat agggcaaccc 540 atagttcttt ttccttttag tctttcctta tcagtaaacc aaagatagta ttggtaaaat 600 gtgtgtgagt taattaatga gttagtttta ggcagtgttt ccactgttgg ggtaagaaca 660 aaatatatag gcttgtattg agctattaaa tgtaaattgt ggaatgtcag tgattccaag 720 tatgaattaa atatccttgt atttgcattt aaaattggca ctgaacaaca aagattaaca 780 gtaaaattaa taatgtaaaa gtttaatttt tacttagaat gacattaaat agcaaataaa 840 agcaccatga taaatcaaga gagagactgt ggaaagaagg aaaacgtttt tattttagta 900 tatttaatgg gactttcttc ctgatgtttt gttttgtttt gagagagagg gatgtggggg 960 cagggaggtc tcattttgtt gcccaggctg gacttgaact cctgggctcc agctatcctg 1020 ccttagcttc ttgagtagct gggactacag gcacacacca cagtgtctga cattttctgg 1080 attttttttt tttttttatt ttttttgtga gacaggttct ggctctgtta ctcaggttgc 1140 agtgcagtgg catgatagcg gctcactgca gcctcaacct cctcagctta agctactctc 1200 ccacttcagc ctcctgagta gccaggacta cagttgtgtg ccaccacacc tgtggctaat 1260 ttttgtagag atggggtctc tccacgttgc cgaggctggt ctccaactcc tggtctcaag 1320 cgaacctcct gacttggcct cccgaagtgc tgggattaca ggcttgagcc actgcatcca 1380 gcctgtcctc tgtgttaaac ctactccaat ttgtctttca tctctacata aacggctctt 1440 ttcaaagttc ccatagacct cactgttgct aatctaataa taaattatct gccttttctt 1500 acatggttca tcagtagcag cattagattg ggctgctcaa ttcttcttgg tatattttct 1560 tcatttggct tctggggcat cacactctct ttgagttact cattcctcat tgatagcttc 1620 ttcctagtct tctttactgg ttcttcctct tctccctgac tccttaatat tgtttttctc 1680 cccaggcttt agttcttagt cctcttctgt tatctattta cacccaattc tttcagagtc 1740 tcatccagag tcatgaactt aaacctgttt ctgtgcagat aattcacatt attatatctc 1800 cagcccagac tctcccgcaa actgcagact gatcctactg 1840 <210> 20 <211> 780 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR20 <400> 20 gatctcaagt ttcaatatca tgttttggca aaacattcga tgctcccaca tccttaccta 60 aagctaccag aaaggctttg ggaactgtca acagagctac agaaaagtca gtaaagacca 120 atggacccct caaacaaaaa cagccaagct tttctgccaa aaagatgact gagaagactg 180 ttaaagcaaa aaactctgtt cctgcctcag atgatggcta tccagaaata gaaaaattat 240 ttcccttcaa tcctctaggc ttcgagagtt ttgacctgcc tgaagagcac cagattgcac 300 atctcccctt gagtgaagtg cctctcatga tacttgatga ggagagagag cttgaaaagc 360 tgtttcagct gggcccccct tcacctttga agatgccctc tccaccatgg aaatccaatc 420 tgttgcagtc tcctttaagc attctgttga ccctggatgt tgaattgcca cctgtttgct 480 ctgacataga tatttaaatt tcttagtgct ttagagtttg tgtatatttc tattaataaa 540 gcattatttg tttaacagaa aaaaagatat atacttaaat cctaaaataa aataaccatt 600 aaaaggaaaa acaggagtta taactaataa gggaacaaag gacataaaat gggataataa 660 tgcttaatcc aaaataaagc agaaaatgaa gaaaaatgaa atgaagaaca gataaataga 720 aaacaaatag caatatgaaa gacaaacttg accgggtgtg gtggctgatg cctgtaatcc 780 <210> 21 <211> 607 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR21 <400> 21 gatcaataat ttgtaatagt cagtgaatac aaaggggtat atactaaatg ctacagaaat 60 tccattcctg ggtataaatc ctagacatat ttatgcatat gtacaccaag atatatctgc 120 aagaatgttc acagcaaatc tctttgtagt agcaaaaggc caaaaggtct atcaacaaga 180 aaattaatac attgtggcac ataatggcat ccttatgcca ataaaaatgg atgaaattat 240 agttaggttc aaaaggcaag cctccagata atttatatca tataattcca tgtacaacat 300 tcaacaacaa gcaaaactaa acatatacaa atgtcaggga aaatgatgaa caaggttaga 360 aaatgattaa tataaaaata ctgcacagtg ataacattta atgagaaaaa aagaaggaag 420 ggcttaggga gggacctaca gggaactcca aagttcatgg taagtactaa atacataatc 480 aaagcactca aaatagaaaa tattttagta atgttttagc tagttaatat cttacttaaa 540 acaaggtcta ggccaggcac ggtggctcac acctgtaatc ccagcacttt gggaggctga 600 ggcgggt 607 <210> 22 <211> 1380 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR22 <400> 22 cccttgtgat ccacccgcct tggcctccca aagtgctggg attacaggcg tgagtcacta 60 cgcccggcca ccctccctgt atattatttc taagtatact attatgttaa aaaaagttta 120 aaaatattga tttaatgaat tcccagaaac taggatttta catgtcacgt tttcttatta 180 taaaaataaa aatcaacaat aaatatatgg taaaagtaaa aagaaaaaca aaaacaaaaa 240 gtgaaaaaaa taaacaacac tcctgtcaaa aaacaacagt tgtgataaaa cttaagtgcc 300 tgaaaattta gaaacatcct tctaaagaag ttctgaataa aataaggaat aaaataatca 360 catagttttg gtcattggtt ctgtttatgt gatggattat gtttattgat ttgtgtatgt 420 tgaacttatc tcaatagatg cagacaaggc cttgataaaa gtttttaaca ccttttcatg 480 ttgaaaactc tcaatagact aggtattgat gaaacatatc tcaaaataat agaagctatt 540 tatgataaac ccatagccaa tatcatactg agtgggcaaa agctggaagc attccctttg 600 aaaactggca caagacaagg atgccctctc tcaccactcc tattaaatgt agtattggaa 660 gttctggcca gagcaatcag gcaggagaaa gaaaaggtat taaaatagga agagaggaag 720 tcaaattgtc tctgtttgca gtaaacatga ttgtatattt agaaaacccc attgtctcat 780 cctaaaaact ccttaagctg ataaacaact tcagcaaagt ctcaggatac aaaatcaatg 840 tgcaaaaatc acaagcattc ctatacaccg ataatagaca gcagagagcc aaatcatgag 900 tgaagtccca ttcacaattg cttcaaagaa aataaaatac ttaggaatac aactttcacg 960 ggacatgaag gacattttca aggacaacta aaaaccactg ctcaaggaaa tgagagagga 1020 cacaaagaaa tggaaaaaca ttccatgctc atggaagaat caatatcatg aaaatggcca 1080 tactgcccaa agtaatttat agattcaatg ctaaccccat caagccacca ttgactttct 1140 tcacagaact agaaaaaaac tattttaaaa ctcatatgta gtcaaaaaga gtcggtatag 1200 ccaagacaat cctaagcata aagaacaaag ctggatgcat cacgctgact tcaaaccata 1260 ctacaaggct acagtaacca aaacagcatg gtactggtac caaaacagat agatagaccg 1320 atagaacaga acagaggcct cggaaataac accacacatc tacaaccctt tgatcttcaa 1380 <210> 23 <211> 1246 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR23 <400> 23 atcccctcat ccttcagggc agctgagcag ggcctcgagc agctggggga gcctcactta 60 atgctcctgg gagggcagcc agggagcatg gggtctgcag gcatggtcca gggtcctgca 120 ggcggcacgc accatgtgca gccgccccca cctgttgctc tgcctccgcc acctggccat 180 gggcttcagc agccagccac aaagtctgca gctgctgtac atggacaaga agcccacaag 240 cagctagagg accttgtgtt ccacgtgccc agggagcatg gcccacagcc caaagaccag 300 tcaggagcag gcaggggctt ctggcaggcc cagctctacc tctgtcttca cacagatggg 360 agatttctgt tgtgattttg agtgatgtgc ccctttggtg acatccaaga tagttgctga 420 agcaccgctc taacaatgtg tgtgtattct gaaaacgaga acttctttat tctgaaataa 480 ttgatgcaaa ataaattagt ttggatttga aattctattc atgtaggcat gcacacaaaa 540 gtccaacatt gcatatgaca caaagaaaag aaaaagcttg cattccttaa atacaaatat 600 ctgttaacta tatttgcaaa tatatttgaa tacacttcta ttatgttaca tataatatta 660 tatgtatatg tatatataat atacatatat atgttacata taatatactt ctattatgtt 720 acatataata tttatctata agtaaataca taaatataaa gatttgagta gctgtagaac 780 attgtcttat gtgttatcag ctactactac aaaaatatct cttccactta tgccagtttg 840 ccatataaat atgatcttct cattgatggc ccagggcaag agtgcagtgg gtacttattc 900 tctgtgagga gggaggagaa aagggaacaa ggagaaagtc acaaagggaa aactctggtg 960 ttgccaaaat gtcaagtttc acatattccg agacggaaaa tgacatgtcc cacagaagga 1020 ccctgcccag ctaatgtgtc acagatatct caggaagctt aaatgatttt tttaaaagaa 1080 aagagatggc attgtcactt gtttcttgta gctgaggctg tgggatgatg cagatttctg 1140 gaaggcaaag agctcctgct ttttccacac cgagggactt tcaggaatga ggccagggtg 1200 ctgagcacta caccaggaaa tccctggaga gtgtttttct tactta 1246 <210> 24 <211> 939 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR24 <400> 24 acgaggtcac gagttcgaga ccagcctggc caagatggtg aagccctgtc tctactaaaa 60 atacaacaag tagccgggcg cggtgacggg cgcctgtaat cccagctact caggaggctg 120 aagcaggaga atctctagaa cccaggaggc ggaggtgcag tgagctgaga ctgccccgct 180 gcactctagc ctgggcaaca cagcaagact ctgtctcaaa taaataaata aataaataaa 240 taaataaata aataaataaa tagaaaggga gagttggaag tagatgaaag agaagaaaag 300 aaatcctaga tttcctatct gaaggcacca tgaagatgaa ggccacctct tctgggccag 360 gtcctcccgt tgcaggtgaa ccgagttctg gcctccattg gagaccaaag gagatgactt 420 tggcctggct cctagtgagg aagccatgcc tagtcctgtt ctgtttgggc ttgatcctgt 480 atcacttgat tgtctctcct ggactttcca tggattccag ggatgcaact gagaagttta 540 tttttaatgc acttacttga agtaagagtt attttaaaac attttagcaa aggaaatgaa 600 ttctgacagg ttttgcactg aagacattca catgtgagga aaacaggaaa accactatgc 660 tagaaaaagc aaatgctgtt gagattgtct cacaaacaca aattgcgtgc cagcaggtag 720 gtttgagcct caggttgggc acattttacc ttaagcgcac tgttggtgga acttaaggtg 780 actgtaggac ttatatatac atacatacat ataatatata tacatattta tgtgtatata 840 cacacacaca cacacacaca cacacagggt cttgctatct tgcccagggt ggtctccaac 900 tctgggtctc aagcgatcct ctgcctcccc ttcccaaag 939 <210> 25 <211> 1067 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR25 <400> 25 cagcccctct tgtgtttttc tttatttctc gtacacacac gcagttttaa gggtgatgtg 60 tgtataatta aaaggaccct tggcccatac tttcctaatt ctttagggac tgggattggg 120 tttgactgaa atatgttttg gtggggatgg gacggtggac ttccattctc cctaaactgg 180 agttttggtc ggtaatcaaa actaaaagaa acctctggga gactggaaac ctgattggag 240 cactgaggaa caagggaatg aaaaggcaga ctctctgaac gtttgatgaa atggactctt 300 gtgaaaatta acagtgaata ttcactgttg cactgtacga agtctctgaa atgtaattaa 360 aagtttttat tgagcccccg agctttggct tgcgcgtatt tttccggtcg cggacatccc 420 accgcgcaga gcctcgcctc cccgctgccc tcagcctccg atgacttccc cgcccccgcc 480 ctgctcggtg acagacgttc tactgcttcc aatcggaggc acccttcgcg ggagcggcca 540 atcgggagct ccggcaggcg gggaggccgg gccagttaga tttggaggtt caacttcaac 600 atggccgaag caagtagcgc caatctaggc agcggctgtg aggaaaaaag gcatgagggg 660 tcgtcttcgg aatctgtgcc acccggcact accatttcga gggtgaagct cctcgacacc 720 atggtggaca cttttcttca gaagctggtc gccgccggca ggtaaagtgg acgcagccgc 780 ggtgggagtg tttgttggca ccgaagctca aatcccgcga ggtcaggacg gccgcaggct 840 ggcgcgcggt gacgtgggtc cgcgttgggg gcggggcagt cggacgaggc gacccagtca 900 aatcctgagc cttaggagtc agggtattca cgcactgata acctgtagcg gaccgggata 960 gctagctact ccttcctaca ggaagccccg ttttcactaa aatttcaggt ggttgggagg 1020 aaagatagag cctttgcaaa ttagagcagg gttttttatt tttttat 1067 <210> 26 <211> 540 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR26 <400> 26 ccccctgaca agccccagtg tgtgatgttc cccactctgt gtccatgcat tctcattgtt 60 caactcccat ctgtgagtga gaacatgcag tgtttggttt tctgtccttg agatagtttg 120 ctgagaatga tggtttccag cttcatccat gtccttgcaa aggaagtgaa cttatccttt 180 tttatggctt catagtattc catggcacat atgtgccaca tttttttaat ccagtctatc 240 attgatggac atttgggttg gttccaagtc tttgctattg tgaatagcac cacaattaac 300 atatgtgtgc atgtatacat ctttatagta gcatgattta taatccttcg ggtatatacc 360 ctgtaatggg atcgctgggt caaatggtat ttctagttct agatccttga ggaatcacca 420 cactgctttc cacaatggtt gaactaattt acgctcccac cagcagtgta aaagcattcc 480 tatttctcca cgtcctctcc agtatctgtt gtttcctgac tttttaatga tcatcattct 540 <210> 27 <211> 1520 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR27 <400> 27 cttggccctc acaaagcctg tggccaggga acaattagcg agctgcttat tttgctttgt 60 atccccaatg ctgggcataa tgcctgccat tatgagtaat gccggtagaa gtatgtgttc 120 aaggaccaaa gttgataaat accaaagaat ccagagaagg gagagaacat tgagtagagg 180 atagtgacag aagagatggg aacttctgac aagagttgtg aagatgtact aggcaggggg 240 aacagcttaa ggagagtcac acaggaccga gctcttgtca agccggctgc catggaggct 300 gggtggggcc atggtagctt tcccttcctt ctcaggttca gagtgtcagc cttgaacttc 360 taattcccag aggcatttat tcaatgtttt cttctagggg catacctgcc ctgctgtgga 420 agactttctt ccctgtgggt cgccccagtc cccagatgag acggtttggg tcagggccag 480 gtgcaccgtt gggtgtgtgc ttatgtctga tgacagttag ttactcagtc attagtcatt 540 gagggaggtg tggtaaagat ggagatgctg ggtcacatcc ctagagaggt gttccagtat 600 gggcacatgg gagggctgga aggataggtt actgctagac gtagagaagc cacatccttt 660 aacaccctgg cttttcccac tgccaagatc cagaaagtcc ttgtggtttc gctgctttct 720 cctttttttt tttttttttt tttctgagat ggagtctggc tctgtcgccc aggctggagt 780 gcagtggcac gatttcggct cactgcaagt tccgcctcct aggttcatac cattctccca 840 cctcagcctc ccgagtagct gggactacag gcgccaccac acccagctaa ttttttgtat 900 ttttagtaga gacggcgttt caccatgtta gccaggatgg tcttgatccg cctgcctcag 960 cctcccaaag tgctgggatt acaggcgtga gccaccgcgc ccggcctgct ttcttctttc 1020 atgaagcatt cagctggtga aaaagctcag ccaggctggt ctggaactct tgacctcaag 1080 tgatctgcct gcctcagcct cccaaagtgc tgagattaca ggcatgagcc agtccgaatg 1140 tggctttttt tgttttgttt tgaaacaagg tctcactgtt gcccaggctg cagtgcagtg 1200 gcatacctca gctccactgc agcctcgacc tcctgggctc aagcaatcct cccaactgag 1260 cctccccagt agctggggct acaagcgcat gccaccacgc ctggctattt tttttttttt 1320 tttttttttt gagaaggagt ttcattcttg ttgcccaggc tggagtgcaa tggcacagtc 1380 tcagctcact gcagcctccg cctcctgggt tcaagcgatt ctcctgcctc agcctcccga 1440 gtagctggga ttataggcac ctgccaccat gcctggctaa tttttttgta tttttagtag 1500 ggatggggtt tcaccatgtt 1520 <210> 28 <211> 961 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR28 <400> 28 aggaggttat tcctgagcaa atggccagcc tagtgaactg gataaatgcc catgtaagat 60 ctgtttaccc tgagaagggc atttcctaac tctccctata aaatgccaag tggagcaccc 120 cagatgaaat agctgatatg ctttctatac aagccatcta ggactggctt tatcatgacc 180 aggatattca cccactgaat atggctatta cccaagttat ggtaaatgct gtagttaagg 240 gggtcccttc cacatggaca ccccaggtta taaccagaaa gggttcccaa tctagactcc 300 aagagagggt tcttagacct catgcaagaa agaacttggg gcaagtacat aaagtgaaag 360 caagtttatt aagaaagtaa agaaacaaaa aaatggctac tccataagca aagttatttc 420 tcacttatat gattaataag agatggatta ttcatgagtt ttctgggaaa ggggtgggca 480 attcctggaa ctgagggttc ctcccacttt tagaccatat agggtatctt cctgatattg 540 ccatggcatt tgtaaactgt catggcactg atgggagtgt cttttagcat tctaatgcat 600 tataattagc atataatgag cagtgaggat gaccagaggt cacttctgtt gccatattgg 660 tttcagtggg gtttggttgg cttttttttt tttttaacca caacctgttt tttatttatt 720 tatttattta tttatttatt tatatttttt attttttttt agatggagtc ttgctctgtc 780 acccaggtta gagtgcagtg gcaccatctc ggctcactgc aagctctgcc tccttggttc 840 acgccattct gctgcctcag cctcccgagt agctgggact acaggtgcct gccaccatac 900 ccggctaatt ttttctattt ttcagtagag acggggtttc accgtgttag ccaggatggt 960 c 961 <210> 29 <211> 2233 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR29 <400> 29 agcttggaca cttgctgatg ccactttgga tgttgaaggg ccgccctctc ccacaccgct 60 ggccactttt aaatatgtcc cctctgccca gaagggcccc agaggagggg ctggtgaggg 120 tgacaggagt tgactgctct cacagcaggg ggttccggag ggaccttttc tccccattgg 180 gcagcataga aggacctaga agggccccct ccaagcccag ctgggcgtgc agggccagcg 240 attcgatgcc ttcccctgac tcaggtggcg ctgtcctaaa ggtgtgtgtg ttttctgttc 300 gccagggggt ggcggataca gtggagcatc gtgcccgaag tgtctgagcc cgtggtaagt 360 ccctggaggg tgcacggtct cctccgactg tctccatcac gtcaggcctc acagcctgta 420 ggcaccgctc ggggaagcct ctggatgagg ccatgtggtc atccccctgg agtcctggcc 480 tggcctgaag aggaggggag gaggaggcca gcccctccct agccccaagg cctgcgaggc 540 tgcaagcccg gccccacatt ctagtccagg cttggctgtg caagaagcag attgcctggc 600 cctggccagg cttcccagct aggatgtggt atggcagggg tgggggacat tgaggggctg 660 ctgtagcccc cacaacctcc ccaggtaggg tggtgaacag taggctggac aagtggacct 720 gttcccatct gagattcaag agcccacctc tcggaggttg cagtgagccg agatccctcc 780 actgcactcc agcctgggca acagagcaag actctgtctc aaaaaaacag aacaacgaca 840 acaaaaaacc cacctctggc ccactgccta actttgtaaa taaagtttta ttggcacata 900 gacacaccca ttcatttaca tactgctgcg gctgcttttg cattaccctt gagtagacga 960 cagaccacgt ggccatggaa gccaaaaata tttactgtct ggccctttac agaagtctgc 1020 tctagaggga gaccccggcc catggggcag gaccactggg cgtgggcaga agggaggcct 1080 cggtgcctcc acgggcctag ttgggtatct cagtgcctgt ttcttgcatg gagcaccagg 1140 ggtcagggca agtacctgga ggaggcaggc tgttgcccgc ccagcactgg gacccaggag 1200 accttgagag gctcttaacg aatgggagac aagcaggacc agggctccca ttggctgggc 1260 ctcagtttcc ctgcctgtaa gtgagggagg gcagctgtga aggtgaactg tgaggcagag 1320 cctctgctca gccattgcag gggcggctct gccccactcc tgttgtgcac ccagagtgag 1380 gggcacgggg tgagatgtca ccatcagccc ataggggtgt cctcctggtg ccaggtcccc 1440 aagggatgtc ccatcccccc tggctgtgtg gggacagcag agtccctggg gctgggaggg 1500 ctccacactg ttttgtcagt ggtttttctg aactgttaaa tttcagtgga aaattctctt 1560 tcccctttta ctgaaggaac ctccaaagga agacctgact gtgtctgaga agttccagct 1620 ggtgctggac gtcgcccaga aagcccaggt actgccacgg gcgccggcca ggggtgtgtc 1680 tgcgccagcc atgggcacca gccaggggtg tgtctacgcc ggccaggggt aggtctccgc 1740 cggcctccgc tgctgcctgg ggagggccgt gcctgacact gcaggcccgg tttgtccgcg 1800 gtcagctgac ttgtagtcac cctgcccttg gatggtcgtt acagcaactc tggtggttgg 1860 ggaaggggcc tcctgattca gcctctgcgg acggtgcgcg agggtggagc tcccctccct 1920 ccccaccgcc cctggccagg gttgaacgcc cctgggaagg actcaggccc gggtctgctg 1980 ttgctgtgag cgtggccacc tctgccctag accagagctg ggccttcccc ggcctaggag 2040 cagccgggca ggaccacagg gctccgagtg acctcagggc tgcccgacct ggaggccctc 2100 ctggcgtcgc ggtgtgactg acagcccagg agcgggggct gttgtaattg ctgtttctcc 2160 ttcacacaga accttttcgg gaagatggct gacatcctgg agaagatcaa gaagtaagtc 2220 ccgcccccca ccc 2233 <210> 30 <211> 1851 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR30 <400> 30 gggtgcattt ccacccaggg gacacttggc aatggtggga gacattgctt gttgtcacaa 60 ctgggcatgg gagtgctgct gcgtctagtg ggtagaggcc agagatgctc ctaatatcct 120 acaaggcaca gaacagcccc ccacaacaga gaattatcca gcctgaaaat gtccacagtg 180 ctgaggttgg gaaaccctat tctagagcca acaggctgtg aagcttgact catggttcca 240 tcaccaatag ctgcgtgacc ttggtgagtt ccttagctgc tctgtgcctc ggattcatgg 300 taggttttcc ttgttaggtt taaatgagtg aagttataca gagggcctga agtctcatgg 360 tattttacta gagcctcatt gtgttttagt tataattaga aattgggtaa ggtaaggaca 420 cagaagaagc catctgatct gggggcttca cacttagaag tgacctcgga gcaattgtat 480 tggggtggaa agggactaac agccaggagc agagggcaca ttggaattgg ggccagaggg 540 cacagactgc cttgtccatc aggcatagca atggacagag gaaggggaat gactagttat 600 ggctgcaagg ccaagtacag gggacttatt tctcatatct atctatctat ctacctaccg 660 tctatttatc tatcatctat ctacttattt atctatctat ttatgcatgt gtaccaaccg 720 aaagttttag taaatgcaca aactgcgata taatgaaaat ggaaattttc aaaagaagag 780 aaatcacctg ccacctgact accttaacaa atgagtggtt ttcatctctc cttccaggcc 840 tgtcattttt acagtgcttt agtcataaaa caggtcctct attctattgt tttatgtcac 900 atgaaattgt accataagca ttttccatga tgtgactcca ctgtttcatt ttccattttt 960 ttccagaatg aagataacct cattgttttt ttcctgattg taaaaatgct ctgtgctctt 1020 tttttttttt tttaacaatg caggcagtac caaaaagtat gaagaagaat gtaatagttc 1080 ccatttccca tctcactctt taaggccagc attttggtga acatccatcc gaacaaatct 1140 ccacgcgttt atcaatttgt tgacttactc cttcttttat gtaaatatga acatgattta 1200 actgccagtc catttggaac cttaaagtga aggtttttta ttgttggggt ttgctatggt 1260 ctgaatatgt gtgtcccccc aaaatttatg ttgaatccta acgcccaatg cgattaggag 1320 gtggggccat taggaggtga ttaagtcatg aagtcatcag ccctaatgaa tgggatttgt 1380 ggccttgaaa agggacccca gagagctgcc ttgccccttc tgccatgtaa ggacacagtg 1440 aggagctagg aagggggcct cagcagagac caaatgtgat ggtgcctcga tattggactt 1500 cccagcctcc agaatgtgag aaatgaattt ctgttgttta taagtcaccc agtctatagt 1560 attttgttct agcagcccaa acagactaag tcagggttgt tgttttagga agtggggaat 1620 ggggccatgc atgggtgtac gccagaacaa aggaagccag caagtcctga aagatactgg 1680 aaaagggaat agtgggcacg tgcagtgtgt tagtttcctg aggctgctat aacaaagcac 1740 cacaggttgg gtggcttaaa taacagaaat tcattctccc atcattctgg ggaccagacg 1800 tctgaaatca agactcctat gccatgctcc ttctgaaggc tccaggggag g 1851 <210> 31 <211> 1701 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR31 <220> <221> misc_feature (222) (159) .. (1696) <223> n is a, c, g, or t on various positions <400> 31 cacccgcctt ggccccccag agtgctggga ttacaagtgt aaaccaccat tcctggctag 60 atttaatttt ttaaaaaata aagagaagta ggaatagttc attttaggga gagcccctta 120 actgggacag gggcaggaca ggggtgaggc ttcccttant tcaagctcac ctcaaaccca 180 cccaggactg tgtgtcacat tctccaataa aggaaaggtt gctgcccccg cctgtgagtg 240 ctgcagtgga gggtagaggg ccgtgggcag agtgcttcat ggactgctca tcaagaaagg 300 cttcatgaca atcggcccag ctgctgtcat cccacattct acttccagct aggagaaggc 360 ggcttgccca cagtcaccca gccggcaagt gtcacccctg ggttggaccc agagctatga 420 tcctgcccag gggtccagct gagaatcagg cccacgttct aggcagaggg gctcacctac 480 tgggactcca gtagctgtag tgcatggagg catcatggct gcagcagcct ggacctggtc 540 tcacactggc tgtccctgtg ggcaggccat cctcaatgcc aggtcaggcc caagcatgta 600 tcccagacaa tgacaatggg gtggaatcct ctcttgtccc agaagccact cctcactgtt 660 ctacctgagg aaggcagggg catggtggaa tcctgaagcc tgctgtgagg gtctccagcg 720 aacttgcaca tggtcagccc tgccttctcc tccctgaact agattgagcg agagcaagaa 780 ggacattgaa ccagcaccca aagaattttg gggaacggcc tctcatccag gtcaggctca 840 cctccttttt aaaatttaat taattaatta attaattttt ttttagagac agagtcttac 900 tgtgtggccc aggctgtagt gcagtggcac aatcatagtt cactgcagcc tcaaactccc 960 cacctcagcc tctggattag ctgagactac aggtgcacca ccaccacacc cagctaatat 1020 ttttattttt gtagagagag ggtttcacca tcttgcccag gctggtctca aactcctggg 1080 ctcaagtgat cccgcccagg tctgaaagcc cccaggctgg cctcagactg tggggttttc 1140 catgcagcca cccgagggcg cccccaagcc agttcatctc ggagtccagg cctggccctg 1200 ggagacagag tgaaaccagt ggtttttatg aacttaactt agagtttaaa agatttctac 1260 tcgatcactt gtcaagatgc gccctctctg gggagaaggg aacgtgactg gattccctca 1320 ctgttgtatc ttgaataaac gctgctgctt catcctgtgg gggccgtggc cctgtccctg 1380 tgtgggtggg gcctcttcca tttccctgac ttagaaacca cagtccacct agaacagggt 1440 ttgagaggct tagtcagcac tgggtagcgt tttgactcca ttctcggctt tcttcttttt 1500 ctttccagga tttttgtgca gaaatggttc ttttgttgcc gtgttagtcc tccttggaag 1560 gcagctcaga aggcccgtga aatgtcgggg gacaggaccc ccagggaggg aaccccaggc 1620 tacgcacttt agggttcgtt ctccagggag ggcgacctga cccccgnatc cgtcggngcg 1680 cgnngnnacn aannnnttcc c 1701 <210> 32 <211> 771 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR32 <400> 32 gatcacacag cttgtatgtg ggagctagga ttggaacccc agaagtctgg ccccaggttc 60 atgctctcac ccactgcata caatggcctc tcataaatca atccagtata aaacattaga 120 atctgcttta aaaccataga attagtagcg taagtaataa atgcagagac catgcagtga 180 atggcattcc tggaaaaagc ccccagaagg aattttaaat cagctttcgt ctaatcttga 240 gcagctagtt agcaaatatg agaatacagt tgttcccaga taatgcttta tgtctgacca 300 tcttaaactg gcgctgtttt tcaaaaactt aaaaacaaaa tccatgactc ttttaattat 360 aaaagtgata catgtctact tgggaggctg aggtggtggg aggatggctt gagtttgagg 420 ctgcagtatg ctactatcat gcctataaat agccgctgca ttccagcttg ggcaacatac 480 ccaggcccta tctcaaaaaa ataaaaagta atacatctac attgaagaaa attaatttta 540 ttgggttttt ttgcattttt attatacaca gcacacacag cacatatgaa aaaatgggta 600 tgaactcagg cattcaactg gaagaacagt actaaatcaa tgtccatgta gtcagcgtga 660 ctgaggttgg tttgtttttt cttttttctt ctcttctctt ctcttttctt tttttttgag 720 acggagcttt gctctttttg cccaggcttg attgcaatgg cgtgatctca g 771 <210> 33 <211> 1368 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR33 <400> 33 gcttttatcc tccattcaca gctagcctgg cccccagagt acccaattct ccctaaaaaa 60 cggtcatgct gtatagatgt gtgtggcttg gtagtgctaa agtggccaca tacagagctc 120 tgacaccaaa cctcaggacc atgttcatgc cttctcactg agttctggct tgttcgtgac 180 acattatgac attatgatta tgatgacttg tgagagcctc agtcttctat agcactttta 240 gaatgcttta taaaaaccat ggggatgtca ttatattcta acctgttagc acttctgttc 300 gtattaccca tcacatccca acatcaattc tcatatatgc aggtacctct tgtcacgcgc 360 gtccatgtaa ggagaccaca aaacaggctt tgtttgagca acaaggtttt tatttcacct 420 gggtgcaggt gggctgagtc tgaaaagaga gtcagtgaag ggagacaggg gtgggtccac 480 tttataagat ttgggtaggt agtggaaaat tacaatcaaa gggggttgtt ctctggctgg 540 ccagggtggg ggtcacaagg tgctcagtgg gagagccttt gagccaggat gagccagaag 600 gaatttcaca aggtaatgtc atcagttaag gcagggactg gccattttca cttcttttgt 660 ggtggaatgt catcagttaa ggcaggaacc ggccattttc acttcttttg tgattcttca 720 cttgcttcag gccatctgga cgtataggtg caggtcacag tcacagggga taagatggca 780 atggcatagc ttgggctcag aggcctgaca cctctgagaa actaaagatt ataaaaatga 840 tggtcgcttc tattgcaaat ctgtgtttat tgtcaagagg cacttatttg tcaattaaga 900 acccagtggt agaatcgaat gtccgaatgt aaaacaaaat acaaaacctc tgtgtgtgtg 960 tgtgtgtgag tgtgtgtgta tgtgtgtgtg tgtgtattag agaggaaaag cctgtatttg 1020 gaggtgtgat tcttagattc taggttcttt cctgcccacc ccatatgcac ccaccccaca 1080 aaagaacaaa caacaaatcc caggacatct tagcgcaaca tttcagtttg catattttac 1140 atatttactt ttcttacata ttaaaaaact gaaaatttta tgaacacgct aagttagatt 1200 ttaaattaag tttgttttta cactgaaaat aatttaatat ttgtgaagaa tactaataca 1260 ttggtatatt tcattttctt aaaattctga acccctcttc ccttatttcc ttttgacccg 1320 attggtgtat tggtcatgtg actcatggat ttgccttaag gcaggagg 1368 <210> 34 <211> 755 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 34 <400> 34 actgggcacc ctcctaggca ggggaatgtg agaactgccg ctgctctggg gctgggcgcc 60 atgtcacagc aggagggagg acggtgttac accacgtggg aaggactcag ggtggtcagc 120 cacaaagctg ctggtgatga ccaggggctt gtgtcttcac tctgcagccc taacacccag 180 gctgggttcg ctaggctcca tcctgggggt gcagaccctg agagtgatgc cagtgggagc 240 ctcccgcccc tccccttcct cgaaggccca ggggtcaaac agtgtagact cagaggcctg 300 agggcacatg tttatttagc agacaaggtg gggctccatc agcggggtgg cctggggagc 360 agctgcatgg gtggcactgt ggggagggtc tcccagctcc ctcaatggtg ttcgggctgg 420 tgcggcagct ggcggcaccc tggacagagg tggatatgag ggtgatgggt ggggaaatgg 480 gaggcacccg agatggggac agcagaataa agacagcagc agtgctgggg ggcaggggga 540 tgagcaaagg caggcccaag acccccagcc cactgcaccc tggcctccca caagccccct 600 cgcagccgcc cagccacact cactgtgcac tcagccgtcg atacactggt ctgttaggga 660 gaaagtccgt cagaacaggc agctgtgtgt gtgtgtgcgt gtatgagtgt gtgtgtgtga 720 tccctgactg ccaggtcctc tgcactgccc ctggg 755 <210> 35 <211> 1193 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR35 <220> <221> misc_feature <222> (312) .. (1191) <223> n is a, c, g, or t on various positions <400> 35 cgacttggtg atgcgggctc ttttttggtt ccatatgaac tttaaagtag tcttttccaa 60 ttctgtgaag aaagtcattg gtaggttgat ggggatggca ttgaatctgt aaattacctt 120 gggcagtatg gccattttca caatgttgat tcttcctatc catgatgatg gaatgttctt 180 ccattagttt gtatcctctt ttatttcctt gagcagtggt ttgtagttct ccttgaagag 240 gtccttcaca tcccttgtaa gttggattcc taggtatttt attctctttg aagcaaattg 300 tgaatgggag tncactcacg atttggctct ctgtttgtct gctgggtgta taaanaatgt 360 ngtgatnttn gtacattgat ttngtatccn tgagacttng ctgaatttgc ttnatcngct 420 tnngggaacc ttttgggctg aaacnatggg attttctaaa tatacaatca tgtcgtctgc 480 aaacagggaa caatttgact tcctcttttc ctaattgaat acactttatc tccttctcct 540 gcctaattgc cctgggcaaa acttccaaca ctatgntngn aataggagnt ggtgagagag 600 ggcatccctg ttcttgttgc cagnttttca aagggaatgc ttccagtttt ggcccattca 660 gtatgatatg ggctgtgggt ngtgtcataa atagctctta tnattttgaa atgtgtccca 720 tcaataccta atttattgaa agtttttagc atgaangcat ngttgaattt ggtcaaaggc 780 tttttctgca tctatggaaa taatcatgtg gtttttgtct ttggctcntg tttatatgct 840 ggatnacatt tattgatttg tgtatatnga acccagcctn ncatcccagg gatgaagccc 900 acttgatcca agcttggcgc gcngnctagc tcgaggcagg caaaagtatg caaagcatgc 960 atctcaatta gtcagcaccc atagtccgcc cctacctccg cccatccgcc cctaactcng 1020 nccgttcgcc cattctcgcc catggctgac taatnttttt annatccaag cggngccgcc 1080 ctgcttganc attcagagtn nagagnnttg gaggccnagc cttgcaaaac tccggacngn 1140 ttctnnggat tgaccccnnt taaatatttg gttttttgtn ttttcanngg nga 1193 <210> 36 <211> 1712 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR36 <400> 36 gatcccatcc ttagcctcat cgatacctcc tgctcacctg tcagtgcctc tggagtgtgt 60 gtctagccca ggcccatccc ctggaactca ggggactcag gactagtggg catgtacact 120 tggcctcagg ggactcagga ttagtgagcc ccacatgtac acttggcctc agtggactca 180 ggactagtga gccccacatg tacacttggc ctcaggggac tcaggattag tgagccccca 240 catgtacact tggcctcagg ggactcagga ttagtgagcc ccacatgtac acttggcctc 300 aggggactca ggactagtga gccccacatg tacacttggc ctcaggggac tcagaactag 360 tgagccccac atgtacactt ggcttcaggg gactcaggat tagtgagccc cacatgtaca 420 cttggacacg tgaaccacat cgatgtgctg cagagctcag ccctctgcag atgaaatgtg 480 gtcatggcat tccttcacag tggcacccct cgttccctcc ccacctcatc tcccattctt 540 gtctgtcttc agcacctgcc atgtccagcc ggcagattcc accgcagcat cttctgcagc 600 acccccgacc acacacctcc ccagcgcctg cttggccctc cagcccagct cccgcctttc 660 ttccttgggg aagctccctg gacagacacc ccctcctccc agccatggct ttttcctgct 720 ctgccccacg cgggaccctg ccctggatgt gctacaatag acacatcaga tacagtcctt 780 cctcagcagc cggcagaccc agggtggact gctcggggcc tgcctgtgag gtcacacagg 840 tgtcgttaac ttgccatctc agcaactagt gaatatgggc agatgctacc ttccttccgg 900 ttccctggtg agaggtactg gtggatgtcc tgtgttgccg gccacctttt gtccctggat 960 gccatttatt tttttccaca aatatttccc aggtctcttc tgtgtgcaag gtattagggc 1020 tgcagcgggg gccaggccac agatctctgt cctgagaaga cttggattct agtgcaggag 1080 actgaagtgt atcacaccaa tcagtgtaaa ttgttaactg ccacaaggag aaaggccagg 1140 aaggagtggg gcatggtggt gttctagtgt tacaagaaga agccagggag ggcttcctgg 1200 atgaagtggc atctgacctg ggatctggag gaggagaaaa atgtcccaaa agagcagaga 1260 gcccacccta ggctctgcac caggaggcaa cttgctgggc ttatggaatt cagagggcaa 1320 gtgataagca gaaagtcctt gggggccaca attaggattt ctgtcttcta aagggcctct 1380 gccctctgct gtgtgacctt gggcaagtta cttcacctct agtgctttgg ttgcctcatc 1440 tgtaaagtgg tgaggataat gctatcacac tggttgagaa ttgaagtaat tattgctgca 1500 aagggcttat aagggtgtct aatactagta ctagtaggta cttcatgtgt cttgacaatt 1560 ttaatcatta ttattttgtc atcaccgtca ctcttccagg ggactaatgt ccctgctgtt 1620 ctgtccaaat taaacattgt ttatccctgt gggcatctgg cgaggtggct aggaaagcct 1680 ggagctgttt cctgttgacg tgccagacta gt 1712 <210> 37 <211> 1321 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 37 <400> 37 aggatcacat ttaaggaagt gtgtggggtc cctggatgac accagcaccc agtgcggctc 60 tgtctggcaa ccgctcccaa ggtggcagga gtgggtgtcc cctgtgtgtc agtgggcagc 120 tcctgctgag cctacagctc actggggagc ctgacagcgg ggccatgtgc ctgacactcc 180 tctctgcttg tggacctggc aaggcaggga gcagaaaaca gagccacttg aaggctttct 240 gtctgcgtct gtgtgcagtg tggatttagt tgtgcttttt tcttgctggg agagcacagc 300 caccatttac aagcagtgtc accctcatgg gtggcgagga cagaacagga gcctctgctc 360 tctgtaccta tctgggcccg gtgggctccc ttgtcctggc ttccatctct gtctcagcga 420 ccattcagcc ctgcgcagga acacatgttg cttagaaaag ccaaattcag cccttgtctc 480 tgcctcctct ggtctcatga tgtgcatctg ttaccttgaa actggaaacc agtctatcaa 540 tgtctgtgcc aattttttat tccctcccca acctccttcc ccatacgact ttttatttat 600 gtaggatgtg tgctgtctaa tgatgggatg accacatttt tccatgttct aaaagtgctc 660 ctctcccgca gggtcccagg gctggtggtt gctttgggtc tacagctacg tcttacccgc 720 ctcctgcctc aacagcctgt gtggtggcaa agccggtgtg gggctgggga acgcagcgtt 780 ctccaggagg gggacccggc tctccttctg cagtgcaggc gaaggcctag atgccagtgt 840 gacctcccac aaggcgtggc ttccagactc cccggctgga agtgatgctt ttttgcctcc 900 ggccctgggt ttgaagcagc ctggctttct cttggtaagt ggctggtgtc ttagcagctg 960 caatctgagc tcagccacct acacaccacc gtggccgaca ctttcattaa aaagtttcct 1020 gagacgactt gcgtgcatgt tgacttcatg atcagcgccg ctgggaagaa cccctgagcc 1080 ggtggggtgg ggctggaagc agcaggtgca gtgatggggc tgggtgccca ggaggcctca 1140 gtgctcaatc aggccaaggt ggccaagccc aggctgcagg gaaggccggc ctgggggttg 1200 tgggtgagca caggcaggca ccagctgggc agtgttagga tgctggagca gcatccgtaa 1260 ccccactgag tggggtagtc tggttggggc agggaccgct gttgctttgg cagagagaga 1320 t 1321 <210> 38 <211> 1445 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 38 <220> <221> misc_feature (348) (348) .. (949) <223> n is a, c, g, or t on various positions <400> 38 gatctatggg agtagcttcc ttagtgagct ttcccttcaa atactttgca accaggtaga 60 gaattttgga gtgaaggttt tgttcttcgt ttcttcacaa tatggatatg catcttcttt 120 tgaaaatgtt aaagtaaatt acctctcttt tcagatactg tcttcatgcg aacttggtat 180 cctgtttcca tcccagcctt ctataaccca gtaacatctt ttttgaaacc agtgggtgag 240 aaagacacct ggtcaggaac gcggaccaca ggacaactca ggctcaccca cggcatcaga 300 ctaaaggcaa acaaggactc tgtataaagt accggtggca tgtgtatnag tggagatgca 360 gcctgtgctc tgcagacagg gagtcacaca gacacttttc tataatttct taagtgcttt 420 gaatgttcaa gtagaaagtc taacattaaa tttgattgaa caattgtata ttcatggaat 480 attttggaac ggaataccaa aaaatggcaa tagtggttct ttctggatgg aagacaaact 540 tttcttgttt aaaataaatt ttattttata tatttgaggt tgaccacatg accttaagga 600 tacatataga cagtaaactg gttactacag tgaagcaaat taacatatct accatcgtac 660 atagttacat ttttttgtgt gacaggaaca gctaaaatct acgtatttaa caaaaatcct 720 aaagacaata catttttatt aactatagcc ctcatgatgt acattagatc gtgtggttgt 780 ttcttccgtc cccgccacgc cttcctcctg ggatggggat tcattcccta gcaggtgtcg 840 gagaactggc gcccttgcag ggtaggtgcc ccggagcctg aggcgggnac tttaanatca 900 gacgcttggg ggccggctgg gaaaaactgg cggaaaatat tataactgna ctctcaatgc 960 cagctgttgt agaagctcct gggacaagcc gtggaagtcc cctcaggagg cttccgcgat 1020 gtcctaggtg gctgctccgc ccgccacggt catttccatt gactcacacg cgccgcctgg 1080 aggaggaggc tgcgctggac acgccggtgg cgcctttgcc tgggggagcg cagcctggag 1140 ctctggcggc agcgctggga gcggggcctc ggaggctggg cctggggacc caaggttggg 1200 cggggcgcag gaggtgggct cagggttctc cagagaatcc ccatgagctg acccgcaggg 1260 cggccgggcc agtaggcacc gggcccccgc ggtgacctgc ggacccgaag ctggagcagc 1320 cactgcaaat gctgcgctga ccccaaatgc tgtgtccttt aaatgtttta attaagaata 1380 attaataggt ccgggtgtgg aggctcaagc cttaatcccc agcacctggc gaggccgagg 1440 aggga 1445 <210> 39 <211> 2331 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR39 <400> 39 gtgaaataga tcactaaagc tgattcctct tgtctaaatg aaactttcta ccctttgatg 60 gacagctatg ctttccccat cctctcccgt cccccagccc ttggtaacca tcatcctact 120 ctctacttgt aggagttcaa cttgtttaga ttttgtgagt gagaacatgt ggtatttgcc 180 tttagagtcc tctaggttta tccatattgt gttaaatgac aggattccct gcctttttaa 240 ggctgaatag tatttcattg taatatatat acatacacac acacatatac acacacatat 300 atatacatat atacatatat gtacatagat acatatatat gtacatatat acacacacat 360 atacacacat atatacacat atatacatat acatatatac acatatatgt acatatatat 420 aacttttttt catttatcca ttcacttaat acatatgatg gagggcttta tatatgccag 480 gctctgtgat gaatgctgga aattcaatag tgagaaagac tcagtctctg cctccaaaga 540 gcatcatggg ctaggtgctg caacgaggaa ttgccaactg ttgtcatgag agcacagaga 600 agggactcaa ccagccttga agaatcaggg gaggcttcta agctaatggt gtgtgcctgg 660 ggatcacatt gtttcaagca gcagtaacag gatgtgctca ggtccagatg tgagagagag 720 agagagcata tgtcttcaag aaactaacag tagctcccta tagctgaagc aggagtacaa 780 aatagtgagt ttaagtgatg aggcaagaga tatgaagaag cttgaccatg cagctacacc 840 gggcagcatg ccctctgaga catctcatgg aagccggaaa tgggagtgcc ttgataccaa 900 gccagagaaa ttataatact aagtagatag actgagcagc actcctcctg ggaagaatga 960 gacaagccct gaatttggag gtaagttgtg gattggtgat tagaggagag gtaacaggca 1020 ccaaagcaag aaatagtatt gatgcaaagc tgaggttaat tggatgacaa aatgaagagc 1080 ataaggggct cagacacaga ctgagcagaa aacgagtagc atctgaacct agattgagtt 1140 actaatggat gagaaagagt tcttaaagtt gatgaccacg ggatccatat ataagaatgt 1200 ccaatctccc caaattgatc cacgagttca gtgcaatgcc aatcaaaatc ccactaacaa 1260 gtttatttta aaatgtaaat gaaaatacaa aatttttaaa aagcaaagca atattgaaaa 1320 cccaggaaaa attaggagga cttacacaac ctgatctcaa aacttaccat tatcaagaca 1380 gagtgttatt gacacaagga gagacaaata gataaacgga atgtggtagt ctggagatgc 1440 acccacatgt atgtggtcaa ttgatttttg gccaaggcac caagtcaatt caaaggagca 1500 aggaaagtag tacagaaaca accaaatatt gttttggaaa ataatgacaa agggcttata 1560 accagaatat aagcatataa atataattct ttcaaatcaa taataagaag gcaaatatct 1620 aataaaaatg agcaaagact tgaaaagtca cttaaaaagg cttattaatt agaaatatgc 1680 aaatgttatt agtcttcagt ggaatttaca ttaaaccaca agggatacta ttatatctta 1740 tgcccactag aataaccaaa ggaaaaaaga cagacaaaac aaaatgctgg tgaggatgtg 1800 aagcaactgg aactctcata cattattggt ggtaatgtaa aatttataca accattatga 1860 ataaaggttt ggcagtttct tacaaagttg aatgcacttc tccacgatga ctaggctttt 1920 cactcatagg cgtctggctc cctagaactg aaaacatatg ttcacaagaa gacttgcaaa 1980 tatatattct cccacgtcag gagatatttg ctatgcattt aactgacata agattagtgc 2040 tagagtttat aatgaggttc ttcaaatcta aaagaaaatg caaagcatat aatagtaagg 2100 ggtgcaggcc aggcgcagtg gctcactctg taatcccagc actttgggag gccgaggtgg 2160 gcggatcaca aggtcaggag ttcgagacca acctggccaa catagtgaaa ccctgtctct 2220 actaaaaata caaaaactag ccaggtgcgg tgtcatgcac ctgtagtccc agctactcgg 2280 gaggccgagg caggagaatc acttgaacct gggaggtgga ggttgcagtg a 2331 <210> 40 <211> 1071 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR40 <400> 40 gctgtgattc aaactgtcag cgagataagg cagcagatca agaaagcact ccgggctcca 60 gaaggagcct tccaggccag ctttgagcat aagctgctga tgagcagtga gtgtcttgag 120 tagtgttcag ggcagcatgt taccattcat gcttgacttc tagccagtgt gacgagaggc 180 tggagtcagg tctctagaga gttgagcagc tccagcctta gatctcccag tcttatgcgg 240 tgtgcccatt cgctttgtgt ctgcagtccc ctggccacac ccagtaacag ttctgggatc 300 tatgggagta gcttccttag tgagctttcc cttcaaatac tttgcaacca ggtagagaat 360 tttggagtga aggttttgtt cttcgtttct tcacaatatg gatatgcatc ttcttttgaa 420 aatgttaaag taaattacct ctcttttcag atactgtctt catgcgaact tggtatcctg 480 tttccatccc agccttctat aacccagtaa catctttttt gaaaccagtg ggtgagaaag 540 acacctggtc aggaacgcgg accacaggac aactcaggct cacccacggc atcagactaa 600 aggcaaacaa ggactctgta taaagtaccg gtggcatgtg tattagtgga gatgcagcct 660 gtgctctgca gacagggagt cacacagaca cttttctata atttcttaag tgctttgaat 720 gttcaagtag aaagtctaac attaaatttg attgaacaat tgtatattca tggaatattt 780 tggaacggaa taccaaaaaa tggcaatagt ggttctttct ggatggaaga caaacttttc 840 ttgtttaaaa taaattttat tttatatatt tgaggttgac cacatgacct taaggataca 900 tatagacagt aaactggtta ctacagtgaa gcaaattaac atatctacca tcgtacatag 960 ttacattttt ttgtgtgaca ggaacagcta aaatctacgt atttaacaaa aatcctaaag 1020 acaatacatt tttattaact atagccctca tgatgtacat tagatctcta a 1071 <210> 41 <211> 1135 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 41 <400> 41 cgtgtgcagt ccacggagag tgtgttctcc tcatcctcgt tccggtggtt gtggcgggaa 60 acgtggcgct gcaggacacc aacatcagtc acgtatttca ttctggaaaa aaaagtagca 120 caagcctcgg ctggttccct ccagctctta ccaggcagcc taagcctagg ctccattccc 180 gctcaaggcc ttcctcaggg gcctgctcac cacaggagct gttcccatgc agggactaag 240 gacatgcagc ctgcatagaa accaagcacc caggaaaaca tgattggatg gagcgggggg 300 gtgtggtctc tagccttgtc cacctccggt cctcatgggt ctcacacctc ctgagaatgg 360 gcaccgcaga ggccacagcc catacagcca agatgacaga ctccgtaagt gacagggatc 420 cacagcagag tgggtgaaat gttccctata aactttacaa aattaatgag ggcaggggga 480 ggggagaaat gaaaatgaac ccagctcgca gcacatcagc atcagtcact aggtcggcgt 540 gctctctgac tgcttcctcg tagctgcttg gtgtctcatt gcctcagaag catgtagacc 600 ctgtcacaag attgtagttc ccctaactgc tccgtagatc acaacttgaa ccttaggaaa 660 tgctgttttc cctttgagat attcctttgg gtcctgtata ctgatggagc tactgactga 720 gctgctccga aggaccccac gaggagctga ctaaaccaag agtgcagttt gtacaccctg 780 atgattacat cccccttgcc ccaccaatca actctcccaa ttttccagcc cctcaccctc 840 cagtcccctt aaaagcccca gcccaggccg ggcacagtgg ctcatgcctg taatcccagc 900 actttgggag gccaaggtgg gcagatcacc tgagggcagg aatttgagac cagcctgacc 960 aacatgaaga aaccccgtct ctattacaaa tacaaaatta gccgggcgtg ttgctgcata 1020 ctggtaatcc cagctacttg ggagggtgag gcaggagaat cacttgaatc tgggaggcgg 1080 aggttgcgat gagccgagac agcgccattg cactgcagcc tgggcaacaa gagca 1135 <210> 42 <211> 735 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR42 <400> 42 aagggtgaga tcactaggga gggaggaagg agctataaaa gaaagaggtc actcatcaca 60 tcttacacac tttttaaaac cttggttttt taatgtccgt gttcctcatt agcagtaagc 120 cctgtggaag caggagtctt tctcattgac caccatgaca agaccctatt tatgaaacat 180 aatagacaca caaatgttta tcggatattt attgaaatat aggaattttt cccctcacac 240 ctcatgacca cattctggta cattgtatga atgaatatac cataatttta cctatggctg 300 tatatttagg tcttttcgtg caggctataa aaatatgtat gggccggtca cagtgactta 360 cgcccgtagt cccagaactt tgggaggccg aggcgggtgg atcacctgag gtcgggagtt 420 caaaaccagc ctgaccaaca tggagaaacc ccgtctctgc taaaaataca aaaattaact 480 ggacacggtg gcgtatgcct gtaatcccag ctactcggga agctgaggca ggagaactgc 540 ttgaacccag gaggcggagg ttgtggtgag tcgagattgc gccattgcac tccagcctgg 600 gcaacaagag cgaaattcca tctcaaaaaa aagaaaaaag tatgactgta tttagagtag 660 tatgtggatt tgaaaaatta ataagtgttg ccaacttacc ttagggttta taccatttat 720 gagggtgtcg gtttc 735 <210> 43 <211> 1227 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR43 <400> 43 caaatagatc tacacaaaac aagataatgt ctgcccattt ttccaaagat aatgtggtga 60 agtgggtaga gagaaatgca tccattctcc ccacccaacc tctgctaaat tgtccatgtc 120 acagtactga gaccaggggg cttattccca gcgggcagaa tgtgcaccaa gcacctcttg 180 tctcaatttg cagtctaggc cctgctattt gatggtgtga aggcttgcac ctggcatgga 240 aggtccgttt tgtacttctt gctttagcag ttcaaagagc agggagagct gcgagggcct 300 ctgcagcttc agatggatgt ggtcagcttg ttggaggcgc cttctgtggt ccattatctc 360 cagcccccct gcggtgttgc tgtttgcttg gcttgtctgg ctctccatgc cttgttggct 420 ccaaaatgtc atcatgctgc accccaggaa gaatgtgcag gcccatctct tttatgtgct 480 ttgggctatt ttgattcccc gttgggtata ttccctaggt aagacccaga agacacagga 540 ggtagttgct ttgggagagt ttggacctat gggtatgagg taatagacac agtatcttct 600 ctttcatttg gtgagactgt tagctctggc cgcggactga attccacaca gctcacttgg 660 gaaaacttta ttccaaaaca tagtcacatt gaacattgtg gagaatgagg gacagagaag 720 aggccctaga tttgtacatc tgggtgttat gtctataaat agaatgcttt ggtggtcaac 780 tagacttgtt catgttgaca tttagtcttg ccttttcggt ggtgatttaa aaattatgta 840 tatcttgttt ggaatatagt ggagctatgg tgtggcattt tcatctggct ttttgtttag 900 ctcagcccgt cctgttatgg gcagccttga agctcagtag ctaatgaaga ggtatcctca 960 ctccctccag agagcggtcc cctcacggct cattgagagt ttgtcagcac cttgaaatga 1020 gtttaaactt gtttattttt aaaacattct tggttatgaa tgtgcctata ttgaattact 1080 gaacaacctt atggttgtga agaattgatt tggtgctaag gtgtataaat ttcaggacca 1140 gtgtctctga agagttcatt tagcatgaag tcagcctgtg gcaggttggg tggagccagg 1200 gaacaatgga gaagctttca tgggtgg 1227 <210> 44 <211> 1586 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR44 <400> 44 cacctgcctc agcctcccaa agtgctgaga ttcaaagaaa ttttcatgga gaggggacag 60 atggagtcaa ttcttgtggg gtgaacatga gtaccacagt tagactgagg ttgggaaaga 120 ttttccagac aattggaaga gcatgtgaaa gacacagatt ttgagaaatg ttaagtctag 180 ggaactgcaa ggcttttggc acaagaaagc cactgtagac tatagaggca ggatgcctag 240 attcaaatcc caactgctac acttctaagc tttgtaattt tggcaagttt ttaccctcta 300 ttttcttatc tataaaatat agattttata tatatagata tagatatata gatagataat 360 aattgtgcat gcctaataaa gttgtcaaag attaaatgtt atatgtgaag tattttgtac 420 ggtgatagga acccaggaag ggctctatga atattatgta ttattattat tctaaagtag 480 ctggaataca atgttcaaag gagatagtgg caggagataa gtttgaattg aaagattgag 540 gccagaacat aaagtgcctc ctatattata ttttacataa ttggaacatc attgaaaaat 600 ttaagtatta tttatgtgtg tatgtgtgtt ttatataatt aattctagtt catcatttta 660 aaatatcttt ctgatgtcac tgtgaacaac agatgagaag aagtgaatcc tgagttaagg 720 agaccagctc tctgattact gccataatcc agggagggta ccataaggat ttcaactgga 780 agtgaatcca tcatgatgga gaggaaggac agggctgaaa aatacttagg aagtagtatc 840 agtaggactg gttaagagag agcagaggca ggctacaggg gttggaggtg tcaatcacag 900 agatagggaa aatgggagga gaagcaggct ttgaaaaagt ggcttgtctt gtaaaattat 960 gtgctgttaa aacagtacaa gaaattaata tattcaatcc caaaatacag ggacaattct 1020 ttttgaaaga gttacccaga tagtcttcct tgaagttttc agttaaagaa atttcttgtt 1080 aacaaataat gtagtcatag aagaaaacac ttaaaacttt attgaataaa gctaataaat 1140 catttaatat aatttatagg aaattgttac ataacacaca cattcaatac tttttgctaa 1200 agtataaatt aatggaagga gagcacgcac acagaggttg aattatgttt atgactttat 1260 tagtcaagaa tacaaaattg agtagctaca tcaagcagaa gcacatgctt tacaatccag 1320 cacagaatcc cttgacatcc aaactcccga aacagacatg taaatacaga tgacattgtc 1380 agaacaaaat agggtctcac ccgacctata atgttctttt cttgatataa atatgcacat 1440 gaattgcata cggtcatatg gttccaatta ccattatttc ctctgggctt agctatccat 1500 ctaaggggaa tttacaccaa cactgtactt ctacttgcaa gaatatatga aagcatagtt 1560 aacttctggc ttaggacccc aactca 1586 <210> 45 <211> 1981 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR45 <400> 45 atggatcata gggtaaataa atttataatt tcttgagaaa gcttcgtact gttttccaag 60 atggctgtac taatttccat tcctaccaac agtgtacagg gtttcttttt ctccacatcc 120 tcaccaacac ttatcttcca tcttttttta taatagccct agtaaaatgt gtgaggtgat 180 atctcattgt ggcattgatt tgcacttctc tgataattag gaatgtttat gattttttca 240 tgtacctggt tggccttttg tatgatgtag gaaatgtcta ttctgattct ttgcttattt 300 tttaataagc atagtttttt tcttattttt gagtaggttg agttgcttat atattattat 360 atgagcccct tacctgatgt atggtttaaa aatattatcc catttgtggg ttctcttaat 420 tctatcattg cttcttttcc tgtggaaaag ttttaagttt tatgcagtct catttgtgtg 480 ttttgctttt gttgcctttt ggaataatct acagaaaatc atagctcagg ccaatgtcat 540 acagtctcct tctatatttc cttgtagtag ttttacattt aaactttaat tttgatttga 600 tgcttgtata aagagcaaaa taaaagtcaa attttattct tctgtatgtg gatagtcagt 660 tttgtctaca ccatttattg aaaataattt tctttcttca ctgtgtattt ttagttattt 720 tatcaaaaaa tcaattgacc acagacacac ggatttattt acaggttcta tatccctttg 780 tactgtttta catgtctgtt tttatgccat tgctatgctg ttttaattcc tatagctttg 840 taatagagtt tggagtcagg tagtctgatg cctccagctt tgttcttttt gttcaagatt 900 gctttggttg gtccaggtct tttgtggttc catacaaatt ttagcagtaa tttttctatt 960 tctgtgaaga atgacattgg aatttgatag tggttgcatt taatctgtag attgctttgg 1020 gtagcattga cacttttaca atactaattt ttgaatccat caatgaagga tgtttctcca 1080 tttatttatg ccattttaat ttttttcatc aatgtgctat agttttcagt atgtaaatct 1140 tttatggttt tgattaaatt tactcctgtc ttttatatat ttatatatct gttttgattc 1200 tattataaat tgaattgcct ttatttttca ggtaatagtt tgtcattagt taatagaaac 1260 aataatgata tttgtatgtt gattttgtaa ctattaactt tattgaattt cttcatcagc 1320 tataaccatt tattttggtg gaatctttaa gattttctct atcttaagat tatattttca 1380 aaaaacagaa acaatcttac ctcttccttc cctatgtgga tttcttttac gtctttgtct 1440 tgtgtaactg ttctggctag gcaattacac ataatgtttt catcatttat aattttacat 1500 cacatccatc tattgtggca cattgattgc tacttttcaa gttgtaaacc tggacattta 1560 tcactactct tcctccaata caggagtcca tggcgtggtg tgggccctac tgtgccacag 1620 tccagggcac ggctgggctg aggttctctt gtgcaagagt ccgtggctct gcggagcaag 1680 agttctccag tgccttagtc cagggttagg caggggtggg gctccttcag tagcttagtc 1740 cagtgcgccg ccctgcgagg gtcctcctga gcaggagtac acgatgaggc agggtcctac 1800 tgtgccttag cccaggaagc ggggggctgg gtcctctggt gccatagtcc aggctgccgg 1860 gagctgggtc ctctggtgcc atagctcagg ccggcgggag ctgggtcctc tggtgccgta 1920 gtccagggtg cagcagaaca ggagtcctgc ggagcagtag tccagggcac gctggggcgt 1980 g 1981 <210> 46 <211> 1859 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR46 <400> 46 attgtttttc tcgcccttct gcattttctg caaattctgt tgaatcattg cagttactta 60 ggtttgcttc gtctccccca ttacaaacta cttactgggt ttttcaaccc tagttccctc 120 atttttatga tttatgctca tttctttgta cacttcgtct tgctccatct cccaactcat 180 ggcccctggc tttggattat tgttttggtc ttttattttt tgtcttcttc tacctcaaca 240 cttatcttcc tctcccagtc tccggtaccc tatcaccaag gttgtcatta acctttcata 300 ttattcctca ttatccatgt attcatttgc aaataagcgt atattaacaa aatcacaggt 360 ttatggagat ataattcaca taccttaaaa ttcaggcttt taaagtgtac ctttcatgtg 420 gtttttggta tattcacaaa gttatgcatt gatcaccacc atctgattcc ataacatgtt 480 caatacctca aaaagaagtc tgtactcatt agtagtcatt tcacattcac cactccctct 540 ggctctgggc agtcactgat ctttgtgtct ctatggattt gcctagtcta ggtattttta 600 tgtaaatggc atcatacaac atgtgacctt ttgtttggct tttttcattt agcaaaatgt 660 tatcaaggtc tgtccctgtt gtagcatgta ttagcacttc atttcttata tgctgaatga 720 tatactttat ttgtccatca gttgttcatg ctttatttgt ccatcagttg atgaacattt 780 gcgtttttgc cactttgggc tattaagaat aatgctactg tgaacaagtg tgtacaagtt 840 cctctacaaa tttttgtgtg gacatatcct ttcagttctc tcaggtgtat atctgggaat 900 tgaattgctg ggtcgtgtag tagctatgtt aaacactttg agaaactgct ataatgttct 960 ccagagctgt accattttaa attctgtgta tgaggattcc acgttctcca cttcctcacc 1020 agtgtatgga tttgggggta tactttttaa aaagtgggat taggctgggc acagtggctc 1080 acacctgtaa tcccaacact tcaggaagct gaggtgggag gatcacttga gcctagtagt 1140 ttgagaccag cctgggcaac atagggagac cctgtctcta caaaaaataa tttaaaataa 1200 attagctggg cgttgtggca cacacctgta gtcccagcta catgggaggc tgaggtggaa 1260 ggattccctg agcccagaag tttgaggttg cagtgagcca tgatggcagc actatactgt 1320 agcctgggtg tcagagcaag actccgtttc agggaagaaa aaaaaaagtg ggatgatatt 1380 tttgacactt ttcttcttgt tttcttaatt tcatacttct ggaaattcca ttaaattagc 1440 tggtaccact ctaactcatt gtgtttcatg gctgcatagt aatattgcat aatataaata 1500 taccattcat tcatcaaagt tagcagatat tgactgttag gtgccaggca ctgctctaag 1560 cgttaaagaa aaacacacaa aaacttttgc attcttagag tttattttcc aatggagggg 1620 gtggagggag gtaagaattt aggaaataaa ttaattacat atatagcata gggtttcacc 1680 agtgagtgca gcttgaatcg ttggcagctt tcttagtagt ataaatacag tactaaagat 1740 gaaattactc taaatggtgt tacttaaatt actggaatag gtattactat tagtcacttt 1800 gcaggtgaaa gtggaaacac catcgtaaaa tgtaaaatag gaaacagctg gttaatgtt 1859 <210> 47 <211> 1082 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 47 <400> 47 atcattagtc attagggaaa tgcaaatgaa aaacacaagc agccaccaat atacacctac 60 taggatgatt taaaggaaaa taagtgtgaa gaaggacgta aagaaattgt aaccctgata 120 cattgatggt agaaatggat aaagttgcag ccactgtgaa aaacagtctg cagtggctca 180 gaaggttaaa tatagaaccc ctgttggacc caggaactct actcttaggc accccaaaga 240 atagagaaca gaaatcaaac agatgtttgt atactaatgt ttgtagcatc acttttcaca 300 ggagccaaaa ggtggaaata atccaaccat cagtgaacaa atgaatgtaa taaaagcaag 360 gtggtctgca tgcaatgcta catcatccat ctgtaaaaaa cgaacatcat tttgatagat 420 gatacaacat gggtggacat tgagaacatt atgcttagtg aaataagcca gacacaaaag 480 gaatatattg tataattgta attacatgaa gtgcctagaa tagtcaaatt catacaagag 540 aaagtgggat aggaatcacc atgggctgga aataggggga aggtgctata ctgcttattg 600 tggacaaggt ttcgtaagaa atcatcaaaa ttgtgggtgt agatagtggt gttggttatg 660 caaccctgtg aatatattga atgccatgga gtgcacactt tggttaaaag gttcaaatga 720 taaatattgt gttatatata tttccccacg atagaaaaca cgcacagcca agcccacatg 780 ccagtcttgt tagctgcctt cctttacctt caagagtggg ctgaagcttg tccaatcttt 840 caaggttgct gaagactgta tgatggaagt catctgcatt gggaaagaaa ttaatggaga 900 gaggagaaaa cttgagaatc cacactactc accctgcagg gccaagaact ctgtctccca 960 tgctttgctg tcctgtctca gtatttcctg tgaccacctc ctttttcaac tgaagacttt 1020 gtacctgaag gggttcccag gtttttcacc tcggcccttg tcaggactga tcctctcaac 1080 ta 1082 <210> 48 <211> 1242 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR48 <400> 48 atcatgtatt tgttttctga attaattctt agatacatta atgttttatg ttaccatgaa 60 tgtgatatta taatataata tttttaattg gttgctactg tttataagaa tttcattttc 120 tgtttacttt gccttcatat ctgaaaacct tgctgatttg attagtgcat ccacaaattt 180 tcttggattt tctatgggta attacaaatc tccacacaat gaggttgcag tgagccaaga 240 tcacaccact gtactccagc ctgggcgaca gagtgagaca ccatctcaca aaaacacata 300 aacaaacaaa cagaaactcc acacaatgac aacgtatgtg ctttcttttt ttcttcctct 360 ttctataata tttctttgtc ctatcttaac tgaactggcc agaaacccca ggacaatgat 420 aaatacgagc agtgtcaaca gacatctcat tccctttcct agcttttata aaaataacga 480 ttatgcttca acattacata tggtggtgtc gatggttttg ttatagataa gcttatcagg 540 ttaagaaatt tgtctgcgtt tcctagtttg gtataaagat tttaatataa atgaatgttg 600 tattttatca tcttattttt ttcctacatc tgctaaggta atcctgtgtt ttcccctttt 660 caatctccta atgtggtgaa tgacattaaa ataccttcta ttgttaaaat attcttgcaa 720 cgctgtatag aaccaatgcc tttattctgt attgctgatg gatttttgaa aaatatgtag 780 gtggacttag ttttctaagg ggaatagaat ttctaatata tttaaaatat tttgcatgta 840 tgttctgaag gacattggtg tgtcatttct ataccatctg gctactagag gagccgactg 900 aaagtcacac tgccggagga ggggagaggt gctcttccgt ttctggtgtc tgtagccatc 960 tccagtggta gctgcagtga taataatgct gcagtgccga cagttctgga aggagcaaca 1020 acagtgattt cagcagcagc agtattgcgg gatccccacg atggagcaag ggaaataatt 1080 ctggaagcaa tgacaatatc agctgtggct atagcagctg agatgtgagt tctcacggtg 1140 gcagcttcaa ggacagtagt gatggtccaa tggcgcccag acctagaaat gcacatttcc 1200 tcagcaccgg ctccagatgc tgagcttgga cagctgacgc ct 1242 <210> 49 <211> 1015 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR49 <400> 49 aaaccagaaa cccaaaacaa tgggagtgac atgctaaaac cagaaaccca aaacaatggg 60 agggtcctgc taaaccagaa acccaaaaca atgggagtga agtgctaaaa ccagaaaccc 120 aaaacaatgg gagtgtcctg ctacaccaga aacccaaaac gatgggagtg acgtgataaa 180 accagacacc caaaacaatg ggagtgacgt gctaaaccag aaacccaaaa caatgggagt 240 gacgtgctaa aacctggaaa cctaaaacaa tgcgagtgag gtgctaacac cagaatccat 300 aacaatgtga gtgacgtgct aaaccagaac ccaaaacaat gggagtgacg tgctaaaaca 360 ggaacccaaa acaatgagag tgacgtgcta aaccagaaac ccaaaacaat gggaatgacg 420 tgctaaaacc ggaacccaaa acaatgggag tgatgtgcta aaccagaaac ccaaaacaat 480 gggaatgaca tgctaaaact ggaacccaaa acaatggtaa ctaagagtga tgctaaggcc 540 ctacattttg gtcacactct caactaagtg agaacttgac tgaaaaggag gatttttttt 600 tctaagacag agttttggtc tgtcccccag agtggagtgc agtggcatga tctcggctca 660 ctgcaagctc tgcctcccgg gttcaggcca ttctcctgcc tcagcctcct gagtagctgg 720 gaatacaggc acccgccacc acacttggct aattttttgt atttttagta gagatggggt 780 ttcaccatat tagcaaggat ggtctcaatc tcctgacctc gtgatctgcc cacctcaggc 840 tcccaaagtg ctgggattac aggtgtgagc caccacaccc agcaaaaagg aggaattttt 900 aaagcaaaat tatgggaggc cattgttttg aactaagctc atgcaatagg tcccaacaga 960 ccaaaccaaa ccaaaccaaa atggagtcac tcatgctaaa tgtagcataa tcaaa 1015 <210> 50 <211> 2355 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 50 <400> 50 caaccatcgt tccgcaagag cggcttgttt attaaacatg aaatgaggga aaagcctagt 60 agctccattg gattgggaag aatggcaaag agagacaggc gtcattttct agaaagcaat 120 cttcacacct gttggtcctc acccattgaa tgtcctcacc caatctccaa cacagaaatg 180 agtgactgtg tgtgcacatg cgtgtgcatg tgtgaaagta tgagtgtgaa tgtgtctata 240 tgggaacata tatgtgattg tatgtgtgta actatgtgtg actggcagcg tggggagtgc 300 tggttggagt gtggtgtgat gtgagtatgc atgagtggct gtgtgtatga ctgtggcggg 360 aggcggaagg ggagaagcag caggctcagg tgtcgccaga gaggctggga ggaaactata 420 aacctgggca atttcctcct catcagcgag cctttcttgg gcaatagggg cagagctcaa 480 agttcacaga gatagtgcct gggaggcatg aggcaaggcg gaagtactgc gaggaggggc 540 agagggtctg acacttgagg ggttctaatg ggaaaggaaa gacccacact gaattccact 600 tagccccaga ccctgggccc agcggtgccg gcttccaacc ataccaacca tttccaagtg 660 ttgccggcag aagttaacct ctcttagcct cagtttcccc acctgtaaaa tggcagaagt 720 aaccaagctt accttcccgg cagtgtgtga ggatgaaaag agctatgtac gtgatgcact 780 tagaagaagg tctagggtgt gagtggtact cgtctggtgg gtgtggagaa gacattctag 840 gcaatgagga ctggggagag cctggcccat ggcttccact cagcaaggtc agtctcttgt 900 cctctgcact cccagccttc cagagaggac cttcccaacc agcactcccc acgctgccag 960 tcacacatag ttacacacat acaatcacat atatgttccc atatagacac attcacactc 1020 ataccttcac acatgcacac gcatgtgcac acacagtcac tcatttctgt gttggagatt 1080 gggtgaggac attcaatggg tgaggaccaa caggtgtgaa gattgctttc tagaaaatga 1140 ctcctgtctc tctttgccat tcttcccaat ccgatggagc tactaggctt ttccctcatt 1200 tcatgtttaa taaaccttcc caatggcgaa atgggctttc tcaagaagtg gtgagtgtcc 1260 catccctgcg gtggggacag gggtggcagc ggacaagcct gcctggaggg aactgtcagg 1320 ctgattccca gtccaactcc agcttccaac acctcatcct ccaggcagtc ttcattcttg 1380 gctctaattt cgctcttgtt ttctttttta tttttatcga gaactgggtg gagagctttt 1440 ggtgtcattg gggattgctt tgaaaccctt ctctgcctca cactgggagc tggcttgagt 1500 caactggtct ccatggaatt tcttttttta gtgtgtaaac agctaagttt taggcagctg 1560 ttgtgccgtc cagggtggaa agcagcctgt tgatgtggaa ctgcttggct cagatttctt 1620 gggcaaacag atgccgtgtc tctcaactca ccaattaaga agcccagaaa atgtggcttg 1680 gagaccacat gtctggttat gtctagtaat tcagatggct tcacctggga agccctttct 1740 gaatgtcaaa gccatgagat aaaggacata tatatagtag ctagggtggt ccacttctta 1800 ggggccatct ccggaggtgg tgagcactaa gtgccaggaa gagaggaaac tctgttttgg 1860 agccaaagca taaaaaaacc ttagccacaa accactgaac atttgttttg tgcaggttct 1920 gagtccaggg agggcttctg aggagagggg cagctggagc tggtaggagt tatgtgagat 1980 ggagcaaggg ccctttaaga ggtgggagca gcatgagcaa aggcagagag gtggtaatgt 2040 ataaggtatg tcatgggaaa gagtttggct ggaacagagt ttacagaata gaaaaattca 2100 acactattaa ttgagcctct actacgtgct cgacattgtt ctagtcactg agataggttt 2160 ggtatacaaa acaaaatcca tcctctatgg acattttagt gactaacaac aatataaata 2220 ataaaagtga acaaaagctc aaaacatgcc aggcactatt atttatttat ttatttattt 2280 atttatttat tttttgaaac agagtctcgc tctgttgccc aggctggagt gtagtggtgc 2340 gatctcggct cactg 2355 <210> 51 <211> 2289 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR51 <400> 51 tcacaggtga caccaatccc ctgaccacgc tttgagaagc actgtactag attgactttc 60 taatgtcagt cttcattttc tagctctgtt acagccatgg tctccatatt atctagtaca 120 acacacatac aaatatgtgt gatacagtat gaatataata taaaaatatg tgttataata 180 taaatataat attaaaatat gtctttatac tagataataa tacttaataa cgttgagtgt 240 ttaactgctc taagcacttt acctgcagga aacagttttt tttttatttt ggtgaaatac 300 aactaacata aatttattta caattttaag catttttaag tgtatagttt agtggagtta 360 atatattcaa aatgttgtgc agccgtcacc atcatcagtc ttcataactc ttttcatatt 420 gtaaaattaa aagtttatgc tcatttaaaa atgactccca atttcccccc tcctcaacct 480 ctggaaacta ccattctatt ttctgcctcc gtagttttgc ccactctaag tacctcacat 540 aagtggaatt tgtcttattt gcctgtttgt gaccggctga tttcatttag tataatgtcc 600 tcaagtttta ttcacgttat atagcatatg tcataatttt cttcactttt aagcttgagt 660 aatatttcat cgtatgtatc tcacattttg cttatccatt catctctcag tggacacttg 720 agttgcttct acattttagc tgttgtgaat actgctgcta tgaacatggg tgtataaata 780 tctcaagacc tttttatcag ttttttaaaa tatatactca gtagtagttt agctggatta 840 tatggtaatt ttatttttaa tttttgagga actgtcctac ccttttattc aatagtagct 900 ataccaattg acaattggca ttcctaccaa cagggcataa gggttctcaa ttctccacat 960 attccctgat acttgttatt ttcaggtgtt tttttttttt tttttttttt atgggagcca 1020 tgttaatggg tgtaaggtga tatttcatta tagttttgat ttgcatttcc ctaatgatta 1080 gtgatgttaa gcatctcttc atgtgcctat tggccatttg tatatcttct ttaaaaatat 1140 atatatactc attcctttgc ccatttttga attatgttta ttttttgtta ttgagtttca 1200 atacttttct atataaccta ggtattaatc ctttatcaga cttaagattt gcaaatattc 1260 tctttcattc cacaggttgc taattctctc tgttggtaat atcttttgat gctgttgtgt 1320 ccagaattga ttcattcctg tgggttcttg gtctcactga cttcaagaat aaagctgcgg 1380 accctagtgg tgagtgttac acttcttata gatggtgttt ccggagtttg ttccttcaga 1440 tgtgtccaga gtttcttcct tccaatgggt tcatggtctt gctgacttca ggaatgaagc 1500 cgcagacctt cgcagtgagg tttacagctc ttaaaggtgg cgtgtccaga gttgtttgtt 1560 ccccctggtg ggttcgtggt cttgctgact tcaggaatga agccgcagac cctcgcagtg 1620 agtgttacag ctcataaagg tagtgcggac acagagtgag ctgcagcaag atttactgtg 1680 aagagcaaaa gaacaaagct tccacagcat agaaggacac cccagcgggt tcctgctgct 1740 ggctcaggtg gccagttatt attcccttat ttgccctgcc cacatcctgc tgattggtcc 1800 attttacaga gtactgattg gtccatttta cagagtgctg attggtgcat ttacaatcct 1860 ttagctagac acagagtgct gattgctgca ttcttacaga gtgctgattg gtgcatttac 1920 agtcctttag ctagatacag aacgctgatt gctgcgtttt ttacagagtg ctgattggtg 1980 catttacaat cctttagcta gacacagtgc tgattggtgg gtttttacag agtgctgatt 2040 ggtgcgtctt tacagagtgc tgattggtgc atttacaatc ctttagctag acacagagtg 2100 ctgattggtg cgtttataat cctctagcta gacagaaaag ttttccaagt ccccacctga 2160 ccgagaagcc ccactggctt cacctctcac tgttatactt tggacatttg tccccccaaa 2220 atctcatgtt gaaatgtaac ccctaatgtt ggaactgagg ccagactgga tgtggctggg 2280 ccatgggga 2289 <210> 52 <211> 1184 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 52 <400> 52 ctcttctttg tttttttatt ttggggtgtg tgggtacgtg taagatgaga aatgtacaaa 60 cacaagtatt tcagaaactc caagtaatat tctgtctgtg agttcacggt aaataaataa 120 aaagggcaaa gtgacagaaa tacaggatta ttaaaagcaa aataatgttc tttgaaatcc 180 cccccttggt gtatttttta tcttaggatg cagcactttc agcatgccca agtattgaaa 240 gcagtgtttt tacgctacca cggtaatttt atttagaaac cccatgttca cttttagttt 300 taaaatggtc tttatgacat aaaattatca gcattcatat ttttgtgttt taatattcct 360 ttggctactt attgaaacag taaacattac gaaaattagt aaacaaatct ttgatagttg 420 cttatttttg tttaattgaa tgtttatttt attaggtaaa tatacaatca aatttattta 480 aaaataatga ggaaaagaat acttttcttt cgctttgcga aagcaaagtg atttttcatt 540 cttctccgtc cgattccttc tcttccagct gccacagccg actgacaggc tcccggcggc 600 ctgaggagta gtatgcaaat tttggatgat tgacacctac agtagaagcc aatcacgtca 660 aagtaggatg ctgattggtt gacaacaata ggcgtaaacc ttgacgtttt aaaaacctga 720 cacccaatcc aggcgattca tgcaaataaa ggaagggagt cacattacca ggggccagag 780 agacttgagt acgacctcac gtgttcagtg gtggatattg cacagacgtc tgcaaggtct 840 atataaacgc tacataatgt tcaactcaat tgcttgcctt ggcctttccc aaacttgtca 900 ctggaatata aattatccct tttttaaaaa taaaaaaata agaattatgt agtgcacata 960 tatgatggtt catgtagaaa tctaaatgga cttccaacgc atggaatttt cctatttccc 1020 cctttcttta aattaatcct cagtgaagga ggctgttttc ccctagattt caaaaggacg 1080 agatttacag agcctttcct tggagaaacc cgctctaggc acagatggtc agtaaattta 1140 gcttcttcag cgaagttcca catggcaccg ccagatggca taag 1184 <210> 53 <211> 1431 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR53 <400> 53 ccctgaggaa gatgacgagt aactccgtaa gagaaccttc cactcatccc ccacatccct 60 gcagacgtgc tattctgtta tgatactggt atcccatctg tcacttgctc cccaaatcat 120 tcccttctta caattttcta ctgtacagca ttgaggctga acgatgagag atttcccatg 180 ctctttctac tccctgccct gtatatatcc ggggatcctc cctacccagg atgctgtggg 240 gtcccaaacc ccaagtaagc cctgatatgc gggccacacc tttctctagc ctaggaattg 300 ataacccagg cgaggaagtc actgtggcat gaacagatgg ttcacttcga ggaaccgtgg 360 aaggcgtgtg caggtcctga gatagggcag aatcggagtg tgcagggtct gcaggtcagg 420 aggagttgag attgcgttgc cacgtggtgg gaactcactg ccacttattt ccttctctct 480 tcttgcctca gcctcaggga tacgacacat gcccatgatg agaagcagaa cgtggtgacc 540 tttcacgaac atgggcatgg ctgcggaccc ctcgtcatca ggtgcatagc aagtgaaagc 600 aagtgttcac aacagtgaaa agttgagcgt catttttctt agtgtgccaa gagttcgatg 660 ttagcgttta cgttgtattt tcttacactg tgtcattctg ttagatacta acattttcat 720 tgatgagcaa gacatactta atgcatattt tggtttgtgt atccatgcac ctaccttaga 780 aaacaagtat tgtcggttac ctctgcatgg aacagcatta ccctcctctc tccccagatg 840 tgactactga gggcagttct gagtgtttaa tttcagattt tttcctctgc atttacacac 900 acacgcacac aaaccacacc acacacacac acacacacac acacacacac acacacacac 960 acacaccaag taccagtata agcatctgcc atctgctttt cccattgcca tgcgtcctgg 1020 tcaagctccc ctcactctgt ttcctggtca gcatgtactc ccctcatccg attcccctgt 1080 agcagtcact gacagttaat aaacctttgc aaacgttccc cagttgtttg ctcgtgccat 1140 tattgtgcac acagctctgt gcacgtgtgt gcatatttct ttaggaaaga ttcttagaag 1200 tggaattgct gtgtcaaagg agtcatttat tcaacaaaac actaatgagt gcgtcctcgt 1260 gctgagcgct gttctaggtg ctggagcgac gtcagggaac aaggcagaca ggagttcctg 1320 acccccgttc tagaggagga tgtttccagt tgttgggttt tgtttgtttg tttcttctag 1380 agatggtggt cttgctctgt ccaggctaga gtgcagtggc atgatcatag c 1431 <210> 54 <211> 975 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR54 <400> 54 ccataaaagt gtttctaaac tgcagaaaaa tccccctaca gtcttacagt tcaagaattt 60 tcagcatgaa atgcctggta gattacctga ctttttttgc caaaaataag gcacagcagc 120 tctctcctga ctctgacttt ctatagtcct tactgaatta tagtccttac tgaattcatt 180 cttcagtgtt gcagtctgaa ggacacccac attttctctt tgtctttgtc aattctttgt 240 gttgtaaggg caggatgttt aaaagttgaa gtcattgact tgcaaaatga gaaatttcag 300 agggcatttt gttctctaga ccatgtagct tagagcagtg ttcacactga ggttgctgct 360 aatgtttctg cagttcttac caatagtatc atttacccag caacaggata tgatagagga 420 cttcgaaaac cccagaaaat gttttgccat atatccaaag ccctttggga aatggaaagg 480 aattgcgggc tcccattttt atatatggat agatagagac caagaaagac caaggcaact 540 ccatgtgctt tacattaata aagtacaaaa tgttaacatg taggaagtct aggcgaagtt 600 tatgtgagaa ttctttacac taattttgca acattttaat gcaagtctga aattatgtca 660 aaataagtaa aaatttttac aagttaagca gagaataaca atgattagtc agagaaataa 720 gtagcaaaat cttcttctca gtattgactt ggttgctttt caatctctga ggacacagca 780 gtcttcgctt ccaaatccac aagtcacatc agtgaggaga ctcagctgag actttggcta 840 atgttggggg gtccctcctg tgtctcccca ggcgcagtga gcctgcaggc cgacctcact 900 cgtggcacac aactaaatct ggggagaagc aacccgatgc cagcatgatg cagatatctc 960 agggtatgat cggcc 975 <210> 55 <211> 501 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR55 <400> 55 cctgaactca tgatccgccc acctcagcct cctgaagtgc tgggattaca ggtgtgagcc 60 accacaccca gccgcaacac actcttgagc aaccaatgtg tcataaaaga aataaaatgg 120 aaatcagaaa gtatcttgag acagacaaaa atggaaacac aacataccaa aatttatggg 180 acacagcaaa agcagtttta ggagggaagt ttatagtgat gaatacctac ctcaaaatca 240 ttagcctgat tggatgacac tacagtgtat aaatgaattg aaaaccacat tgtgccccat 300 acatatatac aatttttatt tgttaattaa aaataaaata aaactttaaa aaagaagaaa 360 gagctcaaat aaacaaccta actttatacc tcaaggaaat agaagagcca gctaagccca 420 aagttgacag aaggaaaaaa atattggcag aaagaaatga aacagagact agaaagacaa 480 ttgaagagat cagcaaaact a 501 <210> 56 <211> 741 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR56 <400> 56 acacaggaaa agatcgcaat tgttcagcag agctttgaac cggggatgac ggtctccctc 60 gttgcccggc aacatggtgt agcagccagc cagttatttc tctggcgtaa gcaataccag 120 gaaggaagtc ttactgctgt cgccgccgga gaacaggttg ttcctgcctc tgaacttgct 180 gccgccatga agcagattaa agaactccag cgcctgctcg gcaagaaaac gatggaaaat 240 gaactcctca aagaagccgt tgaatatgga cgggcaaaaa agtggatagc gcacgcgccc 300 ttattgcccg gggatgggga gtaagcttag tcagccgttg tctccgggtg tcgcgtgcgc 360 agttgcacgt cattctcaga cgaaccgatg actggatgga tggccgccgc agtcgtcaca 420 ctgatgatac ggatgtgctt ctccgtatac accatgttat cggagagctg ccaacgtatg 480 gttatcgtcg ggtatgggcg ctgcttcgca gacaggcaga acttgatggt atgcctgcga 540 tcaatgccaa acgtgtttac cggatcatgc gccagaatgc gctgttgctt gagcgaaaac 600 ctgctgtacc gccatcgaaa cgggcacata caggcagagt ggccgtgaaa gaaagcaatc 660 agcgatggtg ctctgacggg ttcgagttct gctgtgataa cggagagaga ctgcgtgtca 720 cgttcgcgct ggactgctgt g 741 <210> 57 <211> 1365 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR57 <400> 57 tccttctgta aataggcaaa atgtatttta gtttccacca cacatgttct tttctgtagg 60 gcttgtatgt tggaaatttt atccaattat tcaattaaca ctataccaac aatctgctaa 120 ttctggagat gtggcagtga ataaaaaagt tatagtttct gattttgtgg agcttggact 180 ttaatgatgg acaaaacaac acattcttaa atatatattt catcaaaatt atagtgggtg 240 aattatttat atgtgcattt acatgtgtat gtatacataa atgggcggtt actggctgca 300 ctgagaatgt acacgtggcg cgaacgaggc tgggcggtca gagaaggcct cccaaggagg 360 tggctttgaa gctgagtggt gcttccacgt gaaaaggctg gaaagggcat tccaagaaaa 420 ggctgaggcc agcgggaaag aggttccagt gcgctctggg aacggaaagc gcacctgcct 480 gaaacgaaaa tgagtgtgct gaaataggac gctagaaagg gaggcagagg ctggcaaaag 540 cgaccgagga ggagctcaaa ggagcgagcg gggaaggccg ctgtggagcc tggaggaagc 600 acttcggaag cgcttctgag cgggtaaggc cgctgggagc atgaactgct gagcaggtgt 660 gtccagaatt cgtgggttct tggtctcact gacttcaaga atgaagaggg accgcggacc 720 ctcgcggtga gtgttacagc tcttaaggtg gcgcgtctgg agtttgttcc ttctgatgtt 780 cggatgtgtt cagagtttct tccttctggt gggttcgtgg tctcgctggc tcaggagtga 840 agctgcagac cttcgcggtg agtgttacag ctcataaaag cagggtggac tcaaagagtg 900 agcagcagca agatttattg caaagaatga aagaacaaag cttccacact gtggaagggg 960 accccagcgg gttgccactg ctggctccgc agcctgcttt tattctctta tctggcccca 1020 cccacatcct gctgattggt agagccgaat ggtctgtttt gacggcgctg attggtgcgt 1080 ttacaatccc tgcgctagat acaaaggttc tccacgtccc caccagatta gctagataga 1140 gtctccacac aaaggttctc caaggcccca ccagagtagc tagatacaga gtgttgattg 1200 gtgcattcac aaaccctgag ctagacacag ggtgatgact ggtgtgttta caaaccttgc 1260 ggtagataca gagtatcaat tggcgtattt acaatcactg agctaggcat aaaggttctc 1320 caggtcccca ccagactcag gagcccagct ggcttcaccc agtgg 1365 <210> 58 <211> 1401 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR58 <400> 58 aagtttacct tagccctaaa ttatttcatt gtgattggca ttttaggaaa tatgtattaa 60 ggaatgtctc ttaggagata aggataacat atgtctaaga aaattatatt gaaatattat 120 tacatgaact aaaatgttag aactgaaaaa aaattattgt aactccttcc agcgtaggca 180 ggagtatcta gataccaact ttaacaactc aactttaaca acttcgaacc aaccagatgg 240 ctaggagatt cacctattta gcatgatatc ttttattgat aaaaaaatat aaaacttcca 300 ttaaattttt aagctactac aatcctatta aattttaact taccagtgtt ctcaatgcta 360 cataatttaa aatcattgaa atcttctgat tttaactcct cagtcttgaa atctacttat 420 ttttagttac atatatatcc aatctactgc cgctagtaga agaagcttgg aatttgagaa 480 aaaaatcaga cgttttgtat attctcatat tcactaattt attttttaaa tgagtttctg 540 caatgcatca agcagtggca aaacaggaga aaaattaaaa ttggttgaaa agatatgtgt 600 gccaaacaat cccttgaaat ttgatgaagt gactaatcct gagttattgt ttcaaatgtg 660 tacctgttta tacaagggta tcacctttga aatctcaaca ttaaatgaaa ttttataagc 720 aatttgttgt aacatgatta ttataaaatt ctgatataac attttttatt acctgtttag 780 agtttaaaga gagaaaagga gttaagaata attacatttt cattagcatt gtccgggtgc 840 aaaaacttct aacactatct tcaaatcttt ttctccattg ccttctgaac atacccactt 900 gggtatctca ttagcactgc aaattcaaca ttttcgattg ctaatttttc tccctaaata 960 tttatttgtt ttctcagctt tagccaatgt ttcactattg accatttgct caagtatagt 1020 gacgcttcaa tgaccttcag agagctgttt cagtccttcc tggactactt gcatgcttcc 1080 aacaaaatga agcactcttg atgtcagtca ctcaaataaa tggaaatggg cccatttact 1140 aggaatgtta acagaataaa aagatagacg tgacaccagt tgcttcagtc catctccatt 1200 tacttgctta aggcctggcc atatttctca cagttgatat ggcgcagggc acatgtttaa 1260 atggctgttc ttgtaggatg gtttgactgt tggattcctc atcttccctc tccttaggaa 1320 ggaaggttac agtagtactg ttggctcctg gaatatagat tcataaagaa ctaatggagt 1380 atcatctccc actgctcttg t 1401 <210> 59 <211> 866 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR59 <400> 59 gagatcacgc cactgcactc cagcctgggg gacagagcaa gactccatct cagaaacaaa 60 caaacacaca aagccagtca aggtgtttaa ttcgacggtg tcaggctcag gtctcttgac 120 aggatacatc cagcacccgg gggaaacgtc gatgggtggg gtggaatcta ttttgtggcc 180 tcaagggagg gtttgagagg tagtcccgca agcggtgatg gcctaaggaa gcccctccgc 240 ccaagaagcg atattcattt ctagcctgta gccacccaag agggagaatc gggctcgcca 300 cagaccccac aacccccaac ccaccccacc cccacccctc ccacctcgtg aaatgggctc 360 tcgctccgtc aggctctagt cacaccgtgt ggttttggaa cctccagcgt gtgtgcgtgg 420 gttgcgtggt ggggtggggc cggctgtgga cagaggaggg gataaagcgg cggtgtcccg 480 cgggtgcccg ggacgtgggg cgtggggcgt gggtggggtg gccagagcct tgggaactcg 540 tcgcctgtcg ggacgtctcc cctcctggtc ccctctctga cctacgctcc acatcttcgc 600 cgttcagtgg ggaccttgtg ggtggaagtc accatccctt tggactttag ccgacgaagg 660 ccgggctccc aagagtctcc ccggaggcgg ggccttgggc aggctcacaa ggatgctgac 720 ggtgacggtt ggtgacggtg atgtacttcg gaggcctcgg gccaatgcag aggtatccat 780 ttgacctcgg tgggacaggt cagctttgcg gagtcccgtg cgtccttcca gagactcatc 840 cagcgctagc aagcatggtc ccgagg 866 <210> 60 <211> 2067 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 60 <220> <221> misc_feature (222) (92) .. (1777) <223> n is a, c, g, or t on various positions <400> 60 agcagtgcag aactggggaa gaagaagagt ccctacacca cttaatactc aaaagtactc 60 gcaaaaaata acacccctca ccaggtggca tnattactct ccttcattga gaaaattagg 120 aaactggact tcgtagaagc taattgcttt atccagagcc acctgcatac aaacctgcag 180 cgccacctgc atacaaacct gtcagccgac cccaaagccc tcagtcgcac caagcctctg 240 ctgcacaccc tcgtgccttc acactggccg ttccccaagc ctggggcata ctncccagct 300 ctgagaaatg tattcatcct tcaaagccct gctcatgtgt cctnntcaac aggaaaatct 360 cccatgagat gctctgctat ccccatctct cctgccccat agcttaggca nacttctgtg 420 gtggtgagtc ctgggctgtg ctgtgatgtg ttcgcctgcn atgtntgttc ttccccacaa 480 tgatgggccc ctgaattctc tatctctagc acctgtgctc agtaaaggct tgggaaacca 540 ggctcaaagc ctggcccaga tgccaccttt tccagggtgc ttccgggggc caccaaccag 600 agtgcagcct tctcctccac caggaactct tgcagcccca cccctgagca cctgcacccc 660 attacccatc tttgtttctc cgtgtgatcg tattattaca gaattatata ctgtattctt 720 aatacagtat ataattgtat aattattctt aatacagtat ataattatac aaatacaaaa 780 tatgtgttaa tggaccgttt atgttactgg taaagcttta agtcaacagt gggacattag 840 ttaggttttt ggcgaagtca aaagttatat gtgcattttc aacttcttga ggggtcggta 900 cntctnaccc ccatgttgtt caanggtcaa ctgtctacac atatcatagc taattcacta 960 cagaaatgtt agcttgtgtc actagtatct ccccttctca taagcttaat acacatacct 1020 tgagagagct cttggccatc tctactaatg actgaagttt ttatttatta tagatgtcat 1080 aataggcata aaactacatt acatcattcg agtgccaatt ttgccacctt gaccctcttt 1140 tgcaaaacac caacgtcagt acacatatga agaggaaact gcccgagaac tgaagttcct 1200 gagaccagga gctgcaggcg ttagatagaa tatggtgacg agagttacga ggatgacgag 1260 agtaaatact tcatactcag tacgtgccaa gcactgctat aagcgctctg tatgtgtgaa 1320 gtcatttaat cctcacagca tcccacggtg taattatttt cattatcccc atgagggaac 1380 agaaactcag aacggttcaa cacatatgcg agaagtcgca gccggtcagt gagagagcag 1440 gttcccgtcc aagcagtcag accccgagtg cacactctcg acccctgtcc agcagactca 1500 ctcgtcataa ggcggggagt gntctgtttc agccagatgc tttatgcatc tcagagtacc 1560 caaaccatga aagaatgagg cagtattcan gagcagatgg ngctgggcag taaggctggg 1620 cttcagaata gctggaaagc tcaagtnatg ggacctgcaa gaaaaatcca ttgtttngat 1680 aaatagccaa agtccctagg ctgtaagggg aaggtgtgcc aggtgcaagt ggagctctaa 1740 tgtaaaatcg cacctgagtc tcctggtctt atgagtnctg ggtgtacccc agtgaaaggt 1800 cctgctgcca ccaagtgggc catggttcag ctgtgtaagt gctgagcggc agccggaccg 1860 cttcctctaa cttcacctcc aaaggcacag tgcacctggt tcctccagca ctcagctgcg 1920 aggcccctag ccagggtccc ggcccccggc ccccggcagc tgctccagct tccttcccca 1980 cagcattcag gatggtctgc gttcatgtag acctttgttt tcagtctgtg ctccgaggtc 2040 actggcagca ctagccccgg ctcctgt 2067 <210> 61 <211> 1470 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR61 <220> <221> misc_feature (222) (130) .. (976) <223> n is a, c, g, or t on various positions <400> 61 cagcccccac atgcccagcc ctgtgctcag ctctgcagcg gggcatggtg ggcagagaca 60 cagaggccaa ggccctgctt cggggacggt gggcctggga tgagcatggc cttggccttc 120 gccgagagtn ctcttgtgaa ggaggggtca ggaggggctg ctgcagctgg ggaggagggc 180 gatggcactg tggcangaag tgaantagtg tgggtgcctn gcaccccagg cacggccagc 240 ctggggtatg gacccggggc cntctgttct agagcaggaa ggtatggtga ggacctcaaa 300 aggacagcca ctggagagct ccaggcagag gnacttgaga ggccctgggg ccatcctgtc 360 tcttttctgg gtctgtgtgc tctgggcctg ggcccttcct ctgctccccc gggcttggag 420 agggctggcc ttgcctcgtg caaaggacca ctctagactg gtaccaagtc tggcccatgg 480 cctcctgtgg gtgcaggcct gtgcgggtga cctgagagcc agggctggca ggtcagagtc 540 aggagaggga tggcagtgga tgccctgtgc aggatctgcc taatcatggt gaggctggag 600 gaatccaaag tgggcatgca ctctgcactc atttctttat tcatgtgtgc ccatcccaac 660 aagcagggag cctggccagg agggcccctg ggagaaggca ctgatgggct gtgttccatt 720 taggaaggat ggacggttgt gagacgggta agtcagaacg ggctgcccac ctcggccgag 780 agggccccgt ggtgggttgg caccatctgg gcctggagag ctgctcagga ggctctctag 840 ggctgggtga ccaggnctgg ggtacagtag ccatgggagc aggtgcttac ctggggctgt 900 ccctgagcag gggctgcatt gggtgctctg tgagcacaca cttctctatt cacctgagtc 960 ccnctgagtg atgagnacac ccttgttttg cagatgaatc tgagcatgga gatgttaagt 1020 ggcttgcctg agccacacag cagatggatg gtgtagctgg gacctgaggg caggcagtcc 1080 cagcccgagg acttcccaag gttgtggcaa actctgacag catgacccca gggaacaccc 1140 atctcagctc tggtcagaca ctgcggagtt gtgttgtaac ccacacagct ggagacagcc 1200 accctagccc cacccttatc ctctcccaaa ggaacctgcc ctttcccttc attttcctct 1260 tactgcattg agggaccaca cagtgtggca gaaggaacat gggttcagga cccagatgga 1320 cttgcttcac agtgcagccc tcctgtcctc ttgcagagtg cgtcttccac tgtgaagttg 1380 ggacagtcac accaactcaa tactgctggg cccgtcacac ggtgggcagg caacggatgg 1440 cagtcactgg ctgtgggtct gcagaggtgg 1470 <210> 62 <211> 1011 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR62 <400> 62 agtgtcaaat agatctacac aaaacaagat aatgtctgcc catttttcca aagataatgt 60 ggtgaagtgg gtagagagaa atgcatccat tctccccacc caacctctgc taaattgtcc 120 atgtcacagt actgagacca gggggcttat tcccagcggg cagaatgtgc accaagcacc 180 tcttgtctca atttgcagtc taggccctgc tatttgatgg tgtgaaggct tgcacctggc 240 atggaaggtc cgttttgtac ttcttgcttt agcagttcaa agagcaggga gagctgcgag 300 ggcctctgca gcttcagatg gatgtggtca gcttgttgga ggcgccttct gtggtccatt 360 atctccagcc cccctgcggt gttgctgttt gcttggcttg tctggctctc catgccttgt 420 tggctccaaa atgtcatcat gctgcacccc aggaagaatg tgcaggccca tctcttttat 480 gtgctttggg ctattttgat tccccgttgg gtatattccc taggtaagac ccagaagaca 540 caggaggtag ttgctttggg agagtttgga cctatgggta tgaggtaata gacacagtat 600 cttctctttc atttggtgag actgttagct ctggccgcgg actgaattcc acacagctca 660 cttgggaaaa ctttattcca aaacatagtc acattgaaca ttgtggagaa tgagggacag 720 agaagaggcc ctagatttgt acatctgggt gttatgtcta taaatagaat gctttggtgg 780 tcaactagac ttgttcatgt tgacatttag tcttgccttt tcggtggtga tttaaaaatt 840 atgtatatct tgtttggaat atagtggagc tatggtgtgg cattttcatc tggctttttg 900 tttagctcag cccgtcctgt tatgggcagc cttgaagctc agtagctaat gaagaggtat 960 cctcactccc tccagagagc ggtcccctca cggctcattg agagtttgtc a 1011 <210> 63 <211> 1410 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR63 <400> 63 ccacagcctg atcgtgctgt cgatgagagg aatctgctct aagggtctga gcggagggag 60 atgccgaagc tttgagcttt ttgtttctgg cttaaccttg gtggattttc accctctggg 120 cattacctct tgtccagggg aggggctggg ggagtgcctg gagctgtagg gacagagggc 180 tgagtggggg ggactgcttg ggctgaccac ataatattct gctgcgtatt aatttttttt 240 tgagacagtc tttctctgtt gcccaggctg gagtgtaatg gcttgatagc tcactgccac 300 ctccgcctcc tgggttcaag tgattctcct gcttcagctt ccggagtagc tgggactgca 360 ggtgcccgcc accatggctg gctaattttt gtatttttat tagcaatggg gttttgctat 420 gttgcccagg ccggtcccga actcctgccc tcaagtgata cacctgcctc ggcctcccaa 480 agtgctggga ttagaggctt gagccactgc gcctggccag ctgcatattg ttaattagac 540 ataaaatgca aaataagatg atataaacac aaaggtgtga aataagatgg acacctgctg 600 agcgcgcctg tcctgaagca tcgcccctct gcaaaagcag gggtcagcat gtgttctccg 660 gtccttgctc ttacagagga gtgagctgcc tatgcgtctt ccagccactt cctgggctgc 720 tcagaggcct ctcacgggtg ttctgggttg ctgccacttg caggggtgct gaggcggggc 780 tcctcccgtg cggggcatgt ccaggccgcc ctctctgaag gcttggcagg tacaggtggg 840 agtgggggtc tctgggctgc tgtggggact gggcaggctc ctggaagacc tccctgtgtt 900 tgggctgaaa gcgcagcccg aggggaggtc cccagggagg ccgctgtcgg gggtgggggc 960 ttggaggagg gaggggccga ggagccggcg acactccgtg acggcccagg aacgtcccta 1020 aacaaggcgc cgcgttctcg atggggtggg gtccgctttc ttttctcaaa agctgcagtt 1080 actccatgct cggaggactg gcgtccgcgc cctgttccaa tgctgccccg gggccctggc 1140 cttggggaat cggggccttg gactggaccc tgggggcttc gcggagccgg gcctggcggg 1200 gcgagcggag cagaggctgg gcagccccgg ggaagcgctc gccaaagccg ggcgctgctc 1260 ccagagcgcg aggtgcagaa ccagaggctg gtcccgcggc gctaacgaga gaagaggaag 1320 cgcgctgtgt agagggcgcc caccccgtgg ggcgaacccc cttcctcaac tccatggacg 1380 gggctcatgg gttcccagcg gctcagacgc 1410 <210> 64 <211> 1414 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR 64 <400> 64 tggatcagat ttgttttata ccctcccttc tactgctctg agagttgtac atcacagtct 60 actgtatctg tttcccatta ttataatttt tttgcactgt gcttgcctga agggagcctc 120 aagttcatga gtctccctac cctcctccca aatgagacat ggacctttga atgctttcct 180 gggaccacca ccccaccttt catgctgctg ttatccagga ttttagttca acagtgtttt 240 aaccccccaa atgagtcatt tttattgttt cgtatagtga atgtgtattt gggtttgctt 300 atatggtgac ctgtttattt gctcctcatt gtacctcatg ctctgctctt tccttctaga 360 ttcagtctct ttcctaatga ggtgtctcgc agcaattctt tacaagacag ccaagatagg 420 ccagctctca gagcacttgt tgtctgaaaa agtcttgtct tatttaattt ctttttctta 480 gagatggggt ctcattatgt tacccacact ggtctcaaac ttctggctta aagcggtcct 540 cccaccttgg cctcccaaag tgctaggatt acaggcgtga gcgacctcgt ccagcctgtc 600 tgagaaagcg tttgttttgc ccttgctctc agatgacagt ttggggatag aattctaggt 660 ggacggtttt tttccttcag ccctttgaag agtctgtatt ttcattatct ccctgcatta 720 gatgttcttt tgcaagtaac gtgtcttttc tctctgggta ttcttaaggt tttctctttg 780 cctttggtga gctgcagtgg atttgctttt ttcaagaggt caagagaaag gaaagtgtga 840 ggtttctgtt ttttactgac aatttgtttg ttgatttgtt ttcccaccca gaggttcctt 900 gccactttgc caggctggaa ggcagacttc ttctggtgtc ctgttcacag acggggcagc 960 ctgcggaagg ccctgccaca tgcagggcct cggtcctcat tcccttgcat gtggacccgg 1020 gcgtgactcc tgttcaggct ggcacttccc agagctgagc cccagcctga ccttcctccc 1080 atactgtctt cacaccccct cctttcttct gatacctgga ggttttcctt tctttcctgt 1140 cacctccact tggattttaa atcctctgtc tgtggaattg tattcggcac aggaagatgc 1200 ttgcaagggc caggctcatc agccctgtcc ctgctgctgg aagcagcaca gcagagcctc 1260 atgctcaggc tgagatggag cagaggcctg cagacgagca cccagctcag ctggggttgg 1320 cgccgatggt ggagggtcct cgaaagctct ggggacgatg gcagagctat tggcagggga 1380 gccgcagggt cttttgagcc cttaaaagat ctct 1414 <210> 65 <211> 1310 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR65 <400> 65 gtgaatgttg atggatcaaa tatctttctg tgttgtttat caaagttaaa ataaatgtgg 60 tcatttaaag gacaaaagat gaggggttgg agtctgttca agcaaagggt atattaggag 120 aaaagcagaa ttctctccct gtgaagggac agtgactcct attttccacc tcatttttac 180 taactctcct aactatctgc ttaggtagag atatatccat gtacatttat aaaccacagt 240 gaatcatttg attttggaat aaagatagta taaaatgtgt cccagtgttg atatacatca 300 tacattaaat atgtctggca gtgttctaat tttacagttg tccaaagata atgttagggc 360 atactggcta tggatgaagc tccaatgttc agattgcaaa gaaacttaga attttactaa 420 tgaaaccaaa tacatcccaa gaaatttttc agaagaaaaa aagagaaact agtagcaaag 480 taaagaatca ccacaatatc atcagatttt ttttatatgt agaatattta ttcagttctt 540 ttttcaagta caccttgtct tcattcattg tactttattt tttgtgaagg tttaaattta 600 tttcttctat gtgtttagtg atatttaaaa tttttattta atcaagttta tcagaaagtt 660 ctgttagaaa atatgacgag gctttaattc cgccatctat attttccgct attatataaa 720 gataattgtt ttctcttttt aaaacaactt gaattgggat tttatatcat aattttttaa 780 tgtctttttt tattatactt taagttctgg gatacatgtg cagaacgtgc aggtgtgtta 840 catagatata cacgtgccat ggtggtttgc tgcacccact aacctgttat cgacattagg 900 tatttctcct aatgctatca ccccctattt ccccaccccc cgagaggccc cagtgtgtga 960 tgttctcctc cctgtgtcca tgtgttctca ttgttcatct cccacttatg gtatctacca 1020 taaccttgaa attgtcttat gcattcactt gtttggttgt tatatagcct ccatcaggac 1080 agggatattt gctgctgctt cttttttttt tctttttgag acagtcttgc tccgtcatcc 1140 aggctggagt gcttctcggc tcaatgcaac ctccacctcc caggtttaag cgattctcca 1200 acttcagcct cccaaatggc tgggactgca ggcatgcacc actacacctg gctaattttt 1260 gtatttgtaa tagagacaat gtttcaccat gttggccagg ctggtctcga 1310 <210> 66 <211> 1917 <212> DNA <213> Homo sapiens <220> <221> misc_feature <223> sequence of STAR67 <400> 66 aggatcctaa aattttgtga ccctagagca agtactaact atgaaagtga aatagagaat 60 gaaggaatta tttaattaag tccagcaaaa cccaaccaaa tcatctgtaa aatatatttg 120 ttttcaacat ccaggtattt tctgtgtaaa aggttgagtt gtatgctgac ttattgggaa 180 aaataattga gttttcccct tcactttgcc agtgagagga aatcagtact gtaattgtta 240 aaggttaccc atacctacct ctactaccgt ctagcatagg taaagtaatg tacactgtga 300 agtttcctgc ttgactgtaa tgttttcagt ttcatcccat tgattcaaca gctatttatt 360 cagcacttac tacaaccatg ctggaaaccc aagagtaaat aggctgtgtt actcaacagg 420 actgaggtac agccgaactg tcaggcaagg ttgctgtcct ttggacttgc ctgctttctc 480 tctatgtagg aagaagaaat ggacataccg tccaggaaat agatatatgt tacatttcct 540 tattccataa ttaatattaa taaccctgga cagaaactac caagtttcta gacccttata 600 gtaccacctt accctttctg gatgaatcct tcacatgttg atacatttta tccaaatgaa 660 aattttggta ctgtaggtat aacagacaaa gagagaacag aaaactagag atgaagtttg 720 ggaaaaggtc aagaaagtaa ataatgcttc tagaagacac aaaaagaaaa atgaaatggt 780 aatgttggga aagttttaat acattttgcc ctaaggaaaa aaactacttg ttgaaattct 840 acttaagact ggaccttttc tctaaaaatt gtgcttgatg tgaattaaag caacacaggg 900 aaatttatgg gctccttcta agttctaccc aactcaccgc aaaactgttc ctagtaggtg 960 tggtatactc tttcagattc tttgtgtgta tgtatatgtg tgtgtgtgtg tgtgtttgta 1020 tgtgtacagt ctatatacat atgtgtacct acatgtgtgt atatataaat atatatttac 1080 ctggatgaaa tagcatatta tagaatattc ttttttcttt aaatatatat gtgcatacat 1140 atgtatatgc acatatatac ataaatgtag atatagctag gtaggcattc atgtgaaaca 1200 aagaagccta ttacttttta atggttgcat gatattccat cataggagta tagtacaact 1260 tatgtaacac acatttggct tgttgtaaaa ttttggtatt aataaaatag cacatatcat 1320 gcaaagacac ccttgcatag gtctattcat tctttgattt ttaccttagg acaaaattta 1380 aaagtagaat ttctgggtca agcagtatgc tcatttaaaa tgtcattgca tatttccaaa 1440 ttgtcctcca gaaaagtagt aacagtaaca attgatggac tgcgtgtttt ctaaaacttg 1500 catttttttc cttattggtg aggtttggca ttttccatat gtttattggc attttaattt 1560 tttttggttc atgtctttta ttcccttcct gcaaatttgt ggtgtgtctc aactttattt 1620 atactctcat tttcataatt ttctaaagga atttgacttt aaaaaaataa gacagccaat 1680 gctttggttt aatttcattg ctgctttttg aagtgactgc tgtgttttta tatactttta 1740 tattttgttg ttttagcaaa ttcttctata ttataattgt gtatgctgga acaaaaagtt 1800 atatttctta atctagataa aatatttcaa gatgttgtaa ttacagtccc ctctaaaatc 1860 atataaatag acgcatagct gtgtgatttg taattagtta tgtccattga tagatcc 1917 <210> 67 <211> 375 <212> DNA <213> Artificial <220> <223> wt zeocin resistance gene <220> <221> CDS (222) (1) .. (375) <400> 67 atg gcc aag ttg acc agt gcc gtt ccg gtg ctc acc gcg cgc gac gtc 48 Met Ala Lys Leu Thr Ser Ala Val Pro Val Leu Thr Ala Arg Asp Val 1 5 10 15 gcc gga gcg gtc gag ttc tgg acc gac cgg ctc ggg ttc tcc cgg gac 96 Ala Gly Ala Val Glu Phe Trp Thr Asp Arg Leu Gly Phe Ser Arg Asp 20 25 30 ttc gtg gag gac gac ttc gcc ggt gtg gtc cgg gac gac gtg acc ctg 144 Phe Val Glu Asp Asp Phe Ala Gly Val Val Arg Asp Asp Val Thr Leu 35 40 45 ttc atc agc gcg gtc cag gac cag gtg gtg ccg gac aac acc ctg gcc 192 Phe Ile Ser Ala Val Gln Asp Gln Val Val Pro Asp Asn Thr Leu Ala 50 55 60 tgg gtg tgg gtg cgc ggc ctg gac gag ctg tac gcc gag tgg tcg gag 240 Trp Val Trp Val Arg Gly Leu Asp Glu Leu Tyr Ala Glu Trp Ser Glu 65 70 75 80 gtc gtg tcc acg aac ttc cgg gac gcc tcc ggg ccg gcc atg acc gag 288 Val Val Ser Thr Asn Phe Arg Asp Ala Ser Gly Pro Ala Met Thr Glu 85 90 95 atc ggc gag cag ccg tgg ggg cgg gag ttc gcc ctg cgc gac ccg gcc 336 Ile Gly Glu Gln Pro Trp Gly Arg Glu Phe Ala Leu Arg Asp Pro Ala 100 105 110 ggc aac tgc gtg cac ttc gtg gcc gag gag cag gac tga 375 Gly Asn Cys Val His Phe Val Ala Glu Glu Gln Asp 115 120 <210> 68 <211> 124 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 68 Met Ala Lys Leu Thr Ser Ala Val Pro Val Leu Thr Ala Arg Asp Val 1 5 10 15 Ala Gly Ala Val Glu Phe Trp Thr Asp Arg Leu Gly Phe Ser Arg Asp 20 25 30 Phe Val Glu Asp Asp Phe Ala Gly Val Val Arg Asp Asp Val Thr Leu 35 40 45 Phe Ile Ser Ala Val Gln Asp Gln Val Val Pro Asp Asn Thr Leu Ala 50 55 60 Trp Val Trp Val Arg Gly Leu Asp Glu Leu Tyr Ala Glu Trp Ser Glu 65 70 75 80 Val Val Ser Thr Asn Phe Arg Asp Ala Ser Gly Pro Ala Met Thr Glu 85 90 95 Ile Gly Glu Gln Pro Trp Gly Arg Glu Phe Ala Leu Arg Asp Pro Ala 100 105 110 Gly Asn Cys Val His Phe Val Ala Glu Glu Gln Asp 115 120 <210> 69 <211> 399 <212> DNA <213> Artificial <220> <223> wt blasticidin resistance gene <220> <221> CDS (222) (1) .. (399) <400> 69 atg gcc aag cct ttg tct caa gaa gaa tcc acc ctc att gaa aga gca 48 Met Ala Lys Pro Leu Ser Gln Glu Glu Ser Thr Leu Ile Glu Arg Ala 1 5 10 15 acg gct aca atc aac agc atc ccc atc tct gaa gac tac agc gtc gcc 96 Thr Ala Thr Ile Asn Ser Ile Pro Ile Ser Glu Asp Tyr Ser Val Ala 20 25 30 agc gca gct ctc tct agc gac ggc cgc atc ttc act ggt gtc aat gta 144 Ser Ala Ala Leu Ser Ser Asp Gly Arg Ile Phe Thr Gly Val Asn Val 35 40 45 tat cat ttt act ggg gga cct tgt gca gaa ctc gtg gtg ctg ggc act 192 Tyr His Phe Thr Gly Gly Pro Cys Ala Glu Leu Val Val Leu Gly Thr 50 55 60 gct gct gct gcg gca gct ggc aac ctg act tgt atc gtc gcg atc gga 240 Ala Ala Ala Ala Ala Ala Gly Asn Leu Thr Cys Ile Val Ala Ile Gly 65 70 75 80 aat gag aac agg ggc atc ttg agc ccc tgc gga cgg tgc cga cag gtg 288 Asn Glu Asn Arg Gly Ile Leu Ser Pro Cys Gly Arg Cys Arg Gln Val 85 90 95 ctt ctc gat ctg cat cct ggg atc aaa gcc ata gtg aag gac agt gat 336 Leu Leu Asp Leu His Pro Gly Ile Lys Ala Ile Val Lys Asp Ser Asp 100 105 110 gga cag ccg acg gca gtt ggg att cgt gaa ttg ctg ccc tct ggt tat 384 Gly Gln Pro Thr Ala Val Gly Ile Arg Glu Leu Leu Pro Ser Gly Tyr 115 120 125 gtg tgg gag ggc taa 399 Val Trp Glu Gly 130 <210> 70 <211> 132 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 70 Met Ala Lys Pro Leu Ser Gln Glu Glu Ser Thr Leu Ile Glu Arg Ala 1 5 10 15 Thr Ala Thr Ile Asn Ser Ile Pro Ile Ser Glu Asp Tyr Ser Val Ala 20 25 30 Ser Ala Ala Leu Ser Ser Asp Gly Arg Ile Phe Thr Gly Val Asn Val 35 40 45 Tyr His Phe Thr Gly Gly Pro Cys Ala Glu Leu Val Val Leu Gly Thr 50 55 60 Ala Ala Ala Ala Ala Ala Gly Asn Leu Thr Cys Ile Val Ala Ile Gly 65 70 75 80 Asn Glu Asn Arg Gly Ile Leu Ser Pro Cys Gly Arg Cys Arg Gln Val 85 90 95 Leu Leu Asp Leu His Pro Gly Ile Lys Ala Ile Val Lys Asp Ser Asp 100 105 110 Gly Gln Pro Thr Ala Val Gly Ile Arg Glu Leu Leu Pro Ser Gly Tyr 115 120 125 Val Trp Glu Gly 130 <210> 71 <211> 600 <212> DNA <213> Artificial <220> <223> wt puromycin resistance gene <220> <221> CDS (222) (1) .. (600) <400> 71 atg acc gag tac aag ccc acg gtg cgc ctc gcc acc cgc gac gac gtc 48 Met Thr Glu Tyr Lys Pro Thr Val Arg Leu Ala Thr Arg Asp Asp Val 1 5 10 15 ccc agg gcc gta cgc acc ctc gcc gcc gcg ttc gcc gac tac ccc gcc 96 Pro Arg Ala Val Arg Thr Leu Ala Ala Ala Phe Ala Asp Tyr Pro Ala 20 25 30 acg cgc cac acc gtc gat ccg gac cgc cac atc gag cgg gtc acc gag 144 Thr Arg His Thr Val Asp Pro Asp Arg His Ile Glu Arg Val Thr Glu 35 40 45 ctg caa gaa ctc ttc ctc acg cgc gtc ggg ctc gac atc ggc aag gtg 192 Leu Gln Glu Leu Phe Leu Thr Arg Val Gly Leu Asp Ile Gly Lys Val 50 55 60 tgg gtc gcg gac gac ggc gcc gcg gtg gcg gtc tgg acc acg ccg gag 240 Trp Val Ala Asp Asp Gly Ala Ala Val Ala Val Trp Thr Thr Pro Glu 65 70 75 80 agc gtc gaa gcg ggg gcg gtg ttc gcc gag atc ggc ccg cgc atg gcc 288 Ser Val Glu Ala Gly Ala Val Phe Ala Glu Ile Gly Pro Arg Met Ala 85 90 95 gag ttg agc ggt tcc cgg ctg gcc gcg cag caa cag atg gaa ggc ctc 336 Glu Leu Ser Gly Ser Arg Leu Ala Ala Gln Gln Gln Met Glu Gly Leu 100 105 110 ctg gcg ccg cac cgg ccc aag gag ccc gcg tgg ttc ctg gcc acc gtc 384 Leu Ala Pro His Arg Pro Lys Glu Pro Ala Trp Phe Leu Ala Thr Val 115 120 125 ggc gtc tcg ccc gac cac cag ggc aag ggt ctg ggc agc gcc gtc gtg 432 Gly Val Ser Pro Asp His Gln Gly Lys Gly Leu Gly Ser Ala Val Val 130 135 140 ctc ccc gga gtg gag gcg gcc gag cgc gcc ggg gtg ccc gcc ttc ctg 480 Leu Pro Gly Val Glu Ala Ala Glu Arg Ala Gly Val Pro Ala Phe Leu 145 150 155 160 gag acc tcc gcg ccc cgc aac ctc ccc ttc tac gag cgg ctc ggc ttc 528 Glu Thr Ser Ala Pro Arg Asn Leu Pro Phe Tyr Glu Arg Leu Gly Phe 165 170 175 acc gtc acc gcc gac gtc gag tgc ccg aag gac cgc gcg acc tgg tgc 576 Thr Val Thr Ala Asp Val Glu Cys Pro Lys Asp Arg Ala Thr Trp Cys 180 185 190 atg acc cgc aag ccc ggt gcc tga 600 Met Thr Arg Lys Pro Gly Ala 195 <210> 72 <211> 199 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 72 Met Thr Glu Tyr Lys Pro Thr Val Arg Leu Ala Thr Arg Asp Asp Val 1 5 10 15 Pro Arg Ala Val Arg Thr Leu Ala Ala Ala Phe Ala Asp Tyr Pro Ala 20 25 30 Thr Arg His Thr Val Asp Pro Asp Arg His Ile Glu Arg Val Thr Glu 35 40 45 Leu Gln Glu Leu Phe Leu Thr Arg Val Gly Leu Asp Ile Gly Lys Val 50 55 60 Trp Val Ala Asp Asp Gly Ala Ala Val Ala Val Trp Thr Thr Pro Glu 65 70 75 80 Ser Val Glu Ala Gly Ala Val Phe Ala Glu Ile Gly Pro Arg Met Ala 85 90 95 Glu Leu Ser Gly Ser Arg Leu Ala Ala Gln Gln Gln Met Glu Gly Leu 100 105 110 Leu Ala Pro His Arg Pro Lys Glu Pro Ala Trp Phe Leu Ala Thr Val 115 120 125 Gly Val Ser Pro Asp His Gln Gly Lys Gly Leu Gly Ser Ala Val Val 130 135 140 Leu Pro Gly Val Glu Ala Ala Glu Arg Ala Gly Val Pro Ala Phe Leu 145 150 155 160 Glu Thr Ser Ala Pro Arg Asn Leu Pro Phe Tyr Glu Arg Leu Gly Phe 165 170 175 Thr Val Thr Ala Asp Val Glu Cys Pro Lys Asp Arg Ala Thr Trp Cys 180 185 190 Met Thr Arg Lys Pro Gly Ala 195 <210> 73 <211> 564 <212> DNA <213> Artificial <220> Wt DHFR gene (from mouse) <220> <221> CDS (222) (1) .. (564) <400> 73 atg gtt cga cca ttg aac tgc atc gtc gcc gtg tcc caa aat atg ggg 48 Met Val Arg Pro Leu Asn Cys Ile Val Ala Val Ser Gln Asn Met Gly 1 5 10 15 att ggc aag aac gga gac cta ccc tgg cct ccg ctc agg aac gag ttc 96 Ile Gly Lys Asn Gly Asp Leu Pro Trp Pro Pro Leu Arg Asn Glu Phe 20 25 30 aag tac ttc caa aga atg acc aca acc tct tca gtg gaa ggt aaa cag 144 Lys Tyr Phe Gln Arg Met Thr Thr Thr Ser Ser Val Glu Gly Lys Gln 35 40 45 aat ctg gtg att atg ggt agg aaa acc tgg ttc tcc att cct gag aag 192 Asn Leu Val Ile Met Gly Arg Lys Thr Trp Phe Ser Ile Pro Glu Lys 50 55 60 aat cga cct tta aag gac aga att aat ata gtt ctc agt aga gaa ctc 240 Asn Arg Pro Leu Lys Asp Arg Ile Asn Ile Val Leu Ser Arg Glu Leu 65 70 75 80 aaa gaa cca cca cga gga gct cat ttt ctt gcc aaa agt ttg gat gat 288 Lys Glu Pro Pro Arg Gly Ala His Phe Leu Ala Lys Ser Leu Asp Asp 85 90 95 gcc tta aga ctt att gaa caa ccg gaa ttg gca agt aaa gta gac atg 336 Ala Leu Arg Leu Ile Glu Gln Pro Glu Leu Ala Ser Lys Val Asp Met 100 105 110 gtt tgg ata gtc gga ggc agt tct gtt tac cag gaa gcc atg aat caa 384 Val Trp Ile Val Gly Gly Ser Ser Val Tyr Gln Glu Ala Met Asn Gln 115 120 125 cca ggc cac ctc aga ctc ttt gtg aca agg atc atg cag gaa ttt gaa 432 Pro Gly His Leu Arg Leu Phe Val Thr Arg Ile Met Gln Glu Phe Glu 130 135 140 agt gac acg ttt ttc cca gaa att gat ttg ggg aaa tat aaa ctt ctc 480 Ser Asp Thr Phe Phe Pro Glu Ile Asp Leu Gly Lys Tyr Lys Leu Leu 145 150 155 160 cca gaa tac cca ggc gtc ctc tct gag gtc cag gag gaa aaa ggc atc 528 Pro Glu Tyr Pro Gly Val Leu Ser Glu Val Gln Glu Glu Lys Gly Ile 165 170 175 aag tat aag ttt gaa gtc tac gag aag aaa gac taa 564 Lys Tyr Lys Phe Glu Val Tyr Glu Lys Lys Asp 180 185 <210> 74 <211> 187 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 74 Met Val Arg Pro Leu Asn Cys Ile Val Ala Val Ser Gln Asn Met Gly 1 5 10 15 Ile Gly Lys Asn Gly Asp Leu Pro Trp Pro Pro Leu Arg Asn Glu Phe 20 25 30 Lys Tyr Phe Gln Arg Met Thr Thr Thr Ser Ser Val Glu Gly Lys Gln 35 40 45 Asn Leu Val Ile Met Gly Arg Lys Thr Trp Phe Ser Ile Pro Glu Lys 50 55 60 Asn Arg Pro Leu Lys Asp Arg Ile Asn Ile Val Leu Ser Arg Glu Leu 65 70 75 80 Lys Glu Pro Pro Arg Gly Ala His Phe Leu Ala Lys Ser Leu Asp Asp 85 90 95 Ala Leu Arg Leu Ile Glu Gln Pro Glu Leu Ala Ser Lys Val Asp Met 100 105 110 Val Trp Ile Val Gly Gly Ser Ser Val Tyr Gln Glu Ala Met Asn Gln 115 120 125 Pro Gly His Leu Arg Leu Phe Val Thr Arg Ile Met Gln Glu Phe Glu 130 135 140 Ser Asp Thr Phe Phe Pro Glu Ile Asp Leu Gly Lys Tyr Lys Leu Leu 145 150 155 160 Pro Glu Tyr Pro Gly Val Leu Ser Glu Val Gln Glu Glu Lys Gly Ile 165 170 175 Lys Tyr Lys Phe Glu Val Tyr Glu Lys Lys Asp 180 185 <210> 75 <211> 1143 <212> DNA <213> Artificial <220> <223> wt hygromycin resistance gene <220> <221> CDS (222) (1) .. (1143) <400> 75 atg aaa aag cct gaa ctc acc gcg acg tct gtc gag aag ttt ctg atc 48 Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile 1 5 10 15 gaa aag ttc gac agc gtc tcc gac ctg atg cag ctc tcg gag ggc gaa 96 Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu 20 25 30 gaa tct cgt gct ttc agc ttc gat gta gga ggg cgt gga tat gtc ctg 144 Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu 35 40 45 cgg gta aat agc tgc gcc gat ggt ttc tac aaa gat cgt tat gtt tat 192 Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr 50 55 60 cgg cac ttt gca tcg gcc gcg ctc ccg att ccg gaa gtg ctt gac att 240 Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile 65 70 75 80 ggg gaa ttc agc gag agc ctg acc tat tgc atc tcc cgc cgt gca cag 288 Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln 85 90 95 ggt gtc acg ttg caa gac ctg cct gaa acc gaa ctg ccc gct gtt ctg 336 Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu 100 105 110 cag ccg gtc gcg gag gcc atg gat gcg atc gct gcg gcc gat ctt agc 384 Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser 115 120 125 cag acg agc ggg ttc ggc cca ttc gga ccg caa gga atc ggt caa tac 432 Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr 130 135 140 act aca tgg cgt gat ttc ata tgc gcg att gct gat ccc cat gtg tat 480 Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr 145 150 155 160 cac tgg caa act gtg atg gac gac acc gtc agt gcg tcc gtc gcg cag 528 His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln 165 170 175 gct ctc gat gag ctg atg ctt tgg gcc gag gac tgc ccc gaa gtc cgg 576 Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg 180 185 190 cac ctc gtg cac gcg gat ttc ggc tcc aac aat gtc ctg acg gac aat 624 His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn 195 200 205 ggc cgc ata aca gcg gtc att gac tgg agc gag gcg atg ttc ggg gat 672 Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp 210 215 220 tcc caa tac gag gtc gcc aac atc ttc ttc tgg agg ccg tgg ttg gct 720 Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala 225 230 235 240 tgt atg gag cag cag acg cgc tac ttc gag cgg agg cat ccg gag ctt 768 Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu 245 250 255 gca gga tcg ccg cgg ctc cgg gcg tat atg ctc cgc att ggt ctt gac 816 Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp 260 265 270 caa ctc tat cag agc ttg gtt gac ggc aat ttc gat gat gca gct tgg 864 Gln Leu Tyr Gln Ser Leu Val Asp Gly Asn Phe Asp Asp Ala Ala Trp 275 280 285 gcg cag ggt cga tgc gac gca atc gtc cga tcc gga gcc ggg act gtc 912 Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val 290 295 300 ggg cgt aca caa atc gcc cgc aga agc gcg gcc gtc tgg acc gat ggc 960 Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly 305 310 315 320 tgt gta gaa gta ctc gcc gat agt gga aac cga cgc ccc agc act cgt 1008 Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg 325 330 335 ccg gag gca aag gaa ttc ggg aga tgg ggg agg cta act gaa aca cgg 1056 Pro Glu Ala Lys Glu Phe Gly Arg Trp Gly Arg Leu Thr Glu Thr Arg 340 345 350 aag gag aca ata ccg gaa gga acc cgc gct atg acg gca ata aaa aga 1104 Lys Glu Thr Ile Pro Glu Gly Thr Arg Ala Met Thr Ala Ile Lys Arg 355 360 365 cag aat aaa acg cac ggg tgt tgg gtc gtt tgt tca taa 1143 Gln Asn Lys Thr His Gly Cys Trp Val Val Cys Ser 370 375 380 <210> 76 <211> 380 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 76 Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile 1 5 10 15 Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu 20 25 30 Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu 35 40 45 Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr 50 55 60 Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile 65 70 75 80 Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln 85 90 95 Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu 100 105 110 Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser 115 120 125 Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr 130 135 140 Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr 145 150 155 160 His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln 165 170 175 Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg 180 185 190 His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn 195 200 205 Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp 210 215 220 Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala 225 230 235 240 Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu 245 250 255 Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp 260 265 270 Gln Leu Tyr Gln Ser Leu Val Asp Gly Asn Phe Asp Asp Ala Ala Trp 275 280 285 Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val 290 295 300 Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly 305 310 315 320 Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg 325 330 335 Pro Glu Ala Lys Glu Phe Gly Arg Trp Gly Arg Leu Thr Glu Thr Arg 340 345 350 Lys Glu Thr Ile Pro Glu Gly Thr Arg Ala Met Thr Ala Ile Lys Arg 355 360 365 Gln Asn Lys Thr His Gly Cys Trp Val Val Cys Ser 370 375 380 <210> 77 <211> 804 <212> DNA <213> Artificial <220> <223> wt neomycin resistance gene <220> <221> CDS (222) (1) .. (804) <400> 77 atg gga tcg gcc att gaa caa gat gga ttg cac gca ggt tct ccg gcc 48 Met Gly Ser Ala Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala 1 5 10 15 gct tgg gtg gag agg cta ttc ggc tat gac tgg gca caa cag aca atc 96 Ala Trp Val Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile 20 25 30 ggc tgc tct gat gcc gcc gtg ttc cgg ctg tca gcg cag ggg cgc ccg 144 Gly Cys Ser Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro 35 40 45 gtt ctt ttt gtc aag acc gac ctg tcc ggt gcc ctg aat gaa ctg cag 192 Val Leu Phe Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln 50 55 60 gac gag gca gcg cgg cta tcg tgg ctg gcc acg acg ggc gtt cct tgc 240 Asp Glu Ala Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys 65 70 75 80 gca gct gtg ctc gac gtt gtc act gaa gcg gga agg gac tgg ctg cta 288 Ala Ala Val Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu 85 90 95 ttg ggc gaa gtg ccg ggg cag gat ctc ctg tca tct cac ctt gct cct 336 Leu Gly Glu Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro 100 105 110 gcc gag aaa gta tcc atc atg gct gat gca atg cgg cgg ctg cat acg 384 Ala Glu Lys Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr 115 120 125 ctt gat ccg gct acc tgc cca ttc gac cac caa gcg aaa cat cgc atc 432 Leu Asp Pro Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile 130 135 140 gag cga gca cgt act cgg atg gaa gcc ggt ctt gtc gat cag gat gat 480 Glu Arg Ala Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp 145 150 155 160 ctg gac gaa gag cat cag ggg ctc gcg cca gcc gaa ctg ttc gcc agg 528 Leu Asp Glu Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg 165 170 175 ctc aag gcg cgc atg ccc gac ggc gat gat ctc gtc gtg acc cat ggc 576 Leu Lys Ala Arg Met Pro Asp Gly Asp Asp Leu Val Val Thr His Gly 180 185 190 gat gcc tgc ttg ccg aat atc atg gtg gaa aat ggc cgc ttt tct gga 624 Asp Ala Cys Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly 195 200 205 ttc atc gac tgt ggc cgg ctg ggt gtg gcg gac cgc tat cag gac ata 672 Phe Ile Asp Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile 210 215 220 gcg ttg gct acc cgt gat att gct gaa gag ctt ggc ggc gaa tgg gct 720 Ala Leu Ala Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala 225 230 235 240 gac cgc ttc ctc gtg ctt tac ggt atc gcc gct ccc gat tcg cag cgc 768 Asp Arg Phe Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg 245 250 255 atc gcc ttc tat cgc ctt ctt gac gag ttc ttc tga 804 Ile Ala Phe Tyr Arg Leu Leu Asp Glu Phe Phe 260 265 <210> 78 <211> 267 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 78 Met Gly Ser Ala Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala 1 5 10 15 Ala Trp Val Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile 20 25 30 Gly Cys Ser Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro 35 40 45 Val Leu Phe Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln 50 55 60 Asp Glu Ala Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys 65 70 75 80 Ala Ala Val Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu 85 90 95 Leu Gly Glu Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro 100 105 110 Ala Glu Lys Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr 115 120 125 Leu Asp Pro Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile 130 135 140 Glu Arg Ala Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp 145 150 155 160 Leu Asp Glu Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg 165 170 175 Leu Lys Ala Arg Met Pro Asp Gly Asp Asp Leu Val Val Thr His Gly 180 185 190 Asp Ala Cys Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly 195 200 205 Phe Ile Asp Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile 210 215 220 Ala Leu Ala Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala 225 230 235 240 Asp Arg Phe Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg 245 250 255 Ile Ala Phe Tyr Arg Leu Leu Asp Glu Phe Phe 260 265 <210> 79 <211> 1121 <212> DNA <213> Artificial <220> Wt 223 glutamine synthase gene (human) <220> <221> CDS (222) (1) .. (1119) <400> 79 atg acc acc tca gca agt tcc cac tta aat aaa ggc atc aag cag gtg 48 Met Thr Thr Ser Ala Ser Ser His Leu Asn Lys Gly Ile Lys Gln Val 1 5 10 15 tac atg tcc ctg cct cag ggt gag aaa gtc cag gcc atg tat atc tgg 96 Tyr Met Ser Leu Pro Gln Gly Glu Lys Val Gln Ala Met Tyr Ile Trp 20 25 30 atc gat ggt act gga gaa gga ctg cgc tgc aag acc cgg acc ctg gac 144 Ile Asp Gly Thr Gly Glu Gly Leu Arg Cys Lys Thr Arg Thr Leu Asp 35 40 45 agt gag ccc aag tgt gtg gaa gag ttg cct gag tgg aat ttc gat ggc 192 Ser Glu Pro Lys Cys Val Glu Glu Leu Pro Glu Trp Asn Phe Asp Gly 50 55 60 tcc agt act tta cag tct gag ggt tcc aac agt gac atg tat ctc gtg 240 Ser Ser Thr Leu Gln Ser Glu Gly Ser Asn Ser Asp Met Tyr Leu Val 65 70 75 80 cct gct gcc atg ttt cgg gac ccc ttc cgt aag gac cct aac aag ctg 288 Pro Ala Ala Met Phe Arg Asp Pro Phe Arg Lys Asp Pro Asn Lys Leu 85 90 95 gtg tta tgt gaa gtt ttc aag tac aat cga agg cct gca gag acc aat 336 Val Leu Cys Glu Val Phe Lys Tyr Asn Arg Arg Pro Ala Glu Thr Asn 100 105 110 ttg agg cac acc tgt aaa cgg ata atg gac atg gtg agc aac cag cac 384 Leu Arg His Thr Cys Lys Arg Ile Met Asp Met Val Ser Asn Gln His 115 120 125 ccc tgg ttt ggc atg gag cag gag tat acc ctc atg ggg aca gat ggg 432 Pro Trp Phe Gly Met Glu Gln Glu Tyr Thr Leu Met Gly Thr Asp Gly 130 135 140 cac ccc ttt ggt tgg cct tcc aac ggc ttc cca ggg ccc cag ggt cca 480 His Pro Phe Gly Trp Pro Ser Asn Gly Phe Pro Gly Pro Gln Gly Pro 145 150 155 160 tat tac tgt ggt gtg gga gca gac aga gcc tat ggc agg gac atc gtg 528 Tyr Tyr Cys Gly Val Gly Ala Asp Arg Ala Tyr Gly Arg Asp Ile Val 165 170 175 gag gcc cat tac cgg gcc tgc ttg tat gct gga gtc aag att gcg ggg 576 Glu Ala His Tyr Arg Ala Cys Leu Tyr Ala Gly Val Lys Ile Ala Gly 180 185 190 act aat gcc gag gtc atg cct gcc cag tgg gaa ttt cag att gga cct 624 Thr Asn Ala Glu Val Met Pro Ala Gln Trp Glu Phe Gln Ile Gly Pro 195 200 205 tgt gaa gga atc agc atg gga gat cat ctc tgg gtg gcc cgt ttc atc 672 Cys Glu Gly Ile Ser Met Gly Asp His Leu Trp Val Ala Arg Phe Ile 210 215 220 ttg cat cgt gtg tgt gaa gac ttt gga gtg ata gca acc ttt gat cct 720 Leu His Arg Val Cys Glu Asp Phe Gly Val Ile Ala Thr Phe Asp Pro 225 230 235 240 aag ccc att cct ggg aac tgg aat ggt gca ggc tgc cat acc aac ttc 768 Lys Pro Ile Pro Gly Asn Trp Asn Gly Ala Gly Cys His Thr Asn Phe 245 250 255 agc acc aag gcc atg cgg gag gag aat ggt ctg aag tac atc gag gag 816 Ser Thr Lys Ala Met Arg Glu Glu Asn Gly Leu Lys Tyr Ile Glu Glu 260 265 270 gcc att gag aaa cta agc aag cgg cac cag tac cac atc cgt gcc tat 864 Ala Ile Glu Lys Leu Ser Lys Arg His Gln Tyr His Ile Arg Ala Tyr 275 280 285 gat ccc aag gga ggc ctg gac aat gcc cga cgt cta act gga ttc cat 912 Asp Pro Lys Gly Gly Leu Asp Asn Ala Arg Arg Leu Thr Gly Phe His 290 295 300 gaa acc tcc aac atc aac gac ttt tct ggt ggt gta gcc aat cgt agc 960 Glu Thr Ser Asn Ile Asn Asp Phe Ser Gly Gly Val Ala Asn Arg Ser 305 310 315 320 gcc agc ata cgc att ccc cgg act gtt ggc cag gag aag aag ggt tac 1008 Ala Ser Ile Arg Ile Pro Arg Thr Val Gly Gln Glu Lys Lys Gly Tyr 325 330 335 ttt gaa gat cgt cgc ccc tct gcc aac tgc gac ccc ttt tcg gtg aca 1056 Phe Glu Asp Arg Arg Pro Ser Ala Asn Cys Asp Pro Phe Ser Val Thr 340 345 350 gaa gcc ctc atc cgc acg tgt ctt ctc aat gaa acc ggc gat gag ccc 1104 Glu Ala Leu Ile Arg Thr Cys Leu Leu Asn Glu Thr Gly Asp Glu Pro 355 360 365 ttc cag tac aaa aat ta 1121 Phe Gln Tyr Lys Asn 370 <210> 80 <211> 373 <212> PRT <213> Artificial <220> <223> Synthetic Construct <400> 80 Met Thr Thr Ser Ala Ser Ser His Leu Asn Lys Gly Ile Lys Gln Val 1 5 10 15 Tyr Met Ser Leu Pro Gln Gly Glu Lys Val Gln Ala Met Tyr Ile Trp 20 25 30 Ile Asp Gly Thr Gly Glu Gly Leu Arg Cys Lys Thr Arg Thr Leu Asp 35 40 45 Ser Glu Pro Lys Cys Val Glu Glu Leu Pro Glu Trp Asn Phe Asp Gly 50 55 60 Ser Ser Thr Leu Gln Ser Glu Gly Ser Asn Ser Asp Met Tyr Leu Val 65 70 75 80 Pro Ala Ala Met Phe Arg Asp Pro Phe Arg Lys Asp Pro Asn Lys Leu 85 90 95 Val Leu Cys Glu Val Phe Lys Tyr Asn Arg Arg Pro Ala Glu Thr Asn 100 105 110 Leu Arg His Thr Cys Lys Arg Ile Met Asp Met Val Ser Asn Gln His 115 120 125 Pro Trp Phe Gly Met Glu Gln Glu Tyr Thr Leu Met Gly Thr Asp Gly 130 135 140 His Pro Phe Gly Trp Pro Ser Asn Gly Phe Pro Gly Pro Gln Gly Pro 145 150 155 160 Tyr Tyr Cys Gly Val Gly Ala Asp Arg Ala Tyr Gly Arg Asp Ile Val 165 170 175 Glu Ala His Tyr Arg Ala Cys Leu Tyr Ala Gly Val Lys Ile Ala Gly 180 185 190 Thr Asn Ala Glu Val Met Pro Ala Gln Trp Glu Phe Gln Ile Gly Pro 195 200 205 Cys Glu Gly Ile Ser Met Gly Asp His Leu Trp Val Ala Arg Phe Ile 210 215 220 Leu His Arg Val Cys Glu Asp Phe Gly Val Ile Ala Thr Phe Asp Pro 225 230 235 240 Lys Pro Ile Pro Gly Asn Trp Asn Gly Ala Gly Cys His Thr Asn Phe 245 250 255 Ser Thr Lys Ala Met Arg Glu Glu Asn Gly Leu Lys Tyr Ile Glu Glu 260 265 270 Ala Ile Glu Lys Leu Ser Lys Arg His Gln Tyr His Ile Arg Ala Tyr 275 280 285 Asp Pro Lys Gly Gly Leu Asp Asn Ala Arg Arg Leu Thr Gly Phe His 290 295 300 Glu Thr Ser Asn Ile Asn Asp Phe Ser Gly Gly Val Ala Asn Arg Ser 305 310 315 320 Ala Ser Ile Arg Ile Pro Arg Thr Val Gly Gln Glu Lys Lys Gly Tyr 325 330 335 Phe Glu Asp Arg Arg Pro Ser Ala Asn Cys Asp Pro Phe Ser Val Thr 340 345 350 Glu Ala Leu Ile Arg Thr Cys Leu Leu Asn Glu Thr Gly Asp Glu Pro 355 360 365 Phe Gln Tyr Lys Asn 370 <210> 81 <211> 154 <212> DNA <213> Artificial <220> <223> combined synthetic polyadenylation sequence and pausing signal from the human alpha2 globin gene <220> <221> synthetic polyadenylation sequence (222) (1) .. (49) <220> <221> cloning site (222) (50) .. (62) <220> <221> pausing signal from the human alpha2 globin gene (222) (63) .. (154) <400> 81 aataaaatat ctttattttc attacatctg tgtgttggtt ttttgtgtga atcgatagta 60 ctaacatacg ctctccatca aaacaaaacg aaacaaaaca aactagcaaa ataggctgtc 120 cccagtgcaa gtgcaggtgc cagaacattt ctct 154 <210> 82 <211> 596 <212> DNA <213> Artificial <220> <223> IRES sequence <400> 82 gcccctctcc ctcccccccc cctaacgtta ctggccgaag ccgcttggaa taaggccggt 60 gtgcgtttgt ctatatgtga ttttccacca tattgccgtc ttttggcaat gtgagggccc 120 ggaaacctgg ccctgtcttc ttgacgagca ttcctagggg tctttcccct ctcgccaaag 180 gaatgcaagg tctgttgaat gtcgtgaagg aagcagttcc tctggaagct tcttgaagac 240 aaacaacgtc tgtagcgacc ctttgcaggc agcggaaccc cccacctggc gacaggtgcc 300 tctgcggcca aaagccacgt gtataagata cacctgcaaa ggcggcacaa ccccagtgcc 360 acgttgtgag ttggatagtt gtggaaagag tcaaatggct ctcctcaagc gtattcaaca 420 aggggctgaa ggatgcccag aaggtacccc attgtatggg atctgatctg gggcctcggt 480 gcacatgctt tacatgtgtt tagtcgaggt taaaaaaacg tctaggcccc ccgaaccacg 540 gggacgtggt tttcctttga aaaacacgat gataagcttg ccacaacccc gggata 596

Claims

i) a polypeptide of interest, and

ii) a selectable marker polypeptide functional in a eukaryotic host cell

A multicistronic transcriptional unit comprising at least one coding sequence for coding all;

Wherein the polypeptide of interest has a transcription initiation sequence that is distinct from that of the selectable marker polypeptide,

Wherein at least one coding sequence for the polypeptide of interest is upstream of at least one coding sequence for the selectable marker polypeptide in the multicistronic transcriptional unit,

Wherein the internal ribosome entry site (IRES) is downstream of one or more coding sequences for the polypeptide of interest and upstream of one or more coding sequences for the selectable marker polypeptide), and

The coding sequence encoding the selectable marker polypeptide is

a) GTG start codon;

b) TTG start codon;

c) CTG start codon;

d) ATT start codon; And

e) a DNA molecule comprising a translation start sequence selected from the group consisting of ACG start codons.

The DNA molecule of claim 1, wherein the translation start sequence for the selectable marker polypeptide comprises a GTG start codon or a TTG start codon.

The DNA molecule of claim 1 or 2, wherein the selectable marker polypeptide provides resistance to the lethal or growth-inhibitory effect of the selection agent.

4. The DNA molecule of claim 3, wherein said selector is selected from the group consisting of zeosin, puromycin, blasticidine, hygromycin, neomycin, methotrexate, methionine sulfoximine and kanamycin.

The DNA molecule of claim 3, wherein the selector is zeocin.

The DNA molecule of claim 1 or 2, wherein the selectable marker polypeptide is 5,6,7,8-tetrahydrofolate synthetase (dhfr).

7. The method of claim 1, wherein the multicistronic transcriptional unit further comprises a sequence encoding a second selectable marker polypeptide that functions in eukaryotic cells, wherein said second selectable. The sequence encoding the marker polypeptide is:

a) has a translation initiation sequence that is distinct from that of the polypeptide of interest

b) upstream of the sequence encoding the polypeptide of interest,

c) does not have an ATG sequence in the coding strand following the start codon of the second selectable marker polypeptide up to the start codon of the polypeptide of interest, and

d) a DNA molecule having a GTG start codon or a TTG start codon.

An expression cassette comprising a DNA molecule according to any one of claims 1 to 7, wherein said expression cassette is a transcription termination sequence upstream of said multicistronic transcriptional unit and downstream of a promoter and a multicistronic electronic unit. Wherein said expression cassette is functional in the eukaryotic host cell to initiate transcription of the multicistronic transcriptional unit.

The method of claim 8, further comprising one or more chromatin modulations selected from the group consisting of matrix or skeletal attachment regions (MAR / SAR), isolated sequences, ubiquitous chromatin open element (UCOE), and anti-inhibitor (STAR) sequences An expression cassette comprising the element.

The expression cassette of claim 9, wherein the one or more chromatin regulatory elements are anti-inhibitor sequences selected from the group consisting of:

a) SEQ. ID. NO. 1 to SEQ. ID. NO. Any one of 66;

b) SEQ. ID. NO. 1 to SEQ. ID. NO. A fragment of any one of the preceding claims wherein the fragment has anti-inhibitory activity

c) a sequence in which at least 70% of a) or b) and the nucleotide sequence are identical, wherein the sequence has anti-inhibitory activity; And

d) the complement of any one of a) to c).

A host cell comprising a DNA molecule according to any one of claims 1 to 7 or an expression cassette according to any one of claims 8 to 10, wherein said host cell is preferably a mammalian cell, Preferably the host cell is a Chinese hamster ovary (CHO) cell.

A method of generating host cells capable of expressing a polypeptide of interest, said method comprising:

a) introducing a DNA molecule according to any one of claims 1 to 7 or an expression cassette according to any one of claims 8 to 10 into a plurality of precursor cells, and

b) culturing the plurality of precursor cells under conditions suitable for expression of the selectable marker polypeptide, and

c) selecting one or more host cells that express the polypeptide of interest.

A method of expressing a polypeptide of interest comprising culturing a host cell comprising an expression cassette according to any one of claims 8 to 10 and expressing the polypeptide of interest from said expression cassette.

The method of claim 13, further comprising harvesting the polypeptide of interest.

15. The selectable marker polypeptide of claim 13 or 14, wherein said host cell is a CHO cell having a dhfr ^- serotype, wherein the expression cassette is 5,6,7,8-tetrahydrofolate synthetase (dhfr). Comprising a coding sequence for wherein the cells are cultured in a medium containing folate and the medium is essentially free of hypoxanthine and thymidine.