[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5765700B2 - 可溶性制御タグ設計装置およびその方法とプログラム - Google Patents

可溶性制御タグ設計装置およびその方法とプログラム Download PDF

Info

Publication number
JP5765700B2
JP5765700B2 JP2010270358A JP2010270358A JP5765700B2 JP 5765700 B2 JP5765700 B2 JP 5765700B2 JP 2010270358 A JP2010270358 A JP 2010270358A JP 2010270358 A JP2010270358 A JP 2010270358A JP 5765700 B2 JP5765700 B2 JP 5765700B2
Authority
JP
Japan
Prior art keywords
amino acid
sequence
tag
similarity group
acid similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010270358A
Other languages
English (en)
Other versions
JP2012116816A (ja
Inventor
修一 廣瀬
修一 廣瀬
保 野口
保 野口
直樹 五島
直樹 五島
正敏 森
正敏 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Japan Biological Informatics Consortium
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Japan Biological Informatics Consortium
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST, Japan Biological Informatics Consortium filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2010270358A priority Critical patent/JP5765700B2/ja
Publication of JP2012116816A publication Critical patent/JP2012116816A/ja
Application granted granted Critical
Publication of JP5765700B2 publication Critical patent/JP5765700B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Peptides Or Proteins (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、タンパク質の可溶化または不溶化をコントロールする技術に関する。
タンパク質の生産は、生化学、構造科学、薬学、産業などの分野において重要な問題である。遺伝子組み換えにより、タンパク質をうまく得るためには、発現、可溶性、精製の3つのステップを克服することが必要である。これまで、タンパク質の発現システムには、生きた細胞がよく用いられてきた。大腸菌は、遺伝子的に扱いやすく、組み換えタンパク質を大量に得られるので、好ましい宿主の一つである。微生物や培養細胞を用いる方法に加えて、原核生物や真核生物から抽出されたタンパク質合成系を用いる方法も提案されている。これらの技術は、ターゲットのタンパク質を大量に発現させることができ、さらには、タンパク質の可溶性を劇的に高めると共に、精製を行いやすくする。
タンパク質の可溶性を高める確実なアプローチは、ターゲットのタンパク質に高可溶性のタンパク質を付加することである。一般的に、付加された配列をタグと呼ぶ。可溶化タグとして機能するいくつかのタンパク質が文献にて報告されている。例えば、非特許文献1にてグルタチオン−S−トランスフェラーゼ(GST)が、非特許文献2にてマルトース結合タンパク質(MBP)が、非特許文献3にてチオレドキシン(Trx)が、非特許文献4にてN利用物質(NusA)が報告されている。これらのタンパク質は、高い可溶性を有するものとして経験的に良く知られている。
可溶化タグと同様に、組換えタンパク質の精製を容易にするために、アフィニティタグも開発されてきている。MBPおよびGSTはともに、可溶化タグであると共にアフィニティタグとしての機能を有している。GSTがグルタチオンレジンに強く結合し、MBTはアミラーゼレジンに強く結合する。
Nygren, P.A.et.al,「Engineering proteins to facilitate bioprocessing」 Trends Biotechnol.12 (1994), 184-188 Nallamsetty, S. and Waugh, D.S.「Solubility-enhancing proteins MBP and NusA play a passive role in the folding of their fusion partners」Protein Expr. Purif. 45(2006), 175-182 LaVallie, E.R.et.al,「A thioredoxin gene fusion expression system that circumvents inclusion body formation in the E. coli cytoplasm」Biotechnology(NY) 11(1993), 187-193 Davis, G.D.et.al,「New fusion protein systems designed to give soluble expression in Escherichia coli」Biotechnol. Bioeng 65(1999) 382-388
タグは、タンパク質可溶性や精製に有用なツールであるにも関わらず、すべてのタンパク質に有益なわけではない。研究者は、異なるタグが結合した種々の組換えタンパク質を発現させ、可溶性を比較して、最適のタグを探さなければならない。また、生化学の研究や治療用タンパク質の試験には、タグを外すことが必要である。なぜなら、タグのサイズが大きいために、ターゲットのタンパク質の構造と機能の両面に影響を及ぼすからである。これらの問題は、特に、高効率のクローニングや発現のプロジェクトの妨げとなる。
本発明は、末端領域のアミノ酸配列がタンパク質の可溶性に影響するという考えに基づいて、タンパク質の可溶性をコントロールするタグを設計する方法を提案する。
本発明は、実験により可溶性または不溶性であることが確認されたタンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて可溶性制御タグを設計する。具体的には、データベースから可溶性タンパク質および不溶性タンパク質のN末端におけるアミノ酸配列を読み出し、読み出したアミノ酸配列を解析することにより、可溶性制御タグを求める。
このように可溶性タンパク質および不溶性タンパク質のN末端において見られるアミノ酸配列を解析することにより、実際のデータに基づいて可溶性制御タグを適切に設計することができる。すなわち、可溶性制御タグは、発現系等の条件によって異なるが、実際の発現系のデータに基づいて可溶性制御タグを求めることにより、条件に合ったタグを設計することができる。
本発明の可溶性制御タグ設計装置は、可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する装置であって、求めるべき可溶性制御タグの残基長Lを入力する入力部と、前記データベースから読み出したデータに基づいて可溶性制御タグを求める演算部と、前記演算部にて求めた可溶性制御タグを出力する出力部とを備え、
前記演算部は、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
(2)前記データベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶性を高める可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶性を高める不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を実行する。
このように可溶性タンパク質または不溶性タンパク質のN末端に含まれるアミノ酸類似群配列の出現回数を求めることにより、アミノ酸配列の出現回数を求める場合と比較して計算量が少なくて済む。また、同じ長さの残基長で比較すると、アミノ酸類似群配列の総数の方が、アミノ酸配列の総数よりもはるかに少ない。従って、アミノ酸配列のデータベースに記憶されたタンパク質のデータが少ない場合でも出現回数に一定の傾向を見出すことができる。
前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10−5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求めてもよい。
Figure 0005765700

Figure 0005765700
前記ステップ(5)は、前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、所定の高さで前記樹状図を切断することによりクラスタリングを行ってもよい。
本発明の可溶性制御タグ設計方法は、可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計する方法であって、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
(2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
を備える。
本発明のプログラムは、可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計するためのプログラムであって、コンピュータに、
(1)L残基長のアミノ酸類似群の配列であってアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列のそれぞれが、可溶性タンパク質および不溶性タンパク質のそれぞれのN末端において出現する回数を記憶する領域を確保するステップと、
(2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
(3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
(4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
(6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
(7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
(8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
(9)可溶化タグまたは不溶化タグを出力するステップと、
を実行させる。
本発明によれば、可溶性タンパク質および不溶性タンパク質のN末端におけるL残基長のアミノ酸配列を解析することにより、発現系等の条件に合った適切な可溶性制御タグを設計することができる。
実施の形態の可溶性制御タグ設計装置の構成を示す図である。 実施の形態の可溶性制御タグ設計装置の動作を示すフローチャートである。 アミノ酸類似群に含まれるアミノ酸を示す図である。 7残基長のアミノ酸類似群配列を示す図である。 可溶性タンパク質、不溶性タンパク質のN末端20残基の例を示す図である。 タンパク質のN末端20残基から7残基長のアミノ酸配列を読み出す例を示す図である。 (a)アミノ酸配列に対応するアミノ酸類似群を示す図である。(b)アミノ酸配列に対応するアミノ酸類似群配列を示す図である。(c)アミノ酸類似群配列の出現回数をカウントした例を示す図である。 アミノ酸類似群を数値化した例を示す図である。 アミノ酸類似群配列を数値化した例を示す図である。 頻出アミノ酸類似群配列をクラスタリングした例を示す図である。 頻出アミノ酸類似群配列に対応するアミノ酸配列の例を示す図である。 アミノ酸配列の各場所において、アミノ酸の種類ごとの出現回数を求めた例を示す図である。
以下、本発明の可溶性制御タグ設計装置および方法について、図面を参照しながら説明する。本実施の形態では、可溶性制御タグとして、特に、数残基ないし100残基程度の短いアミノ酸配列を対象としている。
図1は、実施の形態の可溶性制御タグ設計装置10の構成を示す図である。可溶性制御タグ設計装置10は、設計すべき可溶性制御タグの残基長Lを入力する入力部12と、タンパク質データベース(以下、「タンパク質DB」という)14に記憶された可溶性タンパク質および不溶性タンパク質のデータを用いてL残基長の可溶性制御タグを設計するCPU16と、設計された可溶性制御タグのデータを出力する出力部18とを備えている。CPU16には、RAM20とROM22が接続されている。CPU16は、可溶化タグの設計を行う際に、計算処理に必要なデータをRAM20に書き込み、また、RAM20から読み出す。CPU16は、ROM22に記憶されたプログラム24を読み出して実行することにより、可溶化タグの設計を行う。このプログラム24も本発明の範囲に含まれる。
タンパク質DB14には、所定の系で発現させた実験に基づいて、可溶性タンパク質あるいは不溶性タンパク質であることが確認されたタンパク質のアミノ酸配列のデータが記憶されている。本実施の形態では、可溶性制御タグ設計装置10がタンパク質DB14を有する構成を例としているが、タンパク質DB14は、可溶性制御タグ設計装置10の外部にあってもよい。この場合、可溶性制御タグ設計装置10は、外部のデータベースと通信するための通信部を備え、通信部を介してタンパク質DB14のデータを読み出す。
可溶性制御タグ設計装置10は、例えば、パーソナルコンピュータによって構成される。入力部12は、例えば、キーボード、マウス、CD−ROM読取装置などで構成される。出力部18は、例えば、モニタ、プリンタ、CD−ROM書込装置などで構成される。
次に、可溶性制御タグ設計装置10によって、可溶性制御タグを設計する処理について説明する。なお、以下の説明では、可溶性制御タグとして可溶化タグを設計する場合を取り上げるが、同じ方法により不溶化タグを設計することができる。
(概要説明)
図2は、可溶性制御タグ設計装置10による可溶化タグ設計の動作を示すフローチャートである。本明細書では、最初に、可溶化タグ設計の概要について説明し、その後で、各処理の詳細について説明する。
図3に示すように、アミノ酸は、疎水性や極性等の性質に基づいて10個のアミノ酸類似群に分けることができる。なお、本実施の形態では、アミノ酸類似群として、すべてのアミノ酸を含むグループxも含めており、アミノ酸類似群を11個とした。
本実施の形態の可溶性制御タグ設計装置10では、アミノ酸類似群の組合せからなる配列(これを「アミノ酸類似群配列」という)という概念を用い、最初に、不溶性タンパク質には見られないが可溶性タンパク質によく見られるアミノ酸類似群配列を求める(これを「頻出アミノ酸類似群配列」という)。以上は、図2に示すフローチャートのステップS10〜S16に対応する。
次に、可溶性制御タグ設計装置10は、可溶性タンパク質のN末端に含まれるアミノ酸配列の中から、頻出アミノ酸類似群配列に対応するアミノ酸配列を探索し、探索された全てのアミノ酸配列を総合して、可溶性タグとしてのアミノ酸配列を決定する。これは、図2に示すフローチャートのステップS18〜S22に該当する。
(各処理の詳細説明)
次に、可溶化タグ決定の各処理について詳細に説明する。なお、以下の説明では、N末端の20残基のアミノ酸配列を解析して、7残基長の可溶化タグを求める場合を例として説明する。
まず、可溶性制御タグ設計装置10は、設計すべき可溶化タグの残基長の入力を受け付ける。本実施の形態では、7残基長というデータが入力される。なお、残基長の入力は、必ずしも毎回行う必要はなく、可溶性制御タグ設計装置10は、入力された残基長を設定値として記憶しておいてもよい。また、この段階で、N末端の何残基を解析するかの入力を受け付けてもよい。本実施の形態では、N末端20残基長を解析するので、20残基長というデータが入力される。
図4に示すように、可溶性制御タグ設計装置10は、7残基長のすべてのアミノ酸類似群の組合せを生成する(S10)。アミノ酸類似群は、図3に示すように、11個存在するので、7残基長の場合には、11個の組み合わせが存在する。ただし、すべてのアミノ酸を含むアミノ酸類似群(グループx)が配列の最初と最後に位置する場合には、6残基長のアミノ酸配列と同じになるので、本実施の形態では、配列の最初と最後はグループx以外とし、10×11個のアミノ酸類似群配列を生成する。また、可溶性制御タグ設計装置10は、次に説明するように、各アミノ酸類似群配列が可溶性タンパク質または不溶性タンパク質のそれぞれのN末端20残基に出現する回数をカウントするので、RAM20に、出現回数を記憶するための領域を割り当てる。
次に、可溶性制御タグ設計装置10は、可溶性タンパク質および不溶性タンパク質のそれぞれのN末端20残基から7残基長のアミノ酸配列を読み出し、読み出したアミノ酸配列に対応するアミノ酸類似群配列の出現回数をカウントする(S12)。以下、詳細に説明する。
図5は、可溶性タンパク質および不溶性タンパク質のN末端20残基の例を示す図である。図6は、N末端20残基から7残基長のアミノ酸配列を抽出した例を示す図である。N末端20残基から7残基長の配列を取り出す方法は、20−7+1=14通りある。すなわち、N末端の1番目〜7番目までのアミノ酸配列、N末端の2番目〜8番目までのアミノ酸配列・・・N末端の14番目〜20番目までのアミノ酸配列である。次に、抽出したアミノ酸配列に対応するアミノ酸類似群配列を求め、そのアミノ酸類似群配列の出現回数をカウントアップする。
図7(a)は、N末端から取り出したアミノ酸配列の例を示す図である。アミノ酸配列の下に、各アミノ酸に対応するアミノ酸類似群を示している。例えば、「A」(アラニン)に対応するアミノ酸類似群は、「a」(疎水性)、「e」(極小の側鎖)、「x」(すべて)であり(ただし、配列の先頭においては「x」を除いている)、「E」(グルタミン酸)に対応するアミノ酸類似群は、「b」(極性)、「i」(負電荷)、「j」(荷電性)、「x」(すべて)である。
図7(b)は、図7(a)に示すアミノ酸配列に対応するアミノ酸類似群配列を示す図である。図7(a)に示すアミノ酸配列では、配列中の各アミノ酸に対応するアミノ酸類似群がそれぞれ、2個、3個、4個、3個、3個、4個、4個あるので、合計で3456通りのアミノ酸類似群配列に対応する。可溶性制御タグ設計装置10は、読み出したアミノ酸配列に対応するアミノ酸類似群配列を順次求め、その出現回数をカウントアップしていく。
図7(c)は、可溶性タンパク質のN末端、不溶性タンパク質のN末端のそれぞれにおいて、10×11個の全アミノ酸類似群配列のそれぞれの出現回数の例を示す図である。以下、本明細書において、可溶性タンパク質のN末端に出現した所定のアミノ酸類似群配列の出現回数を「Mp」、不溶性タンパク質のN末端に出現した所定のアミノ酸類似群配列の出現回数を「Mn」とする。また、可溶性タンパク質のN末端に出現した全アミノ酸類似群配列の合計をセグメント数「Np」、不溶性タンパク質のN末端に出現した全アミノ酸類似群配列の合計をセグメント数「Nn」とする。
次に、可溶性制御タグ設計装置10は、可溶化タンパク質における各アミノ酸類似群配列の出現頻度を計算する(S14)。本実施の形態では、出現頻度を次の式で示すS値とp値によって表す。なお、S値は、可溶性タンパク質から得られたデータセットに、どれくらい特異的に配列が出現するかを示す値、p値は配列がどのくらい稀かを示す値である。
Figure 0005765700

Figure 0005765700
続いて、可溶性制御タグ設計装置10は、出現頻度が所定の閾値より高いアミノ酸類似群配列(これを「頻出アミノ酸類似群配列」という)を求める(S16)。具体的には、S値およびp値が、S>0.9とp<1×10−5をともに満たすアミノ酸類似群配列を頻出アミノ酸類似群配列として抽出する。
次に、可溶性制御タグ設計装置10は、求められた複数の頻出アミノ酸類似群配列をクラスタリングする(S18)。頻出アミノ酸類似群配列どうしの距離は、次のように定義する。まず、頻出アミノ酸類似群をそのアミノ酸類似群に含まれるアミノ酸の種類によって数値化し、次に、アミノ酸類似群の組合せからなるアミノ酸類似群配列を数値化する。次に、具体例を示す。
図8は、アミノ酸類似群を数値化した例を示す図である。図8に示すように、アミノ酸類似群に含まれるアミノ酸を「1」とし、含まれていないアミノ酸を「0」とすることにより、アミノ酸類似群を20次元の座標値で表すことができる。例えば、グループa(疎水性)は、(1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,1,0)となる。アミノ酸類似群配列は、7つのアミノ酸類似群の組合せからなるので、20×7=140次元の座標により表される。
図9は、頻出アミノ酸類似群配列を数値化した例を示す図である。図中、下線を引いた数字は、各アミノ酸類似群を表した数値の先頭を示す。
このように頻出アミノ酸類似群配列を数値化することにより、頻出アミノ酸類似群配列どうしのユークリッド距離を求めることができる。可溶性制御タグ設計装置10は、ユークリッド距離を用いて頻出アミノ酸類似群配列の樹状図を生成し、樹状図を適当な高さで切ることによりクラスタリングを行う。具体的には、最長距離法(クラスタ内に含まれる個体どうしの距離の中で最長距離をクラスタの距離とする方法)によりクラスタ間の距離を計算し、最も近いクラスタ(最初は、クラスタのメンバーは各頻出アミノ酸類似群配列である)どうしを順次統合していく処理を繰り返し行うことにより、樹状図を生成する。このような樹状図を用いたクラスタリング手法自体は、公知である。
図10は、可溶性制御タグ設計装置10にて生成された樹状図を示す図である。この例では、10個のクラスタを生成している。
次に、可溶性制御タグ設計装置10は、可溶性タンパク質のN末端20残基のアミノ酸配列の中から、頻出アミノ酸類似群配列に対応するアミノ酸配列を検索する。
図11は、頻出アミノ酸類似群に対応するアミノ酸配列の例を示す図である。この例では、頻出アミノ酸類似群配列「abxxaca」に対応するアミノ酸配列として、「IHVGLDT」「CKREMPA」等が検索されている。可溶性制御タグ設計装置10は、検索されたアミノ酸配列に基づいて、配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントし、RAM20に記憶する。
可溶性制御タグ設計装置10は、同じクラスタに含まれる別の頻出アミノ酸類似群配列についても同様に、配列中の場所ごとにアミノ酸の種類ごとの出現回数を記憶する。そして、可溶性制御タグ設計装置10は、図11に示すように、同じクラスタに含まれるすべての頻出アミノ酸類似群配列を用いて求めた配列中の各場所でのアミノ酸の種類ごとの出現回数を合算する(S20)。このようにして求められた配列中の各場所でのアミノ酸の種類ごとの出現回数に基づき、各場所において最も多く出現したアミノ酸を組み合わせて、可溶化タグを決定する(S22)。
図12は、配列の各場所におけるアミノ酸の出現回数を視覚的に示す図である。横軸は、配列の各場所を示し、左から、1番目、2番目・・・7番目である。縦軸は、出現したアミノ酸の頻度を示し、多く出現したアミノ酸ほど大きなフォントで、上方に記載している。この例では、配列の1,2,4番目では「E」が最も多く見られ、配列の7番目では「L」が多く見られ、その他では、出現するアミノ酸の多寡に有意な差が見られなかったので、「x」(すべて)としている。この場合、可溶化タグとして「EExExxL」が決定される。なお、有意な差があったかどうかは、閾値により判断することができる。例えば、最も多く見られたアミノ酸と2番目に多く見られたアミノ酸の出現回数に10%以上の差がある場合に有意な差があるというように判断することができる。
以上、本実施の形態の可溶性制御タグ設計装置10の構成および可溶化タグ設計の動作について説明した。なお、不溶化タグを設計する場合には、頻出アミノ酸類似群配列を抽出するステップS16において、次式を用いて、不溶性タンパク質において頻出するアミノ酸類似群配列を求め、頻出アミノ酸類似群に対応するアミノ酸配列を検索するステップS20において、不溶性タンパク質のN末端から検索することとすればよい。
Figure 0005765700

Figure 0005765700
本実施の形態では、最初に、可溶性タンパク質、不溶性タンパク質のN末端において頻出するアミノ酸類似群配列を求めているので、アミノ酸配列を用いる場合と比較して計算量を低減することができる。また、アミノ酸配列よりも総数の少ないアミノ酸類似群配列の出現回数をカウントすることにより、データが少ない場合でも出現回数の傾向を把握することができる。7残基長の場合、アミノ酸配列は20個存在し、アミノ酸類似群配列の約80倍もの数の配列が存在するので、各アミノ酸配列に割り振られる出現回数は、約1/80となり、全体的にどの配列も出現回数が小さくなって可溶性または不溶性タンパク質の特徴を掴みにくい。これに対し、アミノ酸類似群配列を用いることにより、比較的データが少ない場合であっても、特徴的なアミノ酸類似群配列を求めることが可能となる。
以上、本発明の可溶性制御タグ設計装置について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。
上記した実施の形態では、アミノ酸類似群配列を用いて可溶性制御タグを設計する例について説明したが、タンパク質DBに大量のデータがある場合には、可溶性タンパク質あるいは不溶性タンパク質に特有に含まれるアミノ酸配列を直接に検索することとしてもよい。
上記した実施の形態では、樹状図を用いてクラスタリングを行う例について説明したが、クラスタリングの方法は、樹状図を用いた方法に限定されず、k平均法などの公知の方法を採用することができる。また、頻出アミノ酸類似群配列の数が多くない場合には、必ずしもクラスタリングを行わなくてもよい。
上記した実施の形態では、S値およびp値を用いて、頻出アミノ酸類似群配列を求めたが、頻出するか否かの閾値は、別の方法によって定めてもよい。
本発明の可溶性制御タグ設計装置にて設計した可溶化タグおよび不溶化タグを付加することによって、タンパク質の可溶性に与える影響を評価した。
(可溶性制御タグの生成)
コムギ胚芽無細胞系で発現させたタンパク質のデータベースを用いて、下表1に示す16種類の可溶化タグと、12種類の不溶化タグを設計した。
Figure 0005765700
可溶性制御タグを付加する対象の9種類の遺伝子を、以下の基準で選んだ。
(1)RefSeqと一致し、膜貫通ドメインがないもの。
(2)HGPD(Human Gene and Protein Database)のデータにより、分子量が50kDa程度のもので、可溶化の程度が異なるもの。
9種類の遺伝子を下表2に示す
Figure 0005765700
表2に示す遺伝子のN末端に表1の可溶化タグ、不溶化タグに対応する遺伝子配列をタンパク質をコードする遺伝子配列の上流に付加して、コムギ胚芽無細胞系でタンパク質を発現させ、可溶化タグまたは不溶化タグを付加しない場合と比較して、タンパク質の可溶性がどう変化したかを調べた結果を下表3に示す。
Figure 0005765700
表3に示すように、本発明の可溶性制御タグ設計装置にて設計した可溶化タグ、不溶化タグは、タンパク質の可溶化/不溶化に影響を与えた。
本発明は、実際のデータに基づいて可溶性制御タグを求めることにより、条件に合ったタグを設計することができ、タンパク質の生産に有用である。
10 可溶性制御タグ設計装置
12 入力部
14 タンパク質データベース
16 CPU
18 出力部
20 RAM
22 ROM
24 プログラム

Claims (9)

  1. 可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから読み出したデータに基づいて、可溶性制御タグを設計する装置であって、
    求めるべき可溶性制御タグの残基長Lを入力する入力部と、
    前記データベースから読み出したデータに基づいて可溶性制御タグを求める演算部と、
    前記演算部にて求めた可溶性制御タグを出力する出力部と、
    を備え、
    前記演算部は、
    (1)アミノ酸の性質に基づいて分類したアミノ酸類似群の配列であってL残基長のアミノ酸についてアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
    (2)前記データベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
    (3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
    (4)可溶性を高める可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶性を高める不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、(5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
    (6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と、前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
    (7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
    (8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
    を実行する可溶性制御タグ設計装置。
  2. 前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10-5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項1に記載の可溶性制御タグ設計装置。
    Figure 0005765700
    Figure 0005765700
  3. 前記ステップ(5)は、
    前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、
    前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
    所定の高さで前記樹状図を切断することによりクラスタリングを行う、
    請求項1または2に記載の可溶性制御タグ設計装置。
  4. 可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計する方法であって、
    (1)アミノ酸の性質に基づいて分類したアミノ酸類似群の配列であってL残基長のアミノ酸についてアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列を生成するステップと、
    (2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
    (3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
    (4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
    (5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
    (6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
    (7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
    (8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
    を備える可溶性制御タグ設計方法。
  5. 前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10-5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項4に記載の可溶性制御タグ設計方法。
    Figure 0005765700
    Figure 0005765700
  6. 前記ステップ(5)は、
    前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、
    前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
    所定の高さで前記樹状図を切断することによりクラスタリングを行う、
    請求項4または5に記載の可溶性制御タグ設計方法。
  7. 可溶性制御タグとして、タンパク質の可溶性を高める可溶化タグまたは不溶性を高める不溶化タグを設計するためのプログラムであって、コンピュータに、
    (1)アミノ酸の性質に基づいて分類したアミノ酸類似群の配列であってL残基長のアミノ酸についてアミノ酸類似群のすべての組合せを定義したアミノ酸類似群配列のそれぞれが、アミノ酸類似群配列が可溶性タンパク質および不溶性タンパク質のそれぞれのN末端において出現する回数を記憶する領域を確保するステップと、
    (2)可溶性タンパク質および不溶性タンパク質のアミノ酸配列を記憶したデータベースから、可溶性タンパク質および不溶性タンパク質のN末端のK残基(K≧L)に含まれるL残基長のアミノ酸配列を読み出すステップと、
    (3)読み出したアミノ酸配列に基づいて、可溶性タンパク質と不溶性タンパク質のそれぞれのN末端における各アミノ酸類似群配列の出現回数をカウントするステップと、
    (4)可溶化タグを設計する場合には可溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度、不溶化タグを設計する場合には不溶性タンパク質のN末端における各アミノ酸類似群配列の出現頻度を計算し、出現頻度が所定の閾値より高いアミノ酸類似群配列を頻出アミノ酸類似群配列として求めるステップと、
    (5)複数の頻出アミノ酸類似群配列をクラスタリングして複数のクラスタに分類するステップと、
    (6)可溶化タグを設計する場合には可溶性タンパク質、不溶化タグを設計する場合には不溶性タンパク質のN末端のK残基から読み出したL残基長のアミノ酸配列と前記頻出アミノ酸類似群配列とを比較して、そのアミノ酸配列が前記頻出アミノ酸類似群配列に対応する場合には、そのアミノ酸配列に含まれるアミノ酸に基づいて、アミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数をカウントアップする処理を、読み出したアミノ酸配列について順次行うステップと、
    (7)同じクラスタ内の頻出アミノ酸類似群配列にて求めたアミノ酸配列中の各場所におけるアミノ酸の種類ごとの出現回数を合算するステップと、
    (8)各場所において出現回数が最多のアミノ酸の組み合わせからなるアミノ酸配列を可溶化タグまたは不溶化タグとして求めるステップと、
    (9)可溶化タグまたは不溶化タグを出力するステップと、
    を実行させるプログラム。
  8. 前記ステップ(4)は、可溶性タグを求める場合、下記式によって計算されるS値、p値が、S>0.9、p<1×10-5となるアミノ酸類似群配列を頻出アミノ酸類似群配列として求める請求項7に記載のプログラム。
    Figure 0005765700
    Figure 0005765700
  9. 前記ステップ(5)は、
    前記頻出アミノ酸類似群配列を、その頻出アミノ酸類似群に含まれるアミノ酸を「1」、含まれないアミノ酸を「0」とした20次元座標値に変換し、
    前記頻出アミノ酸類似群配列のユークリッド距離に基づいて樹状図を生成し、
    所定の高さで前記樹状図を切断することによりクラスタリングを行う、
    請求項7または8に記載のプログラム。
JP2010270358A 2010-12-03 2010-12-03 可溶性制御タグ設計装置およびその方法とプログラム Active JP5765700B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010270358A JP5765700B2 (ja) 2010-12-03 2010-12-03 可溶性制御タグ設計装置およびその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010270358A JP5765700B2 (ja) 2010-12-03 2010-12-03 可溶性制御タグ設計装置およびその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2012116816A JP2012116816A (ja) 2012-06-21
JP5765700B2 true JP5765700B2 (ja) 2015-08-19

Family

ID=46500097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010270358A Active JP5765700B2 (ja) 2010-12-03 2010-12-03 可溶性制御タグ設計装置およびその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5765700B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6841428B2 (ja) 2015-06-10 2021-03-10 公立大学法人 富山県立大学 活性型変異酵素の製造方法および新規活性型変異酵素、並びに可溶性化変異タンパク質の製造方法
CA3227440A1 (en) * 2021-07-27 2023-02-02 Stand Therapeutics Co., Ltd. Peptide tag and nucleic acid encoding same

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4320145B2 (ja) * 2002-02-20 2009-08-26 セレスター・レキシコ・サイエンシズ株式会社 タンパク質相互作用予測装置、タンパク質相互作用予測方法、タンパク質相互作用予測プログラム、及び該プログラムを記録した記録媒体
JP5509421B2 (ja) * 2009-12-22 2014-06-04 独立行政法人産業技術総合研究所 可溶性予測装置および可溶性予測方法

Also Published As

Publication number Publication date
JP2012116816A (ja) 2012-06-21

Similar Documents

Publication Publication Date Title
Hirose et al. ESPRESSO: a system for estimating protein expression and solubility in protein expression systems
Spänig et al. Encodings and models for antimicrobial peptide classification for multi-resistant pathogens
Wang et al. Machine learning prediction of antimicrobial peptides
Tang et al. Tools for predicting the functional impact of nonsynonymous genetic variation
Magnan et al. SOLpro: accurate sequence-based prediction of protein solubility
Aerts Computational strategies for the genome-wide identification of cis-regulatory elements and transcriptional targets
Kaas et al. Bioinformatics-aided venomics
CN118140234A (zh) 通过机器学习和数据库挖掘结合目标功能的经验测试识别和开发天然来源食品成分的系统
Wong et al. SVM-based prediction of propeptide cleavage sites in spider toxins identifies toxin innovation in an Australian tarantula
Terrapon et al. Rapid similarity search of proteins using alignments of domain arrangements
Werner The state of the art of mammalian promoter recognition
Li et al. 3D representations of amino acids—applications to protein sequence comparison and classification
Ge et al. Prediction of disease-associated nsSNPs by integrating multi-scale ResNet models with deep feature fusion
Huang et al. Simultaneously identify three different attributes of proteins by fusing their three different modes of Chou's pseudo amino acid compositions
Lin et al. Discriminative motif finding for predicting protein subcellular localization
Liang et al. Research progress of reduced amino acid alphabets in protein analysis and prediction
Remm et al. Classification of transmembrane protein families in the Caenorhabditis elegans genome and identification of human orthologs
Vormittag et al. Ensembles of hydrophobicity scales as potent classifiers for chimeric virus-like particle solubility–An amino acid sequence-based machine learning approach
JP5765700B2 (ja) 可溶性制御タグ設計装置およびその方法とプログラム
Li et al. Protein sequence comparison and DNA-binding protein identification with generalized PseAAC and graphical representation
Ye Survey of in-silico prediction of anticancer peptides
Conklin Recognition of the helical cytokine fold
Ahmed et al. LM-ARG: Identification & classification of antibiotic resistance genes leveraging pre-trained protein language models
Tung et al. Prediction of protein subchloroplast locations using random forests
Rangwala et al. Introduction to protein structure prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150609

R150 Certificate of patent or registration of utility model

Ref document number: 5765700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250