JP2018161148A

JP2018161148A - 乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェア

Info

Publication number: JP2018161148A
Application number: JP2018133041A
Authority: JP
Inventors: アランコープグレゴリー; Allan Cope Gregory; ジョンアガードニコラス; John Agard Nicholas
Original assignee: Codexis Inc
Current assignee: Codexis Inc
Priority date: 2013-01-31
Filing date: 2018-07-13
Publication date: 2018-10-18
Anticipated expiration: 2034-01-29
Also published as: WO2014120821A1; EP2951579B1; KR102490720B1; EP4414988A2; LT2951579T; IL240056A0; CN105074463A; HUE066735T2; RU2695146C2; EP4398255A3; BR112015018454B1; ES2979018T3; JP2017189176A; JP2016504924A; AU2014212430B2; EP4414988A3; RU2015136780A; KR20150113167A; EP4398255A2; EP2951754A1

Abstract

【課題】乗法形式のモデルを使用して生体分子を同定する方法、システム、およびソフトウェアを提供すること。
【解決手段】本発明は、複雑な生体分子ライブラリーまたはこのようなライブラリーのセットから、所望の特性を有するまたはこのような特性の取得に最も適した生体分子を同定する方法を提供する。より具体的には、本発明の一部の実施形態は、乗法項を含む配列−活性モデルを構築し、該モデルを使用して定向進化を誘導する方法を提供する。一部の実施形態において、配列−活性モデルは、それらの各々が活性に対する２個以上の定義された残基の寄与を表す相互作用係数を含む、１つ以上の相互作用項を含む。一部の実施形態において、モデルは、タンパク質配列または核酸配列とタンパク質活性との間の関係を記載する。
【選択図】なし

Description

（関連出願の引用）
本願は、米国仮特許出願第６１／７５９，２７６号（２０１３年１月３１日出願、名称「ＭＥＴＨＯＤＳ，ＳＹＳＴＥＭＳ，ＡＮＤＳＯＦＴＷＡＲＥＦＯＲＩＤＥＮＴＩＦＹＩＮＧＢＩＯ−ＭＯＬＥＣＵＬＥＳＷＩＴＨＩＮＴＥＲＡＣＴＩＮＧＣＯＭＰＯＮＥＮＴＳ」）、米国仮特許出願第６１／７９９，３７７号（２０１３年３月１５日出願、名称「ＭＥＴＨＯＤＳ，ＳＹＳＴＥＭＳ，ＡＮＤＳＯＦＴＷＡＲＥＦＯＲＩＤＥＮＴＩＦＹＩＮＧＢＩＯ−ＭＯＬＥＣＵＬＥＳＵＳＩＮＧＭＯＤＥＬＳＯＦ
ＭＵＬＴＩＰＬＩＣＡＴＩＶＥＦＯＲＭ」）に対する米国特許法§ １１９（ｅ）に基づく利益を主張し、両出願は、それらの全体があらゆる目的のために参照により本明細書に引用される。

本開示は、分子生物学、分子進化、バイオインフォマティクスおよびデジタルシステムの分野に関する。より具体的には、本開示は、生体分子の活性を計算的に予測するため、および／または定向進化を誘導する方法に関する。これらの方法を実行するためのデジタルシステムを含むシステムおよびシステムソフトウェアも提供される。本開示の方法は、産業上および治療上の使用のためのタンパク質の最適化における有用性を有する。

タンパク質設計は、単に、検索可能な配列空間を構成する可能な分子の組み合わせ爆発の理由しかないのであれば、困難な課題であることが相当以前から公知である。タンパク質の配列空間は莫大であり、現在当技術分野において公知の方法を使用して徹底的に探索することは不可能である。この複雑さのため、多くの近似方法が使用されて、より優れたタンパク質を設計してきた；その中でも主要なものは、定向進化の方法である。今日、タンパク質の定向進化は、多くの場合反復して実行される、様々なハイスループットスクリーニングおよび組換えフォーマットが主流である。

並行して、配列−活性空間を探索するための様々な計算的技法が提唱されてきた。各計算的技法は、ある特定の文脈において利点を有するが、配列空間を効率的に検索して機能タンパク質を同定するための新たな仕方が非常に望ましい。

本発明は、複雑な生体分子ライブラリーまたはこのようなライブラリーのセットから、所望の特性を有するまたはこのような特性の取得に最も適した生体分子を同定する方法を提供する。より具体的には、本発明の一部の実施形態は、複数の乗法項の積を含む配列−活性モデルを構築し、該モデルを使用して定向進化を誘導する方法を提供する。

（モデルの形式）
本明細書に開示されている一部の実施形態は、配列−活性モデルを構築する方法を提供する。このモデルの各々は、複数の乗法項の積を含む。乗法項のうちの少なくとも一部は、それぞれ目的の活性に対する定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む非相互作用乗法項である。定義されたアミノ酸またはヌクレオチドは、タンパク質配列または核酸配列における特定の位置における特定の残基型のものである。非相互作用乗法項の各々は、ダミー変数の形式をとることができる独立変数（典型的には、１つのみの独立変数）も含む。独立変数は、特定の配列の場所における特定の型の定義されたアミノ酸またはヌクレオチドの存在または非存在を表す。これらの乗法項は、そのそれぞれが、タンパク質配列または核酸配列における単一の位置における単一残基の寄与を表すため、非相互作用項と命名される。非相互作用項における独立変数は、２個以上の相互作用残基を表さない。加えて、配列−活性モデルの各々は、一部の実施形態において、タンパク質バリアントの活性を表す従属変数を含み、モデルは、タンパク質バリアントの活性と、複数の乗法項の積との間の関係性を記載する。

本発明の一部の実施形態において、配列−活性モデルは、それぞれ（ｉ）タンパク質配列における第１の位置における第１のアミノ酸またはヌクレオチドおよび（ｉｉ）タンパク質配列における第２の位置における第２のアミノ酸またはヌクレオチドの定義された組合せの活性に対する寄与を表す相互作用係数を含む相互作用項も含む。相互作用係数によって表される寄与は、独立的であり、切り離した第１の残基および第２の残基のそれぞれによる寄与とは異なる。

一部の実施形態において、モデルは、乗算によって相互作用項を組み合わせる。一部の実施形態において、モデルは、加算によって相互作用項を組み合わせる。一部の実施形態において、モデルは、乗算または加算によって相互作用項を非相互作用乗法項と組み合わせる。一部の実施形態において、モデルは、純粋に乗法的であり、非相互作用項および相互作用項を単一の積に組み合わせる。他の実施形態において、モデルは、加算によって１つ以上の他の項と組み合わせた複数の項の少なくとも１つの積を含む。

本発明の一部の実施形態において、配列−活性モデルは、１つ以上の非相互作用項および少なくとも１つの相互作用項の和を含む加法形式を有する。加法モデルに関連する文脈において、非相互作用項は、線形項とも称され、一方、相互作用項は、非線形項または外積項とも称される。非相互作用項の各々は、タンパク質バリアントライブラリーの訓練セットにおける、特定の配列位置における特定の型の定義された残基の存在を表す。少なくとも１つの相互作用項は、１相互作用残基の存在を表す１変数と、別の１相互作用残基の存在を表す別の１変数の積を含む外積項である。

一部の実施形態において、非相互作用乗法項および／または相互作用項は、（係数×独立変数）の形式を有する。他の実施形態において、この項は、（１＋係数×独立変数）の形式をとる。当業者であれば、モデルの乗法的性質を維持しながら、項の他の式（ｅｘｐｒｅｓｓｉｏｎ）を適用することができる。一部の実施形態において、係数は、ルックアップテーブルにおいて提供される。

一部の実施形態において、アミノ酸配列を使用するのではなく、本方法は、ヌクレオチド配列を用いてモデルを作製し、活性を予測する。ヌクレオチド、例えば、コドンの群におけるバリエーションは、該ヌクレオチド配列にコードされるペプチドの活性に影響を与える。一部の実施形態において、モデルは、ペプチドの発現に用いる宿主に応じて、優先的に発現される（同じアミノ酸をコードする他のコドンと比較して）コドンに対する偏りを提供し得る。

一部の実施形態において、定向進化のための方法が提供される。定向進化は、タンパク質またはタンパク質をコードする核酸に適用することができるが、一部の事例において、定向進化は、タンパク質以外の生物分子に適用される。このような実施形態において、配列−活性モデルを用いて、様々な生物分子の活性と配列との間の関係性を特徴付けることができる。例えば、配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、多糖等の配列となり得る。１つ以上の実施形態において、配列のサブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、ヌクレオチド、コドン、変異、アミノ酸、炭水化物（モノ、ジ、トリまたはオリゴマーの）、脂質等である。

一部の実施形態において、生物分子の定向進化のための方法は、次のように特徴付けられ得る：
（ａ）複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子は、様々な型および配列位置のサブユニットを有する配列を含む、ことと、
（ｂ）前記得られたデータから配列−活性モデルを構築することであって、前記配列−活性モデルは、サブユニットの前記型および配列位置に応じて活性を予測し、前記配列−活性モデルは、複数の非相互作用乗法項の積を含み、前記非相互作用乗法項の各々は、（１）特定の配列位置における特定の型の定義されたサブユニットの存在／非存在を表すダミー変数および（２）活性に対する前記定義されたサブユニットの寄与を表す係数を含む、ことと、
（ｃ）前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるバリエーションに対して、特定の位置における特定の型の１つ以上のサブユニットを同定すること。

（モデルの構築および精密化）
上記の実施形態と一致する１つ以上の実施において、配列活性モデルを作製するための訓練セットは、タンパク質ライブラリーとして提供することのできる複数のタンパク質バリアントに由来する。タンパク質ライブラリーは、様々な供給源に由来するタンパク質を含むことができる。一例において、メンバーは、単一遺伝子ファミリーのメンバーにコードされるタンパク質等、天然起源のタンパク質を含む。別の一例において、配列は、組換えに基づく多様性作製機構を使用することにより得られるタンパク質を含む。この目的のため、例えば、ＤＮＡ断片化媒介性の組換え、合成オリゴヌクレオチド媒介性の組換えまたはこれらの組合せを、１つ以上の天然起源の親タンパク質の全体または一部をコードする核酸において行うことができる。さらに別の一例において、実験計画法（ＤＯＥ）プロトコールを実施して、系統的に変化させられる配列を同定することにより、メンバーが得られる。

一部の実施形態において、複数のタンパク質バリアントそれぞれの配列データおよび活性データは、（ｉ）複数のタンパク質バリアントの各々をアッセイしてその活性を決定し、（ｉｉ）複数のタンパク質バリアントの各々をシーケンシングしてその配列を決定することにより得られる。配列毎に得られたデータは、観測結果とも称される。集合的には、観測結果は、訓練セットを含む。

一部の実施形態は、配列の活性を最もよく記述するモデルの項および係数を選択するための技法を提供する。多くの場合、残基間に真の相互作用が存在するよりもはるかに多くの可能なペアワイズまたはより高次の相互作用項が存在することに留意されたい。したがって、過剰適合を回避するために、限られた数の相互作用項のみが典型的に考慮され、用いられる相互作用項は、活性に影響を与える相互作用を反映すべきである。

一部の実施形態は、相互作用項および／または非相互作用項の段階的加算、減算または乗算を行うことにより、配列−活性モデルを作製する方法を提供する。

遺伝的アルゴリズムは、上記の相互作用項または非相互作用項の積の形式を有するモデルの作製に用いることができる技法の１つである。回帰技法および遺伝的アルゴリズムは、上記の相互作用項または非相互作用項の和の形式を有するモデルの作製に用いられ得る技法の１つである。

本開示の一態様は、所望の活性に影響を与える生物分子の同定を補助し得る配列−活性モデルを調製する段階的方法であって、（ａ）複数の生物分子に対する配列データおよび活性データを受け取ることと、（ｂ）前記配列データおよび活性データからベースモデルを調製することであって、前記ベースモデルは、前記配列のサブユニットの存在または非存在の関数として活性を予測する、ことと、（ｃ）前記ベースモデルに／これから少なくとも１つの新たな相互作用項を加算、減算または乗算することにより、少なくとも１つの新たなモデルを調製することであって、前記新たな相互作用項が、２個以上の相互作用するサブユニットの間の相互作用を表す、ことと、（ｄ）前記サブユニットの存在または非存在の関数として活性を予測する前記少なくとも１つの新たなモデルの能力を決定することと、（ｅ）（ｄ）において決定される、活性を予測する前記少なくとも１つの新たなモデルの能力に基づき、前記新たな相互作用項の加算に対する否定的な偏りを伴って、前記ベースモデルに／これから前記新たな相互作用項を加算／減算すべきか否かを決定することとを含む方法を提供する。続いて、所望の生物学的活性および特性を有するタンパク質を同定するためのタンパク質ライブラリーの定向進化等、様々な応用において、得られたモデルを使用することができる。

一部の実施形態は、遺伝的アルゴリズムを使用して、配列−活性モデルの１つ以上の項を選択する方法を提供する。他の実施形態は、遺伝的アルゴリズムを使用して、得られたデータにモデルが適合するよう係数の値を調整する方法を提供する。

１つ以上の実施形態において、相互作用項を含むモデルは、ベイジアン回帰技法を使用して観測されたデータに適合させられ、この技法では、予備知識が使用されて該モデルの事後確率分布を決定する。

１つ以上の実施形態において、各々が少なくとも１つの異なる相互作用項を含む２つ以上の新たなモデルが作成される。このような実施形態において、本方法は、２つ以上の新たなモデルに基づきアンサンブルモデルを調製することをさらに含む。アンサンブルモデルは、２つ以上の新たなモデルからの相互作用項を含む。アンサンブルモデルは、目的の活性を予測する２つ以上の新たなモデルの能力に従って相互作用項を重み付ける。

配列−活性モデルは、多くの異なる技法により、訓練セットから生成することができる。ある特定の実施形態において、モデルは、部分最小二乗モデル、ベイジアン回帰モデルまたは主成分回帰モデル等、回帰モデルである。別の実施形態において、モデルは、ニューラルネットワークである。

他に明確に記述されていないまたは本質的に矛盾しない限り、モデルを精密化する方法と、本明細書に記載されている様々な形式のモデルとは、互いに適合的である。これらを様々な組合せで使用して、所望の配列−活性モデルを作製することができる。本発明の一部の実施形態において、作製されたモデルを使用して、定向進化を誘導することができる。

（定向進化を誘導するためのモデルの使用）
ある特定の実施形態において、所望の活性のタンパク質バリアントは、定向進化により同定される。一部の実施形態は、作製された配列−活性モデルを使用してタンパク質バリアントの定向進化を誘導する方法を提供する。上記の方法に従って調製および精密化された様々な配列−活性モデルは、タンパク質または生物分子の定向進化の誘導に適している。プロセスの一環として、本方法は、新たなタンパク質バリアントライブラリーの作製に使用すべき配列を同定することができる。このような配列は、上で同定された定義された残基におけるバリエーションを含む、あるいはこのようなバリエーションのその後の導入に使用される前駆体である。配列は、変異誘発または組換えに基づく多様性作製機構を行うことにより改変して、タンパク質バリアントの新たなライブラリーを作製することができる。多様性作製のいずれか一方または両方の形式は、定向進化手順の一部を形成することができる。新たなライブラリーは、新たな配列−活性モデルの開発において使用することもできる。新たなタンパク質バリアントライブラリーを分析して、例えば、安定性、触媒活性、治療活性、病原体または毒素に対する抵抗性、毒性等、特定の活性における効果を評価する。

一部の実施形態において、オリゴヌクレオチド配列または核酸配列の調製は、核酸合成機を使用してオリゴヌクレオチド配列または核酸配列を合成することにより達成される。本発明の一部の実施形態は、定向進化の基本要素として調製されたオリゴヌクレオチド配列またはタンパク質配列を使用した、定向進化のラウンドの実行を含む。本発明の様々な実施形態は、これらの基本要素に組換えおよび／または変異誘発を適用して、多様性を作製する。

一例として、一部の実施形態は、オリゴヌクレオチドに組換え技法を適用する。これらの実施形態において、本方法は、配列−活性モデルの項の係数を評価することにより、定向進化のラウンドのための１つ以上の変異の選択を包含する。選択された変異は、モデルによって予測されるタンパク質の活性に対するその寄与に基づく、特定の位置における特定の型の定義されたアミノ酸またはヌクレオチドを表す。一部の実施形態において、変異の選択は、係数のうちの他のものより大きいと決定された（または活性における強い影響が他の仕方で示された）１つ以上の係数の同定と、そのように同定された１つ以上の係数によって表される定義された位置における定義されたアミノ酸またはヌクレオチドの選択とを包含する。一部の実施形態において、配列−活性モデルに従って変異を選択した後に、本方法は、１つ以上の変異を含むかまたはコードする複数のオリゴヌクレオチドの調製と、このように調製されたオリゴヌクレオチドを使用した定向進化のラウンドの実行とを包含する。一部の実施形態において、定向進化技法は、オリゴヌクレオチドの組合せおよび／または組換えを包含。シャッフリング反応は、オリゴヌクレオチドを使用して行うことができる。

他の実施形態は、タンパク質配列に組換え技法を適用する。一部の実施形態において、本方法は、新たなタンパク質配列または新たな核酸配列の同定と、新たなタンパク質または新たな核酸配列にコードされるタンパク質の調製およびアッセイとを包含。一部の実施形態において、本方法は、さらなる定向進化のための出発点としての新たなタンパク質または新たな核酸配列にコードされるタンパク質の使用をさらに包含する。一部の実施形態において、定向進化プロセスは、所望のレベルの活性を有するとモデルによって予測されるタンパク質配列の断片化および組換えを包含する。

一部の実施形態において、本方法は、モデルによって重要であると予測される個々の変異に基づき、新たなタンパク質配列または新たな核酸配列を同定および／または調製する。これらの方法は、活性に寄与する定義された位置における定義されたアミノ酸またはヌクレオチドのうち１つ以上を同定するための、配列−活性モデルの項の係数を評価することによる１つ以上の変異の選択と、上で選択された１つ以上の変異を含む新たなタンパク質配列または新たな核酸配列の同定と、新たなタンパク質または新たな核酸配列にコードされるタンパク質の調製およびアッセイとを包含する。

他の実施形態において、本方法は、個々の変異の代わりに配列全体の予測される活性に基づき、新たなタンパク質配列または新たな核酸配列を同定および／または調製する。これらの実施形態の一部において、本方法は、配列−活性モデルへの複数のタンパク質配列または複数のアミノ酸配列の適用と、複数のタンパク質配列または核酸配列それぞれの配列−活性モデルによって予測される活性値の決定とを包含する。本方法は、複数の配列に対する、配列−活性モデルにより予測された活性値を評価することにより、上で適用された複数のタンパク質配列または複数のアミノ酸配列の中からの新たなタンパク質配列または新たな核酸配列の選択をさらに包含する。本方法は、新たなタンパク質配列または新たな核酸配列にコードされるタンパク質を有するタンパク質の調製およびアッセイもまた包含する。

一部の実施形態は、タンパク質配列または核酸配列における１つ以上の位置の選択と、そのように同定された１つ以上の位置における飽和変異誘発の実行とを含む。一部の実施形態において、位置は、配列−活性モデルの項の係数を評価して、活性に寄与する定義された位置における定義されたアミノ酸またはヌクレオチドの１つ以上を同定することにより選択される。したがって、一部の実施形態において、定向進化のラウンドは、配列−活性モデルを使用して選択された位置におけるタンパク質配列における飽和変異誘発の実行を含む。１つ以上の相互作用項を含むモデルを含む一部の実施形態において、本方法は、２個以上の相互作用残基における同時の変異誘発の適用を包含する。

一部の実施形態において、本方法は、生成のための新たなタンパク質バリアントライブラリーの１つ以上のメンバーを選択することを含む。続いて、これらのうち１つ以上を、合成および／または発現系において発現させることができる。具体的な実施形態において、本方法は、次の様式で続く：（ｉ）新たなタンパク質バリアントライブラリーの選択されたメンバーを発現させることができる発現系を準備し、（ｉｉ）新たなタンパク質バリアントライブラリーの選択されたメンバーを発現させる。

一部の実施形態は、配列−活性モデルを使用して、固定またはバリエーションのための残基が同定されるバックボーンまたは参照配列を同定する。一部の事例において、参照配列は、所望の活性の最高値（または最高値のうちの１つ）を有することがモデルによって予測される配列である。別の事例において、参照配列は、本来のタンパク質バリアントライブラリーのメンバーである。参照配列から、本方法は、バリエーションをもたらすための部分配列を選択することができる。その上またはそれに代えて、配列−活性モデルは、所望の活性における影響の順に、残基位置（またはある特定の位置における特定の残基）をランク付けする。

本開示の別の態様は、上述の方法およびソフトウェアシステムを実施するためのプログラム命令および／またはデータの配置が提供された機械読み取り可能な媒体を含む装置およびコンピュータプログラム製品に関係する。多くの場合、プログラム命令は、ある特定の方法演算を実行するためのコードとして提供される。データは、本開示の特色の実装に用いられる場合、データ構造、データベースのテーブル、データオブジェクトまたは指定の情報の他の適切な配置として提供されることができる。本明細書に記載されている方法またはシステムのうちいずれかは、全体または一部において、任意の適した機械読み取り可能な媒体に提供されたこのようなプログラム命令および／またはデータとして表され得る。

上述および他の特色は、次の図面と併せた詳細な説明においてより詳細に後述される。

図１Ａは、乗法配列−活性モデルを作製するための一般プロセスを描写するフローチャートである。図１Ｂは、本発明の実施形態に従って観測されたデータに乗法配列−活性モデルを適合させるための遺伝的アルゴリズムを描写するフローチャートである。図２は、タンパク質バリアントライブラリーの１以上世代を作製するための定向進化のプロセスを描写するフローチャートであり、動作は、図１において得られたモデルのうちの１つ等、乗法配列−活性モデルを使用して、タンパク質バリアントライブラリーの作製を誘導する。作製されたバリアントライブラリーは、配列データおよび活性データをもたらして、１つ以上の新たな配列−活性モデルを調製することができる。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ａ〜図３Ｈは、線形対非線形加法モデルの予測能力を比較する例を示すグラフである。図３Ｉ〜図３Ｊは、ある特定の乗法および加法モデルの予測能力を比較する例を示すグラフである。図３Ｉ〜図３Ｊは、ある特定の乗法および加法モデルの予測能力を比較する例を示すグラフである。図４Ａ〜図４Ｂは、配列−活性モデルを調製するための段階的加算および減算方法を実施するプロセスのフローチャートを例示する。図４Ａは、モデルを調製するための段階的加算方法の具体例を例示し；図４Ｂは、モデルを調製するための段階的減算方法の具体例を例示する。図４Ａ〜図４Ｂは、配列−活性モデルを調製するための段階的加算および減算方法を実施するプロセスのフローチャートを例示する。図４Ａは、モデルを調製するための段階的加算方法の具体例を例示し；図４Ｂは、モデルを調製するための段階的減算方法の具体例を例示する。図５は、一実施形態に従って配列バリアントの定向進化におけるベイジアン回帰を実施するプロセスのフローチャートを例示する。図６は、一実施形態に従って配列バリアントの定向進化におけるアンサンブル回帰を実施するプロセスのフローチャートを例示する。図７は、一実施形態に従ってタンパク質バリアントライブラリーを作製するブートストラップｐ値方法を描写するフローチャートである。図８は、例示的デジタルデバイスの模式図である。図９Ａ〜図９Ｃは、それぞれ、線形加法モデル、非相互作用乗法モデルおよび相互作用乗法モデルの予測検出力を示すグラフである。図９Ａ〜図９Ｃは、それぞれ、線形加法モデル、非相互作用乗法モデルおよび相互作用乗法モデルの予測検出力を示すグラフである。図９Ａ〜図９Ｃは、それぞれ、線形加法モデル、非相互作用乗法モデルおよび相互作用乗法モデルの予測検出力を示すグラフである。

（Ｉ．定義）
本明細書において他に定義されていなければ、本明細書に使用されているあらゆる技術および科学用語は、当業者によって一般的に理解されているものと同じ意義を有する。本明細書に含まれている用語を含む様々な科学辞書は、当業者に周知であり利用できる。本明細書に記載されているものと同様または同等な任意の方法および材料は、本明細書に開示されている実施形態の実施における使用を見出す。

この直ぐ後に定義されている用語は、本明細書を全体として参照することにより、より十分に理解される。定義は、単に特定の実施形態の説明と、本明細書に記載されている複雑な概念の理解を助けることを目的とする。これらの定義は、本開示の全範囲の限定を企図していない。具体的には、記載されている特定の配列、組成物、アルゴリズム、システム、方法論、プロトコールおよび試薬は、当業者によって使用される文脈に応じて変化し得るため、本開示がこれらに限定されないことを理解されたい。

本明細書および添付の特許請求の範囲に使用されている場合、内容および文脈がそれ以外のことを明らかに指示しない限り、単数形（「ａ」、「ａｎ」および「ｔｈｅ」）は、複数の指示対象を含む。よって、例えば、「単数のデバイス（ａｄｅｖｉｃｅ）」の言及は、２つ以上のこのようなデバイスの組合せ等を含む。

他に断りがなければ、「または（もしくは）」という接続詞は、ブール論理演算子としてのその正しい意味における使用が企図され、これは、二者択一における特色の選択（ＡまたはＢ、この場合、Ａの選択は、Ｂとは相互排他的である）と、併用による特色の選択（ＡまたはＢ、この場合、ＡおよびＢの両方が選択される）の両方を包含する。本文章のある箇所において、用語「および／または」は同じ目的で使用され、「または」が、相互排他的な二者択一に関して使用される場合を暗示するものと解釈すべきではない。

「生体分子」または「生物分子」は、生物有機体において一般に見出される分子を指す。一部の実施形態において、生物分子は、複数のサブユニットを有するポリマー型生物高分子（すなわち、「バイオポリマー」）を含む。典型的な生体分子として、例えば、ＲＮＡ、ＲＮＡアナログ、ＤＮＡ、ＤＮＡアナログ、ポリペプチド、ポリペプチドアナログ、ペプチド核酸（ＰＮＡ）、ＲＮＡおよびＤＮＡの組合せ（例えば、キメラプラスト）などを含む、ＲＮＡ（ヌクレオチドサブユニットから形成）、ＤＮＡ（ヌクレオチドサブユニットから形成）およびペプチドまたはポリペプチド（アミノ酸サブユニットから形成）等の天然起源のポリマーといくつかの構造的特色を共有する分子が挙げられるがこれらに限定されない。生体分子が、いずれか特定の分子に限定されることは企図されない。なぜなら、例えば、脂質、炭水化物または１つ以上の遺伝的にコード可能な分子（例えば、１つ以上の酵素または酵素経路）によって作製された他の有機分子などが挙げられるがこれらに限定されない、いかなる適した生物分子も本発明において用途を見出すからである。

用語「ポリヌクレオチド」および「核酸」は、デオキシリボヌクレオチドまたはリボヌクレオチド、および一本鎖型または二本鎖型いずれかのこれらのポリマー（例えば、オリゴヌクレオチド、ポリヌクレオチド等）を指す。これらの用語として、一本鎖、二本鎖または三本鎖ＤＮＡ、ゲノムＤＮＡ、ｃＤＮＡ、ＲＮＡ、ＤＮＡ−ＲＮＡハイブリッド、プリン塩基およびピリミジン塩基および／または他の天然の、化学的にもしくは生化学的に改変された、非天然のもしくは誘導体化されたヌクレオチド塩基を含むポリマーが挙げられるがこれらに限定されない。次に、ポリヌクレオチドの限定例を挙げる：遺伝子、遺伝子断片、染色体断片、ＥＳＴ、エクソン、イントロン、ｍＲＮＡ、ｔＲＮＡ、ｒＲＮＡ、リボザイム、ｃＤＮＡ、組換えポリヌクレオチド、分岐ポリヌクレオチド、プラスミド、ベクター、いずれかの配列の単離されたＤＮＡ、いずれかの配列の単離されたＲＮＡ、核酸プローブおよびプライマー。一部の実施形態において、ポリヌクレオチドは、メチル化ヌクレオチドおよびヌクレオチドアナログ等の改変ヌクレオチド、ウラシル（ｕｒａｃｙｌ）、フルオロリボースおよびチオエート等の他の糖および連結基、および／またはヌクレオチド分岐を含む。一部の代替的実施形態において、ヌクレオチドの配列は、非ヌクレオチド構成成分によって中断される。

具体的に限定されていなければ、この用語は、参照核酸と同様の結合特性を有し、天然起源のヌクレオチドと同様の様式で代謝される、天然ヌクレオチドの公知アナログを含む核酸を包含する。他に特段の断りがなければ、特定の核酸配列は、明確に示されている配列と共に、その保存的に改変されたバリアント（例えば、縮重コドン置換）および相補的配列も暗に包含する。具体的には、縮重コドン置換は、１つ以上の選択された（または全）コドンの第３の位置が混合塩基および／またはデオキシイノシン残基に置換された配列を作製することにより達成することができる（Ｂａｔｚｅｒら（１９９１年）ＮｕｃｌｅｉｃＡｃｉｄＲｅｓ．１９巻：５０８１頁；Ｏｈｔｓｕｋａら（１９８５年）Ｊ．Ｂｉｏｌ．Ｃｈｅｍ．２６０巻：２６０５〜２６０８頁；Ｒｏｓｓｏｌｉｎｉら（１９９４年）Ｍｏｌ．Ｃｅｌｌ．Ｐｒｏｂｅｓ８巻：９１〜９８頁）。用語、核酸は、例えば、オリゴヌクレオチド、ポリヌクレオチド、ｃＤＮＡおよびｍＲＮＡと互換的に使用される。

用語「タンパク質」、「ポリペプチド」および「ペプチド」は、長さまたは翻訳後修飾（例えば、グリコシル化、リン酸化、脂質付加、ミリスチル化（ｍｙｒｉｓｔｉｌａｔｉｏｎ）、ユビキチン化等）にかかわらず、アミド結合によって共有結合により連結された少なくとも２個のアミノ酸のポリマーを表示するよう互換的に使用される。一部の事例において、ポリマーは、少なくとも約３０アミノ酸残基、通常は、少なくとも約５０アミノ酸残基を有する。より典型的には、ポリマーは、少なくとも約１００アミノ酸残基を含む。この用語は、全長タンパク質またはペプチドの断片であると従来みなされてきた組成を含む。この定義の内には、Ｄ−アミノ酸およびＬ−アミノ酸、ならびにＤ−アミノ酸およびＬ−アミノ酸の混合物が含まれる。本明細書に記載されているポリペプチドは、遺伝的にコードされたアミノ酸に限定されない。実際に、遺伝的にコードされたアミノ酸に加えて、本明細書に記載されているポリペプチドは、全体または一部のいずれかにおいて、天然起源および／または合成非コードアミノ酸で構成され得る。一部の実施形態において、ポリペプチドは、機能活性（例えば、触媒活性）を依然として保持しながら、全長親ポリペプチドのアミノ酸配列と比較して、アミノ酸付加または欠失（例えば、ギャップ）または置換を含む全長祖先または親ポリペプチドの一部である。

本明細書において使用される場合、用語「セルラーゼ」は、セルロース（β−１，４−グルカンまたはβ−Ｄ−グルコシド結合）を加水分解して、より短いセルロース鎖、オリゴ糖、セロビオースおよび／またはグルコースにすることができる酵素のカテゴリーを指す。一部の実施形態において、用語「セルラーゼ」は、ベータ−グルコシダーゼ、エンドグルカナーゼ、セロビオヒドロラーゼ、セロビオースデヒドロゲナーゼ、エンドキシラナーゼ、ベータ−キシロシダーゼ、アラビノフラノシダーゼ、アルファ−グルクロニダーゼ、アセチルキシランエステラーゼ、フェルロイルエステラーゼおよび／またはアルファ−グルクロニルエステラーゼを包含する。一部の実施形態において、用語「セルラーゼ」は、エンドキシラナーゼ、ベータ−キシロシダーゼ、アラビノフラノシダーゼ、アルファ−グルクロニダーゼ、アセチルキシランエステラーゼ、フェルロイルエステラーゼおよびアルファ−グルクロニルエステラーゼが挙げられるがこれらに限定されない、ヘミセルロース加水分解酵素を包含する。「セルラーゼ生成真菌細胞」は、少なくとも１つのセルロース加水分解酵素を発現および分泌する真菌細胞である。一部の実施形態において、セルラーゼ生成真菌細胞は、セルロース加水分解酵素の混合物を発現および分泌する。「セルロース分解性」、「セルロース加水分解」、「セルロース分解」および同様の用語は、相乗的に作用してセルロースを分解して、セロビオース等の可溶性二糖またはオリゴ糖にする（これらは続いてベータ−グルコシダーゼによりグルコースにさらに加水分解される）、エンドグルカナーゼおよびセロビオヒドロラーゼ（後者は「エキソグルカナーゼ」とも称される）等の酵素を指す。一部の実施形態において、セルラーゼは、β−グルコシダーゼ（ＢＧＬ）、１型セロビオヒドロラーゼ（ＣＢＨ１）、２型セロビオヒドロラーゼ（ＣＢＨ２）、グリコシドヒドロラーゼ６１（ＧＨ６１）および／またはエンドグルカナーゼ（ＥＧ）から選択される組換えセルラーゼである。一部の実施形態において、セルラーゼは、β−グルコシダーゼ（ＢＧＬ）、１型セロビオヒドロラーゼ（ＣＢＨ１）、２型セロビオヒドロラーゼ（ＣＢＨ２）、グリコシドヒドロラーゼ６１（ＧＨ６１）および／またはエンドグルカナーゼ（ＥＧ）から選択される組換えＭｙｃｅｌｉｏｐｈｔｈｏｒａセルラーゼである。一部の追加の実施形態において、セルラーゼは、ＥＧ１ｂ、ＥＧ２、ＥＧ３、ＥＧ４、ＥＧ５、ＥＧ６、ＣＢＨ１ａ、ＣＢＨ１ｂ、ＣＢＨ２ａ、ＣＢＨ２ｂ、ＧＨ６１ａおよび／またはＢＧＬから選択される組換えセルラーゼである。

用語「配列」は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、多糖等が挙げられるがこれらに限定されない、いずれかの生物配列の順序および同一性を指すよう本明細書において使用される。一部の文脈において、配列は、タンパク質におけるアミノ酸残基の順序および同一性を指す（すなわち、タンパク質配列またはタンパク質文字列）、あるいは核酸におけるヌクレオチドの順序および同一性を指す（すなわち、核酸配列または核酸文字列）。配列は、文字列によって表すことができる。「核酸配列」は、核酸を含むヌクレオチドの順序および同一性を指す。「タンパク質配列」は、タンパク質またはペプチドを含むアミノ酸の順序および同一性を指す。

「コドン」は、遺伝暗号の一部であり、タンパク質における特定のアミノ酸を指定するまたはタンパク質合成を開始もしくは停止する、３個の連続したヌクレオチドの特定の配列を指す。

「ネイティブ配列」または「野生型配列」は、天然起源の供給源から単離されたポリヌクレオチドまたはポリペプチドを指す。「ネイティブ配列」の内には、ネイティブ型と同一の配列を有するネイティブポリペプチドまたはポリヌクレオチドの組換え型が含まれる。

用語「遺伝子」は、生物学的機能に関連するＤＮＡまたは他の核酸のいずれかのセグメントを指すよう広く使用される。よって、遺伝子は、コード配列と、必要に応じて、その発現に要求される調節配列とを含む。遺伝子は、必要に応じて、例えば、他のタンパク質のための認識配列を形成する発現されない核酸セグメントも含む。遺伝子は、目的の供給源からのクローニングまたは公知もしくは予測される配列情報からの合成を含む種々の供給源から得ることができ、所望のパラメータを有するよう設計された配列を含むことができる。

「モチーフ」は、生物分子内またはその間のサブユニットのパターンを指す。例えば、用語「モチーフ」は、コードされない生物分子のサブユニットパターンまたは生物分子のコードされた表示のサブユニットパターンに関して使用することができる。

用語「染色体」は、多くの遺伝子、調節エレメントおよび他のヌクレオチド配列を含む一片の巻きついたＤＮＡを含む、細胞に存在するＤＮＡおよび関連するタンパク質の組織化された構造に関して使用される。この用語は、該構造のＤＮＡ配列に関しても使用される。

遺伝的アルゴリズムの文脈において、用語「染色体」は、モデルの集団における個々のモデル（またはモデルパラメータのセット）のためのエイリアスとして使用される。この用語がこのように使用される理由は、親世代からのモデルが、子供世代のモデルにそのパラメータ（または遺伝子）を伝えるからであり、これは、親染色体が子供染色体にその遺伝子を伝える様式に似ている。

「スクリーニング」は、１つ以上の生体分子の１つ以上の特性が決定されるプロセスを指す。例えば、典型的なスクリーニングプロセスは、１つ以上のライブラリーの１つ以上のメンバーの１つ以上の特性が決定されるプロセスを含む。

「発現系」は、遺伝子または他の核酸にコードされるタンパク質またはペプチドを発現するための系である。

「宿主細胞」または「組換え宿主細胞」は、少なくとも１つの組換え核酸分子を含む細胞を指す。よって、例えば、一部の実施形態において、組換え宿主細胞は、ネイティブ（すなわち、非組換え）型の細胞内には見出されない遺伝子を発現する。

「定向進化」、「誘導進化」または「人為的進化」は、人為的選択、変異、組換えまたは他の操作によって１つ以上の生体分子配列（または該配列を表す文字列）を人為的に変化させるｉｎｖｉｔｒｏまたはｉｎｖｉｖｏプロセスを指す。一部の実施形態において、定向進化は、（１）種々の個体が存在する生殖集団において起こり、その一部は（２）遺伝性であり、その一部は（３）適応度が異なる。生殖成功は、有益な特性等、所定の特性の選択の結果によって決定される。生殖集団は、例えば、コンピュータシステムにおける物理的集団またはバーチャルな集団であり得る。

ある特定の実施形態において、定向進化方法は、親タンパク質バリアントライブラリーのバリアントをコードする遺伝子を組換えることにより、タンパク質バリアントライブラリーを作製する。この方法は、親バリアントライブラリーのタンパク質をコードするための配列または部分配列を含むオリゴヌクレオチドを用いることができる。親バリアントライブラリーのオリゴヌクレオチドのうち一部は密接な関係があり得、他のバリアントによる組換えにより変化するよう選択される代替アミノ酸のコドンの選択のみが異なることができる。この方法は、所望の結果が達成されるまで１以上のサイクル行うことができる。複数のサイクルが使用される場合、各サイクルは、許容できる性能を有するいずれのバリアントをその後の組換えサイクルにおいて使用すべきか同定するためのスクリーニングステップを包含する。

一部の実施形態において、定向進化方法は、配列−活性モデルによって同定される定義された場所における部位（ｓｉｔｅｄ）特異的変異誘発によりタンパク質バリアントを作製する。一部の実施形態は、特定の部位または遺伝子の狭い領域におけるあらゆる可能な（または限りなく可能な）変異の作製を試みる飽和変異誘発を用いる。

「シャッフリング」および「遺伝子シャッフリング」は、一連の鎖伸長サイクルを通して親ポリヌクレオチドの断片のコレクションを組換えることにより、多様性を導入するための定向進化方法を指す。ある特定の実施形態において、鎖伸長サイクルのうち１つまたは複数は、セルフプライミングである；すなわち、断片それ自体以外のプライマーを添加せずに行われる。各サイクルは、ハイブリダイゼーションによる一本鎖断片のアニーリングと、鎖伸長によるアニーリングした断片のその後の延長と、変性とを包含する。シャッフリングの経過にわたり、成長する核酸鎖は、典型的に、「テンプレートスイッチング」と称される場合があるプロセスにおいて、複数の異なるアニーリングパートナーに曝露される。本明細書において使用されるように、「テンプレートスイッチング」は、ある核酸由来のある核酸ドメインを、第２の核酸由来の第２のドメインでスイッチする能力を指す（すなわち、第１および第２の核酸は、シャッフリング手順における鋳型として機能する）。

テンプレートスイッチングは、異なる起源の断片間のクロスオーバーの導入に起因するキメラ配列を高頻度で生成する。クロスオーバーは、複数のサイクルのアニーリング、伸長および変性におけるテンプレートスイッチされた組換えにより生じる。よって、シャッフリングは、典型的に、バリアントポリヌクレオチド配列の生成をもたらす。一部の実施形態において、バリアント配列は、バリアントの「ライブラリー」を含む。これらのライブラリーの一部の実施形態において、バリアントは、親ポリヌクレオチドの２つ以上に由来する配列セグメントを含む。

２つ以上の親ポリヌクレオチドが用いられる場合、個々の親ポリヌクレオチドは、シャッフリングサイクルに用いられるアニーリング条件下において異なる親からの断片がハイブリダイズするように、十分に相同性である。一部の実施形態において、シャッフリングは、相対的に限定された相同性を有する親ポリヌクレオチドの組換えを可能にする。多くの場合、個々の親ポリヌクレオチドは、目的の明確に異なるおよび／または特有のドメインおよび／または他の配列特徴を有する。明確に異なる配列特徴を有する親ポリヌクレオチドを使用する場合、シャッフリングは、高度に多様なバリアントポリヌクレオチドを生成することができる。

様々なシャッフリング技法が当技術分野において公知である。例えば、全てその全体が参照により本明細書に組み込まれる、米国特許第６，９１７，８８２号、同第７，７７６，５９８号、同第８，０２９，９８８号、同第７，０２４，３１２号および同第７，７９５，０３０号を参照されたい。

「重複伸長による遺伝子スプライシング」または「遺伝子ＳＯＥ化（ＳＯＥｉｎｇ）」は、制限部位に依存せずＤＮＡ配列を組み換え、変異したＤＮＡ断片をｉｎｖｉｔｒｏで直接的に作製する、ＰＣＲに基づく方法である。プライマーの５’末端に取り込まれる配列を改変することにより、一端に共通配列を共有するよう、ポリメラーゼ連鎖反応産物のいずれかのペアを作製することができる。ポリメラーゼ連鎖反応条件下において、共通配列は、２つの異なる断片由来の鎖を互いに相補的にし、互いにハイブリダイズさせ、共通配列の重複によって連結された２つの断片を各端に有する新たな配列を形成することができる。ＤＮＡポリメラーゼによるこの重複の伸長は、組換え分子を生じる。

「変異誘発」は、親核酸または親ポリペプチド等、標準配列または参照配列に変異を導入するプロセスである。

いかなる適した方法にも用途を見出すが、部位特異的変異誘発は、変異を導入するための有用な技法の一例である。よって、それに代えてまたはそれに加えて、遺伝子合成、飽和ランダム変異誘発、残基の半合成コンビナトリアルライブラリー、定向進化、再帰的配列組換え（「ＲＳＲ」）（例えば、その全体が参照により本明細書に組み込まれる米国特許出願第２００６／０２２３１４３号を参照）、遺伝子シャッフリング、エラープローンＰＣＲおよび／またはいずれか他の適した方法により、変異変異体を提供することができる。

適した飽和変異誘発手順の一例は、その全体が参照により本明細書に組み込まれる公開された米国特許出願第２０１０００９３５６０号に記載されている。

「断片」は、ヌクレオチドまたはアミノ酸の配列のいずれか一部である。ポリペプチドまたはポリヌクレオチド配列の切断が挙げられるがこれに限定されない、当技術分野において公知の任意の適した方法を使用して、断片を生成することができる。一部の実施形態において、断片は、ポリヌクレオチドを切断するヌクレアーゼを使用することにより生成される。一部の追加の実施形態において、断片は、化学的および／または生物学的合成技法を使用して作製される。一部の実施形態において、断片は、相補的核酸（複数可）の部分的鎖延長を使用して作製される、少なくとも１つの親配列の部分配列を含む。

「親ポリペプチド」、「親ポリヌクレオチド」、「親核酸」および「親」は、定向進化等、多様性作製手順における出発点として使用される、野生型ポリペプチド、野生型ポリヌクレオチドまたはバリアントを指すよう一般に使用される。一部の実施形態において、親それ自体は、シャッフリングまたは他の多様性作製手順により生成される。一部の実施形態において、定向進化において使用される変異体は、親ポリペプチドに直接的に関係する。一部の実施形態において、親ポリペプチドは、極端な温度、ｐＨおよび／または溶媒条件に曝露されたときに安定であり、シャッフリングのためのバリアントを作製するための基盤（ｂａｓｉｓ）として役立つことができる。一部の実施形態において、親ポリペプチドは、極端な温度、ｐＨおよび／または溶媒条件に安定ではなく、親ポリペプチドは、頑健なバリアントを作製するために進化する。

「親核酸」は、親ポリペプチドをコードする。

「変異体」、「バリアント」および「バリアント配列」は、本明細書において使用される場合、いくつかの点において、標準配列または参照配列とは異なる生物配列を指す。この差は、「変異」と称され得る。一部の実施形態において、変異体は、少なくとも１つの置換、挿入、クロスオーバー、欠失および／または他の遺伝的操作によって変更されたアミノ酸（すなわち、ポリペプチド）配列またはポリヌクレオチド配列である。本開示の目的のため、変異体およびバリアントは、それらが作製される特定の方法に限定されない。一部の実施形態において、変異体配列またはバリアント配列は、親配列と比較して、増加した、減少したまたは実質的に同様の活性または特性を有する。一部の実施形態において、バリアントポリペプチドは、野生型ポリペプチド（例えば、親ポリペプチド）のアミノ酸配列と比較して、変異した１つ以上のアミノ酸残基を含む。一部の実施形態において、ポリペプチドの１つ以上のアミノ酸残基は、複数を構成するバリアントポリペプチドにおける親ポリペプチドと比較して、一定に保たれる、インバリアントである、または変異されない。一部の実施形態において、親ポリペプチドは、改善された安定性、活性または他の特性を有するバリアントを作製するための基盤として使用される。

「ライブラリー」または「集団」は、核酸配列（例えば、遺伝子、オリゴヌクレオチド等）またはそれから生じる発現産物（例えば、酵素または他のタンパク質）等、少なくとも２つの異なる分子、文字列および／またはモデルのコレクションを指す。ライブラリーまたは集団は一般に、多数の異なる分子を含む。例えば、ライブラリーまたは集団は典型的に、少なくとも約１０種の異なる分子を含む。大型のライブラリーは典型的に、少なくとも約１００種の異なる分子を含み、より典型的には、少なくとも約１０００種の異なる分子を含む。一部の適用のため、ライブラリーは、少なくとも約１００００種以上の異なる分子を含む。ある特定の実施形態において、ライブラリーは、定向進化手順によって生成される多数のバリアントまたはキメラ核酸またはタンパク質を含む。

２つの核酸は、該２つの核酸のそれぞれに由来する配列が後代核酸において組み合わされる場合、「組換え」られる。２つの配列は、該核酸の両方が組換えの基質となる場合、「直接的に」組換えられる。

「選択」は、１つ以上の生体分子が、１つ以上の目的の特性を有すると同定されるプロセスを指す。よって、例えば、ライブラリーをスクリーニングして、１つ以上のライブラリーメンバーの１つ以上の特性を決定することができる。ライブラリーメンバーのうち１つ以上が、目的の特性を保有すると同定される場合、これが選択される。選択は、ライブラリーメンバーの単離を含むことができるが、これは必須ではない。さらに、選択およびスクリーニングは、同時となることができ、多くの場合同時である。

「従属変数」は、出力または効果を表すか、あるいは、それが効果であるかどうかを調べるために検査される。「独立変数」は、入力または原因を表すか、あるいは、それが原因であるかどうかを調べるために検査される。従属変数は、独立変数が変化するにつれて変化するか、また、どの程度変化するかを調べるために試験され得る。

単純な確率論的線形モデルにおいて、
ｙ_ｉ＝ａ＋ｂｘ_ｉ＋ｅ_ｉ
（項ｙ_ｉは、従属変数の第ｉの値であり、ｘ_ｉは、独立変数の第ｉの値である）である。項ｅ_ｉは、「誤差」として知られ、独立変数によって説明されない従属変数の可変性を含む。

独立変数は、「予測変数」、「リグレッサー」、「被制御変数」、「操作された変数」、「説明変数」または「入力変数」としても知られている。

「加法モデル」は、複数の独立変数ｘ_ｉの関数として従属変数ｙの間の関係性を記載するモデルであり、このモデルは、各項が独立変数の式を含む複数の項を加算することにより、従属変数に対する独立変数の寄与を組み合わせる。独立変数の式は、従属変数に対する独立変数の寄与を反映する。

一部の実施形態において、数学的モデルは、１つ以上の独立変数（ＩＶ）と従属変数（ＤＶ）との間の関係性を記述するために使用される。モデルは、ＤＶ＝（ＩＶ）の代数式として表すことができる。「代数式」は、変数、係数、定数ならびにプラスおよびマイナス符号等の演算記号を含むことができる。４ｘ^２＋３ｘｙ＋７ｙ＋５は、二変数代数式である。

加法モデルにおいて、項は、プラスまたはマイナス符号によって分離された要素である。上の例は、加法モデルの形式をとる。これは、４つの項、４ｘ^２、３ｘｙ、７ｙおよび５を有する。項は、変数および係数（４ｘ^２、３ｘｙおよび７ｙ）または定数（５）からなることができる。代数式において、変数は、システムの変化する状態を表すために様々な値をとることができる。例えば、これは、移動する車のスピードを表す連続型変数、あるいはアミノ酸型を表す複数の非連続値による離散変数であり得る。変数は、実体の存在または非存在、例えば、特定の位置における特定の型の残基の存在または非存在を表すビット値変数であり得る。上の代数式において、変数は、ｘおよびｙである。

一部の実施形態において、式の「項」は、他の符号によって区分された式の要素であり得る。以下にさらに説明する通り、例えば、乗法モデルは、乗算によって接続された項を有する。

「係数」は、従属変数または従属変数を含む式によって乗算されるスカラー値を指す。上の例において、「係数」は、代数式における項の数字部分である。４ｘ^２＋３ｘｙ＋７ｙ＋５において、第１の項の係数は４である。第２の項の係数は３であり、第３の項の係数は７である。項が変数のみからなる場合、その係数は１である。

「定数」は、数字のみを含む代数式における項である。すなわち、これは、変数なしの項である。式４ｘ^２＋３ｘｙ＋７ｙ＋５において、定数項は「５」である。

「線形項」は、１の次数または１乗された単一変数を有する項である。上の例において、項７ｙは、その次数が１であるため（ｙ^１または単純にｙ）線形項である。対照的に、項４ｘ^２は、ｘが２の次数を有するため二次項であり、３ｘｙは、ｘおよびｙが、各々、１の次数を有し、その積が２の次数を導くため二変数二次項である。

加法モデルは、線形および／または非線形項を含むことができる。「線形項」は、単一独立変数と関連する係数との積を含む加法モデルの項を指し、モデルの量は、独立変数が変化するにつれて線形に変化する。用語「線形モデル」または「線形加法モデル」は、その項が全て線形項である任意の加法モデルを指す。これは、独立変数の間に相互作用が存在しない（すなわち、各独立変数は、タンパク質の全体の適応度に独立的に寄与する）ことを仮定する。上述の単純な確率的線形モデルは、線形加法モデルの例である。

加法モデルの文脈において、他に指定がなければ、「非線形項」、「外積項」および「相互作用項」は、互換的に使用されており、２個以上の独立変数の積を含む式を含むモデルの項を指す。一部の実施形態において、この式は単純に、定数係数×積：ｃ_ｉ，ｊ×ｘ_ｉｘ_ｊであり得る。加法モデルの文脈において、用語「非線形モデル」または「非線形加法モデル」は、上の意義における少なくとも１つの非線形項を含む任意の加法モデルを指す。しかし、本文章のいくつかの箇所において、「非線形項」は、項が、独立変数のべき関数または指数関数が挙げられるがこれらに限定されない、様々な形式の単一独立変数を含む、より広い意味を指す。

「乗法モデル」は、複数の独立変数ｘ_ｉの関数として従属変数ｙの間の関係性を記載するモデルであり、このモデルは、各々が独立変数の式を含む複数の項を乗じることにより、従属変数に対する独立変数の寄与を組み合わせる。独立変数の式は、従属変数に対する独立変数の寄与を反映する。

「線形項」および「線形モデル」が、乗法モデルに適用可能ではないことに留意されたい。そのため、乗法モデルは、線形または非線形ではなく、相互作用または非相互作用としてのみ記載される。乗法モデルは、非相互作用および／または相互作用項を含むことができる。乗法モデルにおける「非相互作用項」は、単一独立変数の式を含むモデルの項を指す。

加法モデルと同様に、乗法モデルにおける「相互作用項」は、２個以上の独立変数の積を含む式を含むモデルの項を指す。一部の実施形態において、この式は、単純に、定数係数×積：ｃ_ｉ，ｊ×ｘ_ｉｘ_ｊであり得る。他の実施形態において、式は、（１＋ｃ_ｉ，ｊ×ｘ_ｉｘ_ｊ）であり得る。

「相互作用サブユニット」は、配列のモデリングされた活性に対する相乗効果を有する配列の２個以上のサブユニットを指し、この相乗効果は、モデリングされた活性に対するサブユニットの個々の効果とは別個で異なる。

「積」は、２個以上の変数または項の乗算の結果を指す。

「係数」は、従属変数または従属変数を含む式を乗じたスカラー値を指す。

「直交／直交性」は、モデルまたは他の関係性における他の独立変数と無相関の独立変数を指す。

用語「配列−活性モデル」は、一方では生物分子の活性、特徴または特性の間、他方では様々な生物配列の間の関係性を説明する任意の数学的モデルを指す。

用語「コードされた文字列」は、その分子に関する配列／構造情報を保存する生物分子の表示を指す。一部の実施形態において、コードされた文字列は、バリアントのライブラリーにおける配列変異に関する情報を含む。生体分子の活性情報と共に生体分子のコードされた文字列は、配列−活性モデルの訓練セットとして使用することができる。生体分子の非配列特性は、記憶することができるか、あるいはその生体分子のコードされた文字列と他の仕方で関連させることができる。

「参照配列」は、配列のバリエーションを生じる配列である。一部の事例において、「参照配列」は、バリエーションの定義に使用される。このような配列は、所望の活性の最高値（または最高値の１つ）を有することがモデルによって予測される配列であり得る。別の事例において、参照配列は、本来のタンパク質バリアントライブラリーのメンバーの配列であり得る。ある特定の実施形態において、参照配列は、親タンパク質または核酸の配列である。

「訓練セット」は、１つ以上のモデルがそれに適合させられそれに基づいて構築される、配列−活性データまたは観測のセットを指す。例えば、タンパク質配列−活性モデルに関して、訓練セットは、初期または改善されたタンパク質バリアントライブラリーの残基配列を含む。典型的には、これらのデータは、ライブラリーにおけるタンパク質毎の活性値と共に、完全または部分的残基配列情報を含む。一部の事例において、複数の種類の活性（例えば、速度定数データおよび熱安定性データ）が、訓練セットにおいて一緒に提供される。活性は、有益な特性である場合がある。

用語「観測」は、配列−活性モデル等、モデルを作製するための訓練セットにおいて使用することができるタンパク質または他の生物学的実体に関する情報である。用語「観測」は、タンパク質バリアントを含む、任意のシーケンシングおよびアッセイされた生物分子を指すことができる。ある特定の実施形態において、各観測は、ライブラリーにおけるバリアントの活性値および関連する配列である。一般に、より多くの観測を用いて配列−活性モデルを作成するほど、該配列−活性モデルの予測検出力はより優れたものになる。

本明細書において、用語「有益な特性」は、タンパク質または該タンパク質に関連する物質の組成もしくはプロセスにある程度の利益を付与する表現型または他の同定可能な特色を指すよう企図される。有益な特性の例として、親タンパク質と比較した、バリアントタンパク質の触媒特性、結合特性、極端な温度、ｐＨ等に曝露された際の安定性、刺激に対する感受性、阻害その他の増加または減少が挙げられる。他の有益な特性は、特定の刺激に応答して変更されたプロファイルを含むことができる。有益な特性のさらに別の例を下に示す。有益な特性の値は、配列−活性モデルの訓練セットに使用される観測における活性値として使用することができる。

「次世代シーケンシング」または「ハイスループットシーケンシング」は、シーケンシングプロセスを並列化し、数千または数百万個の配列を即座に生成するシーケンシング技法である。適した次世代シーケンシング方法の例として、単一分子リアルタイムシーケンシング（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、ＭｅｎｌｏＰａｒｋ、Ｃａｌｉｆｏｒｎｉａ）、イオン半導体シーケンシング（例えば、ＩｏｎＴｏｒｒｅｎｔ、ＳｏｕｔｈＳａｎＦｒａｎｃｉｓｃｏ、Ｃａｌｉｆｏｒｎｉａ）、パイロシーケンシング（例えば、４５４、Ｂｒａｎｆｏｒｄ、Ｃｏｎｎｅｃｔｉｃｕｔ）、ライゲーションによるシーケンシング（例えば、ＳＯＬｉｄシーケンシング、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｃａｒｌｓｂａｄ、Ｃａｌｉｆｏｒｎｉａ）、合成および可逆的ターミネーターによるシーケンシング（例えば、Ｉｌｌｕｍｉｎａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆｏｒｎｉａ）、透過型電子顕微鏡等の核酸撮像技術その他が挙げられるがこれらに限定されない。例示的技法のさらなる記載は、本開示の詳細な説明に記載されている。

「予測検出力」は、様々な条件下でデータの従属変数の値を正確に予測するモデルの能力を指す。例えば、配列−活性モデルの予測検出力は、配列情報から活性を予測する該モデルの能力を指す。

「交差検証」は、目的の値（すなわち、従属変数の値）を予測するモデルの能力の一般化可能性を検査する方法を指す。この方法は、データの１セットを使用してモデルを調製し、データの異なるセットを使用してモデル誤差を検査する。データの第１のセットは、訓練セットと考えられ、データの第２のセットは、検証セットである。

「系統的分散」は、異なる組合せにおいて変化させられる項目または項目のセットの異なる記述子を指す。

「系統的に変化させられるデータ」は、異なる組合せにおいて変化させられる項目または項目のセットの異なる記述子から生成されるデータ、これに由来するデータ、またはこれに起因するデータを指す。多くの異なる記述子は、同時に、但し異なる組合せにおいて変化させられることができる。例えば、アミノ酸の組合せが変化させられたポリペプチドから集めた活性データは、系統的に変化させられるデータである。

用語「系統的に変化させられる配列」は、各残基が複数の文脈において理解される配列のセットを指す。原則として、系統的バリエーションのレベルは、配列が互いに直交する（すなわち、平均と比較して最大に異なる）程度によって定量化することができる。

用語「トグリング」は、最適化されたライブラリーにおけるタンパク質バリアントの配列における特定の位置への複数のアミノ酸残基の種類の導入を指す。

用語「回帰」および「回帰分析」は、独立変数の中のいずれが従属変数に関係するか理解し、これらの関係性の形式を探索するために使用される技法を指す。制限された状況において、回帰分析を使用して、独立変数と従属変数との間の因果関係を推測することができる。これは、変数間の関係性を推定するための統計学的技法である。従属変数と１つ以上の独立変数の間の関係性に焦点が置かれる場合、これは、いくつかの変数をモデリングおよび分析するための多くの技法を含む。より具体的には、回帰分析は、独立変数のうちいずれか１つが変化させられる一方で他の独立変数が固定される場合に、従属変数の典型的な値がどのように変化するかに関する理解を助ける。回帰技法は、配列および活性情報を含み得る複数の観測を含む訓練セットから配列−活性モデルを作製するために使用することができる。

部分最小二乗またはＰＬＳは、新たな空間に予測される変数（例えば、活性）および観測可能な変数（例えば、配列）を投影（ｐｒｏｊｅｃｔ）することにより線形回帰モデルを見出す方法のファミリーである。ＰＬＳは、潜在的構造への投影としても公知である。Ｘ（独立変数）およびＹ（従属変数）データの両方が、新たな空間に投影される。ＰＬＳは、２行列（ＸおよびＹ）間の基本的関係を見出すために使用される。潜在的変数アプローチは、ＸおよびＹ空間における共分散構造をモデリングするために使用される。ＰＬＳモデルは、Ｙ空間における最大多次元分散方向を説明する、Ｘ空間における多次元方向を見出すよう試みるであろう。予測因子の行列が観測よりも多くの変数を有する場合、また、Ｘ値の間に多重共線性が存在する場合、ＰＬＳ回帰が特に適する。

「記述子」は、項目を記述または同定するよう機能するものを指す。例えば、文字列における文字は、該文字列によって表されるポリペプチドにおけるアミノ酸の記述子であり得る。

回帰モデルにおいて、従属変数は、項の和によって独立変数に関係付けられる。各項は、独立変数および関連する回帰係数の積を含む。純粋に線形回帰モデルの場合、回帰係数は、次の形式の式におけるβにより与えられる：
ｙ_ｉ＝β_１ｘ_ｉ１＋．．．＋β_ｐｘ_ｉｐ＋ε_ｉ＝ｘ_ｉ ^Ｔβ＋ε_ｉ
式中、ｙ_ｉは従属変数であり、ｘ_ｉは独立変数であり、ε_ｉは誤差変数であり、Ｔは、ベクトルｘ_ｉおよびβの内積である転置行列を表示する。

「主成分回帰」（ＰＣＲ）は、回帰係数を推定する際に主成分分析を使用する回帰分析を指す。ＰＣＲにおいて、直接的に独立変数に基づいて従属変数を回帰させる（ｒｅｇｒｅｓｓ）代わりに、独立変数の主成分が使用される。ＰＣＲは、典型的には、回帰において主成分のサブセットのみを使用する。

「主成分分析」（ＰＣＡ）は、直交変換を使用して、おそらく相関する変数の観測のセットを主成分と呼ばれる線形に無相関の変数の値のセットへと転換する数学的手順を指す。主成分の数は、本来の変数の数以下である。この変換は、第１の主成分が、最大の可能な分散（すなわち、データにおける可能な限り多くの変動性の原因である）を有し、次に、続いて起こる構成成分のそれぞれが、先行する構成成分に直交する（すなわち、これと無相関である）という制約下で可能な最高の分散を有するような仕方で定義される。

「ニューラルネットワーク」は、算出のためのコネクショニストアプローチを使用して情報を処理する、相互接続された処理要素または「ニューロン」の群を含むモデルである。ニューラルネットワークは、入力および出力の間の複雑な関係性をモデリングするために、あるいはデータにおけるパターンを見出すために使用される。大部分のニューラルネットワークは、非線形、分布、平行様式でデータを処理する。多くの場合、ニューラルネットワークは、学習フェーズ中にその構造を変化させる適応システムである。関数は、様々なユニットが割り当てられるサブタスクの明らかな線引きが存在するのではなく、処理要素によって集合的にかつ並行して実行される。

一般に、ニューラルネットワークは、処理要素および要素パラメータの間の接続により決定される複雑な大域的挙動を示す単純な処理要素のネットワークを含む。ニューラルネットワークは、ネットワークにおける接続の強度を変更して、所望のシグナルフローを生成するよう設計されたアルゴリズムとともに使用される。強度は、訓練または学習中に変更される。

「ランダムフォレスト（Ｒａｎｄｏｍｆｏｒｅｓｔ）」は、各ツリーが、独立してサンプリングされたランダムベクトルの値に依存し、フォレストにおける全てのツリーで同じ分布を有するような、分類ツリー予測因子の組合せを指す。ランダムフォレストは、決定ツリーの各分割における特色のランダム化選択による、非プールニング決定ツリー学習器のバギングからなる学習アンサンブルである。ランダムフォレストは、そのそれぞれが最もポピュラーなクラスに投票する、数多くの分類ツリーを成長させる。続いて、ランダムフォレストは、フォレストにおける全ツリー予測因子から最もポピュラーな投票されたクラスを取り出すことにより、変数を分類する。

不確実量ｐの「事前確率分布」または「事前」は、目的のデータ（例えば、タンパク質配列の訓練セット）が考慮に入れられる前の、ｐに関する不確実性を表現する確率分布である。未知量は、パラメータ、係数、変数、潜在的変数その他（例えば、重回帰モデルにおける係数）であり得る。

不確実量ｐの「事後確率分布」または「事後」は、目的のデータが考慮に入れられた後の、ｐに関する不確実性を表現する確率分布である。

用語「ベイジアン線形回帰」は、ベイジアン推測の文脈内で統計学的分析が取り組まれる線形回帰へのアプローチを指す。モデルのパラメータの事前確率分布関数を含む、線形回帰モデルに関する事前の考えは、ベイズ定理に従ったデータの尤度関数と組み合わされて、パラメータに関する事後確率分布をもたらす。

「過剰適合」は、統計学的モデルが、根底にある関係性の代わりにランダム誤差またはノイズを説明する場合に起こる状態を指す。過剰適合は一般に、観測の数と比べて多過ぎるパラメータを有する等、モデルが過剰に複雑な場合に起こる。過剰適合したモデルは一般に、データにおける軽微なゆらぎを誇張し得るため、不十分な予測性能を有するであろう。

用語「ベースモデル」は、モデルを改善するプロセスの始めに提供される配列−活性モデルに関して使用される。

用語「アップデートされたモデル」は、ベースモデルおよび／またはこのモデルが由来する別のモデルと比較して改善された予測検出力を有する、ベースモデルに直接的にまたは間接的に由来する配列−活性モデルに関して使用される。

モデルの「尤度関数」または「尤度」は、統計学的モデルのパラメータの関数である。いくつかの観測成果を与えられたパラメータ値のセットの尤度は、これらのパラメータ値を与えられたこれらの観測成果の確率に等しく、すなわち、Ｌ（θ｜ｘ）＝Ｐ（ｘ｜θ）。

「モンテカルロシミュレーション」は、実現象をシミュレートする数値的結果を得るための数多くのランダムサンプリングに頼るシミュレーションである。例えば、区間（０，１］から数多くの擬似ランダム一様性変数を引き出し、０．５０以下の値を表に、０．５０を超える値を裏に割り当てることは、コインを反復して投げる行為のモンテカルロシミュレーションである。

「メトロポリスアルゴリズム」または「メトロポリスヘイスティングスアルゴリズム」は、直接サンプリングが困難な確率分布から一連のランダムサンプールを得るためのマルコフ連鎖モンテカルロ（ＭＣＭＣ）方法である。このサンプリングシーケンスを使用して、分布を近似させること（すなわち、ヒストグラムを作製する）、あるいは積分を算出することができる（期待値等）。メトロポリスヘイスティングスおよび他のＭＣＭＣアルゴリズムは一般に、特に、次元の数が高い場合に、多次元分布からサンプリングするために使用される。メトロポリスヘイスティングスアルゴリズムの目的は、所望の分布Ｐ（ｘ）に従って状態ｘを漸近的に作製することであり、これを履行するために確率論的プロセスを使用する。このアルゴリズムのアイデアは、特有の分布Ｐ（ｘ）へと漸近的に収束するよう確率論的プロセスを調整することである。

「マルコフ連鎖」は、マルコフ特性を有する一連のランダム変数Ｘ_１、Ｘ_２、Ｘ_３．．．である。換言すれば、現在の状態が与えられると、未来および過去の状態は独立している。公式には、
Ｐｒ（Ｘ_ｎ＋１＝ｘ｜Ｘ_１＝ｘ_１，Ｘ_２＝ｘ_２，．．．，Ｘ_ｎ＝ｘ_ｎ）＝Ｐｒ（Ｘ_ｎ＋１＝ｘ｜Ｘ_ｎ＝ｘ_ｎ）。
Ｘ_ｉの可能な値は、鎖の状態空間と呼ばれる可算セットＳを形成する。「マルコフ連鎖」システムは、有限または可算数の可能な状態間で、ある状態から別の状態への移行を行う数学的システムである。これは、無記憶として通常特徴付けられる、ランダムプロセスである：次の状態は、現状態のみに依存し、これに先行する一連の事象には依存しない。

「赤池の情報量基準」（ＡＩＣ）は、統計学的モデルの適合の相対良好性の尺度であり、これは多くの場合、モデルの有限セットの間のモデル選択のための基準として使用される。ＡＩＣは、情報エントロピーの概念に根差し、事実上、所定のモデルが使用されて現実を記載する場合、情報喪失の相対尺度を提供する。これは、モデル構築におけるバイアスと分散との間、あるいは大雑把に言うと、モデルの精度と複雑さとの間のトレードオフを記載すると考えることができる。ＡＩＣは次の通りに計算することができる：ＡＩＣ＝−２ｌｏｇ_ｅＬ＋２ｋ（式中、Ｌは、関数の最大尤度であり、ｋは、推定しようとするモデルの自由パラメータの数である）。

「ベイズ情報量基準」は、モデルの有限セットの間のモデル選択のための基準であり、ＡＩＣに密接な関係がある。ＢＩＣは次の通りに計算することができる：ＢＩＣ＝−２ｌｏｇ_ｅＬ＋ｋｌｏｇ_ｅ（ｎ）（式中、ｎは、データ観測の数である）。観測の数が増加するにつれて、ＢＩＣは多くの場合、ＡＩＣよりも重く余分な数の自由パラメータにペナルティーを科す。

「遺伝的アルゴリズム」は、進化過程を模倣するプロセスである。遺伝的アルゴリズム（ＧＡ）は、多種多様な分野において使用されており、十分に特徴付けされていないまたは十分な特徴付けを行うには複雑過ぎる問題であるが、ある程度の分析的評価が利用できる問題を解決する。すなわち、ＧＡは、解法の相対値（または別の解法と比較した潜在的な一解法の少なくとも相対値）をいくつかの定量化できる尺度によって評価することができる問題の解決に使用される。本開示の文脈において、遺伝的アルゴリズムは、コンピュータにおいて文字列を選択または操作するためのプロセスであり、典型的には、文字列は、１つ以上の生物分子（例えば、核酸、タンパク質その他）に対応する。

用語「遺伝的操作」（または「ＧＯ」）は、生物学的および／または計算的遺伝的操作を指し、任意の種類の文字列の任意の集団における（よって、このような列にコードされる物理的対象物の任意の物理的特性における）あらゆる変化は、論理的代数関数の有限セットのランダムおよび／または所定の適用の結果として説明することができる。ＧＯの例として、増殖、クロスオーバー、組換え、変異、ライゲーション、断片化等が挙げられるがこれらに限定されない。

「アンサンブルモデル」は、その項が、モデルの群の全項を含むモデルであり、項のアンサンブルモデルの係数は、群の個々のモデルの対応する項の重み付きの係数に基づく。係数の重み付けは、個々のモデルの予測検出力および／または適応度に基づく。

（ＩＩ．改善されたタンパク質バリアントを検索するためのプロセスの概要）
タンパク質配列を探索するための誘導進化アプローチにおいて、配列−活性モデルを使用して、タンパク質バリアントの作製を誘導する。本開示の一態様は、タンパク質ライブラリーに基づき、新たな改善されたタンパク質ライブラリーの検索に使用することができる配列−活性モデルを調製するための様々な方法を提供する。本セクションは先ず、新たな改善されたタンパク質を検索するためのプロセスの概要を提供し、続いて、出発ライブラリーの選択、配列−活性モデルの構築および新たなタンパク質の探索を誘導するためのモデルの使用に関係する課題に関するさらなる詳細を提供する。

本開示は、アミノ酸残基配列およびタンパク質活性を含む例証的な例を提供するが、本明細書に記載されているアプローチを他の生物配列および活性のために実装することもできることが理解される。例えば、様々な実施形態において、配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、核酸配列、タンパク質、多糖等であり得る。１つ以上の実施形態において、配列のサブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、ヌクレオチド、コドン、変異、アミノ酸、モノ、ジ、トリまたはオリゴマー型炭水化物等であり得る。

典型的には、配列の定向進化の特定のラウンドの始めに、シーケンシングおよびアッセイされたタンパク質バリアントの訓練セットが得られる。定向進化の所定のラウンドは、定向進化のラウンドの始めに使用される親ペプチド（単数または複数）から１つ以上の変異によって変化する多数のバリアントタンパク質を生成する。定向進化のラウンドにおいて生成されたバリアントペプチドは、活性をアッセイされる。親ペプチド（複数可）と比較して所望の活性および／または改善された活性を有するペプチドが、定向進化の少なくとも１回のさらなるラウンドにおける使用のために選択される。

シーケンシングおよびアッセイされたタンパク質バリアントを使用して、配列−活性モデルを生成し得る。典型的には、それらは、実際にシーケンシングされる場合、配列−活性モデルにおいて使用される。シーケンシングおよびアッセイされたタンパク質バリアントの各々は、「観測」と称される。一般に、より多くの観測が配列−活性モデルの作製に用いられるほど、該配列−活性モデルの予測検出力はより優れたものとなる。

次世代大規模並列処理シーケンシング技術の出現まで、定向進化の任意のラウンドにおいて生成される１０〜３０種を超えるバリアントペプチドを経済的にシーケンシングすることは困難であった。現在、次世代シーケンシングの適用により、定向進化のラウンドにおいて生成されるさらに多くのバリアントタンパク質をシーケンシングすることができる。結果として、訓練セットデータのさらにより大きなプールを使用して、配列−活性モデルを生成することができる。そして、配列−活性モデルは、訓練セットを使用して作製することができ、訓練セットは、ラウンドから得た最も優れたペプチドのみならず、定向進化のさらなるラウンドの目的のものではないであろうが、その配列−活性情報を適用してより頑強な配列−活性モデルを生成することができるいくつかのペプチドも含む。

一部の実施形態において、任意配列の活性を予測するための優れた能力を有する配列−活性モデルを生成することが一般に望ましい。予測検出力は、予測の精度と、モデルが活性を正確に予測する一貫性によって特徴付けることができる。さらに、モデルは、広範な配列空間にわたり活性を正確に予測するその能力によって特徴付けることができる。例えば、予測検出力は、ペプチドの所定の検査および／または検証セットに関する計算された活性と実際の活性との間の残余の観点から特徴付けることができる。より高い一般化された予測検出力を有するモデルは、検証データの異なるセットにまたがりより小さいより一貫した残余を生じる傾向がある。データの検査セットに過剰適合させられたモデルは、下の例に示す通り、検証データのより大きいより一貫しない残余を生じる傾向がある。本開示の一態様は、データの異なるセットにまたがり高い予測検出力を有するモデルを効率的に見出す方法を提供する。

本明細書に記載されている配列−活性モデルは、定向進化を受けるための初期バリアントライブラリーにおける１つ以上の親「遺伝子」の同定に役立つために使用されることができる。進化のラウンドを行った後に、新たなバリアントライブラリーが同定され、観測の新たなセットをもたらし、続いてこれをデータとしてフィードバックして、新たなまたは緻密化された配列−活性モデルを調製することができる。新たな観測に基づく配列−活性モデルの調製と、配列−活性モデルに基づく定向進化の実行との間で交互するこのプロセスは、所望のタンパク質およびライブラリーが得られるまで反復することができる、モデリング−探索の反復性ループを形成することができる。

配列−活性モデルとバリアントライブラリーとの間のフィードバックループのため、より良いモデルとより良いバリアントライブラリーとは、改善された活性を有するタンパク質の探索において互いに依存する。したがって、モデリングおよび／またはシーケンシングドメインのいずれかにおける障害および改善は、両方のドメインに影響を与え得る。本発明の一部の実施形態において、より良いモデリング技法によるモデリング効率の改善は、配列探索を誘導するためのより良いモデルをもたらす。一部の実施形態において、次世代シーケンシング技術は、ｉｎｖｉｔｒｏにおけるシーケンシングスピードを改善すると共に、ｉｎｓｉｌｉｃｏ計算的モデルを改善するための交差検証データをもたらすために使用される。

本発明の一部の実施形態において、有用な配列−活性モデルは、頑強な数学的モデリング技法および数多くの「観測」を要求する。これらの観測は、モデルの訓練セットにおいて提供されるデータである。具体的には、各観測は、ライブラリーにおけるバリアントの活性値および関連する配列である。歴史的に、シーケンシングは、大型の訓練セットと、結果的に、ますます頑強な配列−活性モデルとの開発における限定ステップを有していた。現在一般的に使用されている方法において、おそらく数百種のバリアントを有するバリアントライブラリーが作製される。しかし、これらのバリアントのうちごく一部しか実際にシーケンシングされない。定向進化の典型的ラウンドにおいて、最高活性を有する約１０〜３０種のバリアントのみが実際にシーケンシングされる。理想的には、相対的に低活性を有するいくつかのバリアントを含む、ライブラリーにおけるバリアントのさらにより大きな割合がシーケンシングされるであろう。次世代シーケンシングツールは、大幅に改善されたシーケンシングスピードを有し、訓練セットにおける低活性および高活性バリアントを含むことを可能にする。一部の実施形態において、様々な活性レベルを有するバリアントの包含は、より良い性能を有するモデル、および／またはより広範な配列および活性空間にわたる活性の予測により優れたモデルの生成をもたらす。

本明細書において言及されている一部の非相互作用配列−活性モデルは、目的の任意の活性を予測するための独立変数として個々の残基を含む。非相互作用配列−活性モデルは、２個以上の残基（ｒｅｓｉｄｕａｌ）の間の相互作用を説明するための項を含まない。残基（ｒｅｓｉｄｕａｌ）のうち２個の間の相互作用が、活性に相乗効果を有する場合、非相互作用または線形モデルは、２個の相互作用残基に関連する係数の人為的に膨らまされた値をもたらし得る。結果として、このモデルを用いて作業する者は、係数の相対的に高い値によって提唱される通りに単純に残基置換を為すことによって、得られたペプチドの活性が予想よりも高くなるであろうと誤って結論する可能性がある。これは、研究者が、非相互作用または線形モデルの使用から、残基置換に関連する活性の増加が、主に該置換と別の置換との相互作用の結果であることを理解しないことを理由とする。研究者が、この相互作用の重要性を理解した場合、研究者は、同時発生的に両方の置換を為すことができ、相互作用モデルによって示唆される活性の増加を達成することができる。

２個の残基が相互作用して、非線形様式で活性を抑制する場合、非相互作用モデルは、残基を互いに切り離して純粋に考慮する場合に適切であろう値よりも低い値を、これらの残基に関連する係数に帰す。換言すれば、相互作用残基の他方ではなく一方の置換を為すことは、非相互作用または線形モデルによって示唆されるものよりも優れた活性の結果を生じるであろう。

残基−残基相互作用が活性に強い影響を有する場合、非相互作用モデルは不適切であり得るため、残基間の相互作用を説明する相互作用項を有する相互作用モデルが、活性の正確な予測に必要となることが多い。しかし、相互作用項を利用するモデルは、計算的および経験的課題を提起する。最も注目すべきは、相当な量の計算を要求する、モデルの開発／利用の考慮に入れるべき非常に多くの潜在的相互作用項が存在することである。さらにより大きな限定は、有意な数の残基−残基相互作用項を有するモデルの生成に必要な観測の潜在的な数である。その上、モデル作製技法には、特定の数の利用できる観測を与えると、データを過剰適合させる傾向があり得る。この課題に取り組むため、配列−活性モデルに提供される相互作用項を慎重に選択および限定することは、多くのモデルの開発における重要な検討事項である。

図１は、配列−活性モデルを調製するプロセスの一実施を示すフローチャートを提示する。描写されている通り、プロセス１００は、ブロック１０３から始まり、バリアント遺伝子またはタンパク質の配列データおよび活性データ（「観測」）を提供する。配列データは、例えば、初期または改善されたタンパク質バリアントライブラリーの残基配列を含む訓練セットから採取することができる。典型的には、これらのデータは、ライブラリーにおける各タンパク質に対する活性値と一緒に、完全または部分的残基配列情報を含む。一部の事例において、複数の種類の活性（例えば、速度定数データおよび熱安定性データ）が、訓練セットにおいて一緒に提供される。所望の結果により決定される通り、他のデータ供給源も考慮され得る。一部の適したデータ供給源として、構築中の配列−活性モデルに関連する特定のペプチドに関する情報について記載する参照用文献が挙げられるがこれに限定されない。追加の情報源として、同じプロジェクトにおける定向進化のより初期または異なるラウンドが挙げられるがこれに限定されない。実際に、定向進化（本明細書に提供される方法が挙げられるがこれに限定されない、任意の適した方法を使用）の以前のラウンドに由来する情報が、後に生成されるライブラリー、バリアント等の開発における使用を見出すであろうことが企図される。

多くの実施形態において、タンパク質バリアントライブラリーの個々のメンバーは、広範な配列および活性を表す。これは、配列空間の広い領域にわたり適用可能な配列−活性モデルの作製を容易にする。このような多様なライブラリーを作製するための技法として、本明細書に記載されているタンパク質配列の系統的バリエーションおよび定向進化技法が挙げられるがこれらに限定されない。しかし、一部の代替的実施形態において、特定の遺伝子ファミリーにおける遺伝子配列（例えば、複数の種または生物に見出される特定のキナーゼ）からモデルを作製することが望ましい。多くの残基は、ファミリーの全メンバーにまたがり同一であるため、モデルは、変化する残基のみを記述する。よって、一部の実施形態において、あらゆる可能なバリアントのセットと比較して、このような相対的に小型の訓練セットに基づく統計学的モデルは、ローカルな意味で妥当である。すなわち、モデルは、所定のバリアントの所定の観測のみに妥当である。一部の実施形態において、一部のモデルにおいて、検討中のモデルシステム（複数可）の能力および／または必要を越えることが認識されるため、目標は、グローバルな適応度関数を見出すことではない。

活性データは、目的の活性（単数／複数）の規模を測定するよう適切に設計されたアッセイおよび／またはスクリーニングが挙げられるがこれらに限定されない、当技術分野において公知の任意の適した手段を使用して得ることができる。このような技法は、周知のものであり、本発明の本質ではない。適切なアッセイまたはスクリーニングを設計するための原理は、広く理解されており、当技術分野において公知である。タンパク質配列を得るための技法も周知であり、本発明の要とはならない。言及されている通り、次世代（ｎｅｘｔ−ｇｅｎｅｒａｔｉｎｇ）シーケンシング技術を使用することができる。一部の実施形態において、目的の活性は、タンパク質安定性（例えば、熱安定性）であり得る。しかし、多くの重要な実施形態が、触媒活性、病原体および／または毒素に対する抵抗性、治療活性、毒性その他等、他の活性を考慮する。実際には、当技術分野において公知の任意の適した方法が、本発明における使用を見出すため、本発明が、いずれか特定のアッセイ／スクリーニング方法（複数可）および／またはシーケンシング方法（複数可）に限定されることは企図されない。

訓練セットデータを作製または取得した後に、プロセスは、これを使用して、配列情報の関数として活性を予測するベース配列−活性モデルを作製する。ブロック１０５を参照されたい。このモデルは、タンパク質の配列情報を提供された場合にこの特定のタンパク質の相対活性を予測する式、アルゴリズムまたは他のツールである。換言すれば、タンパク質配列情報は入力であり、活性予測は出力である。

一部の実施形態において、モデルの各々は、複数の乗法項の積を含み、該乗法項の各々は、特定の配列の場所における特定の型の定義された残基の活性に対する寄与を反映する。他の実施形態において、各モデルは、複数の項の和を含み、乗法項の各々は、特定の配列の場所における特定の型の定義された残基の活性に対する寄与を反映する。

一部の実施形態において、ベースモデルは、いかなる相互作用項も含まない。このような事例において、ベースモデルは、線形または非相互作用モデルとして記述することができる。他の実施形態において、ベースモデルは、あらゆる利用できる相互作用項を含み、この場合、ベースモデルは、非線形または相互作用モデルとして記述することができる。

多くの実施形態のため、ベースモデルは、活性に対する様々な残基の寄与をランク付けすることができる。機械学習の慣習に全て収まるこのようなモデルを作製する方法（例えば、部分最小二乗回帰（ＰＬＳ）、主成分回帰（ＰＣＲ）および多重線形回帰（ＭＬＲ）、ベイジアン線形回帰）は、独立変数のフォーマット（配列情報）、従属変数（複数可）のフォーマット（活性）およびモデルそれ自体の形式（例えば、線形一次式、または複数の項の積、または項の乗法および加法による組合せ両方のハイブリッド）と共に後述する。

ベース配列−活性モデルを作製した後に、プロセスは、モデル予測と観測データとの間の残余誤差を最小化するようにモデルの項における係数の値を調整することにより、モデルを精密化する。ブロック１０７を参照されたい。この種類の調整は、モデル適合とも称される。当技術分野において公知のモデル適合の様々な方法を使用することができる。例えば、遺伝的アルゴリズムを使用して、係数の値を調整することができる。加法モデルに対して、様々な回帰技法を使用して、モデルを適合させることができる。

本発明の一部の実施形態において、プロセスは、また、残余誤差を最小化し、および／またはモデルの予測検出力を改善することができるように、モデルに含むかまたはこれから除外するために適切な項を選択することにより、モデルを精密化する。ブロック１０７を参照されたい。考慮されているモデルは、項の同じプールから全て選択された項を有するので、この精密化プロセスは、ネステッドモデルの間のモデル選択としても知られている。本発明の一部の実施形態は、遺伝的アルゴリズムを使用して、適切な項を選択する。その上またはそれに代えて、本発明の一部の実施形態は、利用できる相互作用項のプールからの相互作用項を、ベースモデルに反復的に加算またはこれから減算し、ベースモデルを上回る改善に関して得られた新たなモデルを評価して、最終モデルを生成する。ベースモデルが、あらゆる利用できる相互作用項を含む場合、プロセスは、段階的様式でこのような項を減算する。ベースモデルが、相互作用項を含まない場合、プロセスは、段階的様式でこのような項を加算する。モデルの予測検出力を改善するための、モデル係数値の調整およびモデル項の選択は、両者共にモデル最適化技法として知られている。

モデル選択プロセスにおいて、本発明の一部の実施形態は、モデルがデータの所定のセットを説明する分散のみならず、新たなデータを予測するモデルの能力も考慮に入れる方法を提供する。一部の実施形態において、このモデル選択アプローチは、より少ない係数／パラメータを有する均等なモデルよりも多くの係数／パラメータを有するモデルにペナルティーを科して、所定のデータセットへのモデルの過剰適合を回避する。選択方法の例として、赤池の情報量基準（ＡＩＣ）およびベイジアン情報量基準（ＢＩＣ）ならびにこれらのバリエーションが挙げられるがこれらに限定されない。

一連のネステッドモデルにおいて、ベースモデルよりも進行的に多くの相互作用項（および関連する係数）を有する回帰モデルと同様に、より複雑なモデルは、余分な係数が偽性であるとしても、より単純なモデルに等しく優れたまたはこれよりも良い適合をもたらす。なぜなら、より複雑なモデルは、余分な自由度を享受するからである。本開示のある特定の実施形態は、適合の良好性の増大が偽性パラメータのコストにより相殺されるより大きい程度まで、より複雑なモデルにペナルティーを科すモデル選択方法を用いる。

ブロック１０５および１０７における作業に従って配列−活性モデルを作製するための例示的なアルゴリズムを以下に示す。このような技法として、モデルにおける追加の相互作用項の包含に対する否定的な偏りを伴う遺伝的アルゴリズムおよび段階的技法が挙げられるがこれらに限定されない。しかし、本開示がこれらの具体例に限定されることは企図されない。

一態様において、本開示は、定向進化を行う方法であって、（ａ）複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、（ｂ）前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを作製することであって、前記配列−活性モデルは、（１）複数の項の積であって、前記項のうちの少なくとも一部の各々は、タンパク質配列または核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの、活性に対する寄与を表す係数を含む、複数の項の積と、（２）前記タンパク質バリアントの前記活性を表す従属変数とを含む、ことと、（ｃ）前記モデルを使用して、定向進化のラウンドを誘導することとを含む方法を提供する。

一部の実施形態において、前記モデルを使用して定向進化のラウンドを誘導することは、配列−活性モデルの項の係数を評価して、活性に寄与する定義された位置における定義されたアミノ酸またはヌクレオチドのうちの１つ以上を同定することにより、定向進化のラウンドのための１つ以上の変異を選択することを含む。本方法は、上で選択された１つ以上の変異を含むかまたはコードする複数のオリゴヌクレオチドを調製することと、上で調製されたオリゴヌクレオチドを使用して定向進化のラウンドを行うことも含む。

他の実施形態において、本方法は、上で選択された１つ以上の変異を含む新たなタンパク質配列または新たな核酸配列を同定することと、新たなタンパク質、または新たな核酸配列によってコードされるタンパク質を調製およびアッセイすることも含む。一部の実施形態において、本方法は、さらなる定向進化のための出発点として新たなタンパク質、または新たな核酸配列によってコードされるタンパク質を使用することをさらに含む。

代替的な実施形態において、前記モデルを使用して定向進化のラウンドを誘導することは、配列活性に対する個々の定義されたサブユニットの寄与の代わりに、配列全体の活性のモデルの予測に基づき完全タンパク質配列を同定することを含む。本方法は、前記配列−活性モデルに複数のタンパク質配列または複数のアミノ酸配列を適用することと、前記複数のタンパク質配列または核酸配列の各々に対する、前記配列−活性モデルによって予測される活性値を決定することとを含む。本方法は、複数の配列に対する、配列−活性モデルによって予測される活性値を評価することにより、上で適用された複数のタンパク質配列または複数のアミノ酸配列の中から新たなタンパク質配列または新たな核酸配列を選択することも含む。本方法は、新たなタンパク質配列を有するタンパク質、または新たな核酸配列にコードされるタンパク質を調製およびアッセイすることも含む。

他の実施形態において、本方法は、飽和変異誘発技法を適用する。本方法は、配列−活性モデルの項の係数を評価して、活性に寄与する特定の配列位置における特定の型の定義されたアミノ酸またはヌクレオチドのうち１つ以上を同定することにより、タンパク質配列または核酸配列における１つ以上の位置を選択することを含む。続いて本方法は、同定された１つ以上の位置において飽和変異誘発を行う。

別の態様において、本開示は、所望の活性に影響を与える生物分子の同定に役立ち得る配列−活性モデルを調製する方法を提供する。一部の実施形態において、本方法は、（ａ）複数の生物分子に対する配列データおよび活性データを受け取ることと、（ｂ）前記配列データおよび活性データからベースモデルを調製することであって、前記ベースモデルは、前記配列のサブユニットの存在または非存在の関数として活性を予測する、ことと、（ｃ）少なくとも１つの新たな相互作用項を前記ベースモデルに／これから加算／減算することにより、少なくとも１つの新たなモデルを調製することであって、前記新たな相互作用項は、２個以上の相互作用するサブユニットの間の相互作用を表す、ことと、（ｄ）前記サブユニットの存在または非存在の関数として活性を予測する前記少なくとも１つの新たなモデルの能力を決定することと、（ｅ）（ｄ）において決定される、活性を予測する前記少なくとも１つの新たなモデルの能力に基づき、前記新たな相互作用項の加算に対する否定的な偏りを伴って、前記ベースモデルに／これから前記新たな相互作用項を加算／減算すべきか否かを決定することとを含む。次に、所望の生物学的活性および特性を有するタンパク質を同定するために、タンパク質ライブラリーの定向進化等、様々な応用において、得られたモデルを使用することができる。

方法が、アップデートされたモデルを生成するために新たな相互作用項をベースモデルに加算すべきであることを決定する一部の実施形態において、本方法は、（ｆ）ベースモデルの代わりにアップデートされたモデルを使用し、（ｃ）において加算／減算された相互作用項とは異なる相互作用項を加算／減算して、（ｃ）を反復することと、（ｇ）ベースモデルの代わりにアップデートされたモデルを使用して、（ｄ）および（ｅ）を反復することとも含む。一部の実施形態において、本方法は、（ｈ）さらにアップデートされたモデルを使用して、（ｆ）および（ｇ）を反復することをさらに含む。

訓練セットのための観測が選択され、配列−活性モデルを生成するための数学的技法が選ばれた後に、ベースモデルが作製される。ベースモデルは、典型的には、その予測能力を顧みずに作製される。これは、本明細書に記載されている通り、利用できる観測（すなわち、観測セット）からベースモデルを生成するための定義された手順に従って単純に生成される。上に記述されている通り、配列モデルは、様々な配列を記述することができるが、一部の実施形態において、モデルは、タンパク質を記述する。後者の場合、ベースモデルは、単純に、訓練セットの作製に使用されるペプチドのコレクションに存在する変異の各々に対して単一の項を有する非相互作用／線形モデルである。これらの実施形態において、ベースモデルは、ペプチドにおける残基間の相互作用を表すいかなる項も含まない。一部の実施形態において、ベースモデルは、観測セットに存在する一つ一つの変異のための別個の項を含まない。

代替的アプローチにおいて、ベースモデルは、変異の各々を分離して記述する項を含むだけではなく、その上、あらゆる潜在的な相互作用残基の項を含む。極端な事例において、注目される変異間の考え得る相互作用全てがベースモデルにおいて使用される。これは、変異の間の一つ一つのペアワイズ相互作用の項と、一つ一つの可能な３残基相互作用の項と、あらゆる可能な４残基相互作用等を含む。一部の実施形態は、ペアワイズ相互作用のみ、あるいはペアワイズ相互作用および三元相互作用を含む。三元相互作用は、３つの明確に異なるサブユニットの間の活性−影響相互作用である。

ベースモデルとして単純な非相互作用または線形モデルを使用する本開示の１つ以上の実施形態において、モデルを改善するためのその後の努力は、異なる相互作用を表す新たな項の加算を含む。ベースモデルが、あらゆる非相互作用項および相互作用項を含む代替的な実施形態において、モデルを改善するためのその後の努力は、相互作用項の一部の選択的な除去を含む。

本発明の１つ以上の実施形態において、ベースモデルを改善するプロセスは、得られたモデルがモデルの品質を十分に改善するか否かを決定することにおいて、ベースモデルからの相互作用項の反復した加算または減算を含む。各反復において、現モデルの予測検出力が決定され、別のモデル、例えば、ベースモデルまたはアップデートされたモデルと比較される。

予測検出力の尺度が、データの他のセットに対し一般化されるモデルの能力を既に考慮する実施形態において、該尺度は、単独で、候補モデルを選択すべきか否かを決定することができる。例えば、ＡＩＣまたはＢＩＣ等の尺度は、モデル尤度（または残余誤差）およびパラメータの数の両方を考慮に入れる。モデルの「尤度関数」または「尤度」は、統計学的モデルのパラメータの関数である。いくつかの観測成果を与えられたパラメータ値のセットの尤度は、該パラメータ値を与えられた該観測成果の確率に等しく、すなわち、Ｌ（θ｜ｘ）＝Ｐ（ｘ｜θ）。モデル尤度の例示的な計算は、後述するセクションに記載されている。より多くのパラメータを有するモデルが、より少ないパラメータを有するモデルと同じ量のデータ分散を捕捉する場合、ＡＩＣおよびＢＩＣ等の尺度は、より多くのパラメータを有するモデルに対する否定的な偏りをもたされる。

予測検出力の尺度が、残余誤差のみを考慮する場合、残余誤差における改善の規模は、現反復に関連する変化が、現最良のアップデートされたモデルに取り込むか否か決定するために考慮されなければならない。これは、閾値に対し改善の規模を比較することにより達成することができる。規模が閾値未満である場合、現反復における検討中の変化は許容されない。あるいは、改善の規模が閾値を超える場合、検討中の変化は、アップデートされたモデルに取り込まれ、アップデートされたモデルは、残りの反復へと前進する新たな最良のモデルとして役立つ。

ある特定の実施形態において、各反復は、検討中の現在最良のモデルからの単一の相互作用項の加算または減算を考慮する。ベースモデルが非相互作用項のみを含む場合、あらゆる利用できる相互作用項のプールを考慮することができる。これらの相互作用項の各々は、プロセスが完了し、最終的な最良のモデルが得られるまで継続して考慮される。

一部の事例において、プロセスが効果的に収束し、さらなる改善の可能性が低いことを決定した場合、プールにおける利用できる相互作用項が全て考慮される前に、モデル作製プロセスを終結する。

図２は、プロセス（２００を参照）において、モデルを使用して、タンパク質配列および活性空間を探索する目的で、新たなタンパク質バリアントライブラリーの作製を反復的に誘導することができる仕方を例示する。一例において、最終モデルを作製した後に、最終モデルを用いて、活性に影響を与えると予測される複数の残基位置（例えば、３５位）または特定の残基型（例えば、３５位におけるグルタミン）の変異を選択する。一部の実施形態において、決定は、項の係数に基づく。ブロック２０７を参照されたい。このような位置の同定に加えて、モデルを使用して、活性に対するその寄与、例えば、その係数値に基づき残基位置または残基型に「ランク付けする」ことができる。この機能が望まれる。例えば、モデルは、３５位におけるグルタミンが、活性に最も顕著なプラスの効果を有する；２０８位におけるフェニルアラニンが、活性に２番目に顕著なプラスの効果を有する；等々を予測することができる。後述する特定の１アプローチにおいて、ＰＬＳまたはＰＣＲ回帰係数を用いて、特定の残基の重要性をランク付けする。別の特定のアプローチにおいて、ＰＬＳ負荷行列を用いて、特定の残基位置の重要性をランク付けする。

残基は、その一部を後述する、いくつかの異なる選択プロトコールのいずれかを使用して選択される。例証的な一例において、活性に最も有益な影響を有すると予測される特定の残基は、保存される（すなわち、変化させられない）。しかし、より少ない影響を有すると予測される一定数の他の残基は、バリエーションのために選択される。別の例証的な例において、活性に最大の影響を有することが見出された残基位置は、バリエーションのために選択されるが、これは、訓練セットの成績の良いメンバーにおいて変化することが見出された場合に限る。例えば、モデルにより、残基１９７位が、活性に最大の影響を有するが、高活性を有するタンパク質の全てまたは大部分が、この位置にロイシンを有することが予測される場合、１９７位は、このアプローチにおいてバリエーションのために選択されないであろう。換言すれば、次世代ライブラリーにおけるタンパク質の全てまたは大部分は、１９７位にロイシンを有するであろう。しかし、一部の「良好な」タンパク質が、この位置にバリンを有し、その他がロイシンを有する場合、プロセスは、この位置におけるアミノ酸を変化させるよう選ぶであろう。一部の事例において、２個以上の相互作用残基の組合せが、活性に最大の影響を有することが判明するであろう。したがって、一部の戦略において、これらの残基は共変動させられる。共変動の例は、これらの残基に同時に飽和変異誘発を適用することである。

プロセスが、変異を同定した後に、プロセスは、ブロック２０９（図２）に示す通り、同定された変異を含有またはコードするオリゴヌクレオチドを調製する。様々な方法を用いて、オリゴヌクレオチドを調製することができる。一部の実施形態において、オリゴヌクレオチドは、配列合成機によって調製される。

バリエーションのための残基が同定された後に、本方法は次に、指定された残基バリエーションを有する新たなバリアントライブラリーを作製する。ブロック２１１（図２）を参照されたい。この目的のために様々な方法論を利用することができる。一例において、ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏの組換えに基づく多様性作製機構を実行して、新たなバリアントライブラリーを作製する。このような手順は、親バリアントライブラリーのタンパク質をコードするための配列または部分配列を含むオリゴヌクレオチドを用いることができる。オリゴヌクレオチドの一部は、密接に関係し、２０９におけるバリエーションのために選択される代替アミノ酸に対するコドンの選択のみが異なるであろう。組換えに基づく多様性作製機構は、１以上のサイクルにおいて実行することができる。複数サイクルが使用される場合、各サイクルは、いずれのバリアントが、その後の組換えサイクルにおける使用に許容できる性能を有するかを同定するためのスクリーニングステップを含む。これは、定向進化の形式である。しかし、任意の適した方法／技法が本発明における使用を見出すため、本発明が、組換えに基づく多様性作製方法のどんな特定の方法にも限定されることは企図されない。一部の実施形態において、例えば、配列−活性モデルの非相互作用的または相互作用的な項の係数値によって示される通り、本発明は、相互作用する個々の配列の場所または配列の場所の組合せにおいて飽和変異誘発を行う。

追加の例証的な例において、「参照」タンパク質配列が選ばれ、図２の２０７において選択された残基が、「トグル」されて、バリアントライブラリーの個々のメンバーを同定する。そのように同定された新たなタンパク質を適切な技法によって合成して、新たなライブラリーを作製する。一例において、参照配列は、訓練セットの上位成績メンバー、またはＰＬＳもしくはＰＣＲモデルによって予測される「最良の」配列であり得る。

別のアプローチにおいて、配列−活性モデルは、配列空間を探索するための遺伝的アルゴリズムにおいて「適応度関数」として使用される。遺伝的アルゴリズムの１以上のラウンド（各ラウンドは、適応度関数を使用して、遺伝的操作のために１つ以上の可能な配列を選択する）の後に、このフローチャートに記載されている使用のための次世代ライブラリーが同定される。非常に現実的な意味において、この戦略は、ｉｎｓｉｌｉｃｏ定向進化として見ることができる。理想的な事例において、正確で的確なグローバルまたはローカル適応度関数を利用できる場合、あらゆる進化をｉｎｓｉｌｉｃｏで行い、最終的な商業または研究適用における使用のために単一の最良のバリアントを合成することができる。これは、多くの場合において達成が不可能であると思われるが、プロセスのこのような見解は、目標に明確さを与え、定向進化のために機械学習技法を使用するアプローチにつながる。

別の例証的な例において、定向進化のラウンドにおけるバリエーションのための残基が、単一親配列において選択される。親は、定向進化の先のラウンドに起因するモデルを使用して、あるいは最良のアッセイ性能を有するライブラリーメンバーを同定するデータを使用することにより同定することができる。定向進化の次のラウンドのためのオリゴヌクレオチドは、現ラウンドのための配列−活性モデルからアルゴリズムにより予測される１つ以上の変異を有する、選択された親のバックボーンの一部を含むように定義され得る。これらのオリゴヌクレオチドは、合成方法が挙げられるがこれに限定されない、適した手段を使用して生成することができる。

新たなライブラリーを生成した後に、ブロック２１３（図２）に示す通り、これを活性に関してスクリーニングする。理想的には、新たなライブラリーは、以前のライブラリーにおいて観測された活性よりも良い活性を有する１つ以上のメンバーを提供する。しかし、このような利点がないとしても、新たなライブラリーは、有益な情報を提供することができる。そのメンバーは、新たなバリアントの効果を説明する改善されたモデルを作製するために用いることができ、これにより、配列空間のより広い領域にわたり活性をより正確に予測することができる。さらに、ライブラリーは、ローカル最大からグローバル最大への（例えば、活性における）、配列空間における通路を表すことができる。

プロセス２００（図２）の目標に応じて、一部の実施形態において、一連の新たなタンパク質バリアントライブラリーを作製することが望ましく、各ライブラリーは、訓練セットの新たなメンバーを提供する。続いて、アップデートされた訓練セットを使用して、改善されたモデルを作製する。改善されたモデルを達成するために、さらに別のタンパク質バリアントライブラリーを生成すべきか否かを決定する、ブロック２１５に示す決定作業によりプロセス２００を示す。様々な基準を使用して、この決定を為すことができる。決定基準の例として、これまでに作製されたタンパク質バリアントライブラリーの数、現ライブラリーから得られる最良のタンパク質の活性、所望の活性の規模および直近の新たなライブラリーにおいて観測される改善のレベルが挙げられるがこれらに限定されない。

プロセスが新たなライブラリーを用いて続けるために使用されることを仮定すると、プロセスは、ブロック１００（図２）の作業に戻り、そこで、現タンパク質バリアントライブラリーのために得られる配列データおよび活性データから、新たな配列−活性モデルが作製される。換言すれば、現タンパク質バリアントライブラリーのための配列データおよび活性データは、新たなモデルの訓練セットの一部として役立つ（あるいは訓練セット全体として役立つことができる）。その後、ブロック２０７、２０９、２１１、２１３および２１５（図２）に示す作業は、新たなモデルを用いる以外は上述の通りに行われる。

方法の終点に達したことが決定される場合、図２に例示されているサイクルが終了し、新たなライブラリーは作製されない。この点において、プロセスは、単純に終結されるか、あるいは一部の実施形態において、ライブラリーのうち１つ以上から得た１つ以上の配列が、開発および／または製造のために選択される。ブロック２１７を参照されたい。

（ＩＩＩ．観測の作製）
タンパク質バリアントライブラリーは、ライブラリーにおけるメンバー毎に様々である１つ以上の残基を有する複数のタンパク質の群である。これらのライブラリーは、本明細書に記載されている方法および／または当技術分野において公知の任意の適した手段を使用して作製することができる。これらのライブラリーは、本発明の様々な実施形態に従って配列−活性モデルの作製に使用される訓練セットのためのデータの提供における用途を見出す。タンパク質バリアントライブラリーに含まれるタンパク質の数は、多くの場合、その作製に関連する適用およびコストに依存する。本発明が、本発明の方法において使用されるタンパク質ライブラリーにおけるいずれか特定の数のタンパク質に限定されることは企図されない。本発明が、いずれか特定のタンパク質バリアントライブラリー（単数または複数）に限定されることはさらに企図されない。

一例において、タンパク質バリアントライブラリーは、単一の遺伝子ファミリーにコードされ得る１つ以上の天然起源のタンパク質から作製される。公知タンパク質または新規合成タンパク質の組換えが挙げられるがこれらに限定されない、他の出発点を使用することができる。これらのシードまたは出発タンパク質から、様々な技法によってライブラリーを作製することができる。一事例において、ライブラリーは、Ｓｔｅｍｍｅｒ（１９９４年）ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，ＵＳＡ、１０７４７〜１０７５１頁およびＷＯ９５／２２６２５（どちらも参照により本明細書に組み込まれる）に記載されているＤＮＡ断片化媒介性の組換え、Ｎｅｓｓら（２００２年）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ２０巻：１２５１〜１２５５頁およびＷＯ００／４２５６１（どちらも参照により本明細書に組み込まれる）に記載されている合成オリゴヌクレオチド媒介性の組換え、または１つ以上の親タンパク質の一部もしくは全体をコードする核酸によって作製される。例えば、どちらも参照により本明細書に組み込まれるＷＯ９７／２００７８およびＷＯ９８／２７２３０に記載されている他の組換えに基づく方法と共に、これらの方法の組合せを使用することもできる（例えば、ＤＮＡ断片および合成オリゴヌクレオチドの組換え）。タンパク質バリアントライブラリーの作製に使用される任意の適した方法は、本発明における用途を見出す。実際には、本発明が、バリアントライブラリーを生成するためのどんな特定の方法にも限定されることは企図されない。

一部の実施形態において、単一の「出発」配列（「先祖」配列となり得る）は、モデリングプロセスにおいて使用される変異の群を定義する目的に用いることができる。一部の実施形態において、出発配列の少なくとも１つは、野生型配列である。

ある特定の実施形態において、変異は、（ａ）基質特異性、選択性、安定性もしくは他の有益な特性に影響を与えると文献において同定され、かつ／または（ｂ）タンパク質フォールディングパターン（例えば、タンパク質の内部残基を包む）、リガンド結合、サブユニット相互作用、複数の多様なホモログ間のファミリーシャッフリング等を改善すると計算的に予測される。あるいは、出発配列に変異を物理的に導入し、有益な特性に関して発現産物をスクリーニングすることができる。任意の適した方法が用途を見出すが、部位特異的変異誘発は、変異を導入するための有用な技法の一例である。よって、それに代えてまたはそれに加えて、遺伝子合成、飽和ランダム変異誘発、残基の半合成コンビナトリアルライブラリー、定向進化、再帰的配列組換え（ｒｅｃｕｒｓｉｖｅｓｅｑｕｅｎｃｅｒｅｃｏｍｂｉｎａｔｉｏｎ）（「ＲＳＲ」）（例えば、その全体が参照により本明細書に組み込まれる米国特許出願第２００６／０２２３１４３号を参照）、遺伝子シャッフリング、エラープローンＰＣＲおよび／またはその他の適した方法により、変異体をもたらすことができる。適した飽和変異誘発手順の一例は、その全体が参照により本明細書に組み込まれる公開された米国特許出願第２０１０００９３５６０号に記載されている。

出発配列は、野生型タンパク質のアミノ酸配列と同一である必要はない。しかし、一部の実施形態において、出発配列は、野生型タンパク質の配列である。一部の実施形態において、出発配列は、野生型タンパク質に存在しない変異を含む。一部の実施形態において、出発配列は、共通特性を有するタンパク質の群、例えば、タンパク質のファミリーに由来するコンセンサス配列である。

親配列の供給源として役立ち得る酵素のファミリーまたはクラスの非限定的な代表的リストとして、次のものが挙げられるがこれらに限定されない：オキシドレダクターゼ（Ｅ．Ｃ．１）；トランスフェラーゼ（Ｅ．Ｃ．２）；ヒドロリアーゼ（Ｅ．Ｃ．３）；リアーゼ（Ｅ．Ｃ．４）；イソメラーゼ（Ｅ．Ｃ．５）およびリガーゼ（Ｅ．Ｃ．６）。オキシドレダクターゼのより特異的であるが非限定的なサブグループは、デヒドロゲナーゼ（例えば、アルコールデヒドロゲナーゼ（カルボニルレダクターゼ）、キシルロースレダクターゼ、アルデヒドレダクターゼ、ファルネソールデヒドロゲナーゼ、乳酸デヒドロゲナーゼ、アラビノースデヒドロゲナーゼ、グルコースデヒドロゲナーゼ（ｄｅｈｙｒｏｄｇｅｎａｓｅ）、フルクトースデヒドロゲナーゼ、キシロースレダクターゼおよびコハク酸デヒドロゲナーゼ（ｄｅｈｙｒｏｇｅｎａｓｅ））、オキシダーゼ（例えば、グルコースオキシダーゼ、ヘキソースオキシダーゼ、ガラクトースオキシダーゼおよびラッカーゼ）、モノアミンオキシダーゼ、リポキシゲナーゼ、ペルオキシダーゼ、アルデヒドデヒドロゲナーゼ、レダクターゼ、長鎖アシル−［アシルキャリアータンパク質］レダクターゼ、アシル−ＣｏＡデヒドロゲナーゼ、エン（ｅｎｅ）−レダクターゼ、シンターゼ（例えば、グルタミン酸シンターゼ）、硝酸レダクターゼ、モノオキシゲナーゼおよびジオキシゲナーゼならびにカタラーゼを含む。トランスフェラーゼのより特異的であるが非限定的なサブグループは、メチルトランスフェラーゼ、アミジノトランスフェラーゼおよびカルボキシルトランスフェラーゼ、トランスケトラーゼ、トランスアルドラーゼ、アシルトランスフェラーゼ、グリコシルトランスフェラーゼ、トランスアミナーゼ、トランスグルタミナーゼならびにポリメラーゼを含む。ヒドロラーゼのより特異的であるが非限定的なサブグループは、エステルヒドロラーゼ、ペプチダーゼ、グリコシラーゼ、アミラーゼ、セルラーゼ、ヘミセルラーゼ、キシラナーゼ、キチナーゼ、グルコシダーゼ、グルカナーゼ、グルコアミラーゼ、アシラーゼ、ガラクトシダーゼ、プールラナーゼ、フィターゼ、ラクターゼ、アラビノシダーゼ、ヌクレオシダーゼ、ニトリラーゼ、ホスファターゼ、リパーゼ、ホスホリパーゼ、プロテアーゼ、ＡＴＰアーゼおよびデハロゲナーゼを含む。リアーゼのより特異的であるが非限定的なサブグループは、デカルボキシラーゼ、アルドラーゼ、ヒドラターゼ、デヒドラターゼ（例えば、炭酸脱水酵素）、シンターゼ（例えば、イソプレンシンターゼ、ピネンシンターゼおよびファルネセンシンターゼ）、ペクチナーゼ（例えば、ペクチンリアーゼ）およびハロヒドリンデヒドロゲナーゼを含む。イソメラーゼのより特異的であるが非限定的なサブグループは、ラセマーゼ、エピメラーゼ、イソメラーゼ（例えば、キシロースイソメラーゼ、アラビノースイソメラーゼ、リボースイソメラーゼ、グルコースイソメラーゼ、ガラクトースイソメラーゼおよびマンノースイソメラーゼ）、トートメラーゼおよびムターゼ（例えば、アシル転移ムターゼ（ａｃｙｌｔｒａｎｓｆｅｒｒｉｎｇｍｕｔａｓｅ）、ホスホムターゼおよびアミノムターゼ）を含む。リガーゼのより特異的であるが非限定的なサブグループは、エステルシンターゼを含む。親配列の供給源として使用することができる酵素の他のファミリーまたはクラスは、トランスアミナーゼ、プロテアーゼ、キナーゼおよびシンターゼを含む。このリストは、本開示の可能な酵素のある特定の特異的な態様を例示しているが、網羅的であるとはみなされず、限定を表さない、あるいは本開示の範囲を制限しない。

一部の事例において、本明細書に記載されている方法において有用な候補酵素は、例えば、エナンチオ選択的還元反応等、エナンチオ選択的反応を触媒することができる。このような酵素を使用して、例えば、医薬品化合物の合成において有用な中間体を作製することができる。

一部の実施形態において、候補酵素は、エンドキシラナーゼ（ＥＣ３．２．１．８）；β−キシロシダーゼ（ＥＣ３．２．１．３７）；アルファ−Ｌ−アラビノフラノシダーゼ（ＥＣ３．２．１．５５）；アルファ−グルクロニダーゼ（ＥＣ３．２．１．１３９）；アセチルキシランエステラーゼ（ＥＣ３．１．１．７２）；フェルロイルエステラーゼ（ＥＣ３．１．１．７３）；クマロイルエステラーゼ（ＥＣ３．１．１．７３）；アルファ−ガラクトシダーゼ（ＥＣ３．２．１．２２）；ベータ−ガラクトシダーゼ（ＥＣ３．２．１．２３）；ベータ−マンナナーゼ（ＥＣ３．２．１．７８）；ベータ−マンノシダーゼ（ＥＣ３．２．１．２５）；エンド−ポリガラクツロナーゼ（ＥＣ３．２．１．１５）；ペクチンメチルエステラーゼ（ＥＣ３．１．１．１１）；エンド−ガラクタナーゼ（ｇａｌａｃｔａｎａｓｅ）（ＥＣ３．２．１．８９）；ペクチンアセチルエステラーゼ（ＥＣ３．１．１．６）；エンド−ペクチンリアーゼ（ＥＣ４．２．２．１０）；ペクチン酸リアーゼ（ＥＣ４．２．２．２）；アルファラムノシダーゼ（ＥＣ３．２．１．４０）；エキソ−ポリ−アルファ−ガラクツロノシダーゼ（ＥＣ３．２．１．８２）；１，４−アルファ−ガラクツロニダーゼ（ＥＣ３．２．１．６７）；エキソポリガラクツロン酸リアーゼ（ＥＣ４．２．２．９）；ラムノガラクツロナンエンドリアーゼ（ＥＣ４．２．２．Ｂ３）；ラムノガラクツロナンアセチルエステラーゼ（ＥＣ３．２．１．Ｂ１１）；ラムノガラクツロナンガラクツロノヒドロラーゼ（ＥＣ３．２．１．Ｂ１１）；エンド−アラビナナーゼ（ＥＣ３．２．１．９９）；ラッカーゼ（ＥＣ１．１０．３．２）；マンガン依存性ペルオキシダーゼ（ＥＣ１．１０．３．２）；アミラーゼ（ＥＣ３．２．１．１）、グルコアミラーゼ（ＥＣ３．２．１．３）、プロテアーゼ、リパーゼおよびリグニンペルオキシダーゼ（ＥＣ１．１１．１．１４）から選択される。１、２、３、４、５または６種以上の酵素の任意の組合せは、本発明の組成物における用途を見出す。

本発明の１つ以上の実施形態において、単一の出発配列が、様々な仕方で改変されて、ライブラリーを作製する。一部の実施形態において、ライブラリーは、出発配列の個々の残基を系統的に変化させることにより作製される。例証的な一例において、実験計画（ＤＯＥ）方法論が用いられて、系統的に変化させられる配列を同定する。別の一例において、オリゴヌクレオチド媒介性組換え等、「ウェットラボ」手順を使用して、あるレベルの系統的バリエーションを導入する。任意の適した方法が用途を見出すため、本発明が、系統的に変化させられる配列を作製するためのどんな特定の方法にも限定されることは企図されない。

本明細書において使用する場合、用語「系統的に変化させられる配列」は、各残基が複数の文脈において理解される配列のセットを指す。原則として、系統的バリエーションのレベルは、配列が互いに直交する（すなわち、平均と比較して最大に異なる）程度により定量化することができる。一部の実施形態において、プロセスは、最大に直交する配列を有することに依存しない。しかし、モデルの品質は、検査される配列空間の直交性と直接比例して改善されよう。単純な例証的な例において、ペプチド配列は、それぞれが２つの異なるアミノ酸のうちの１つを有し得る２つの残基位置を同定することにより、系統的に変化させられる。最大に多様なライブラリーは、全４種の可能な配列を含む。このような最大系統的バリエーションは、可変位置の数と共に；例えば、Ｎ個の残基位置のそれぞれに２つのオプションが存在する場合、２^Ｎにより、指数関数的に増加する。しかし、当業者であれば、最大系統的バリエーションが要求されないことを容易に認識されよう。系統的バリエーションは、配列空間の優れたサンプリングをもたらす検査のために、配列の相対的に小型のセットを同定するための機構を提供する。

系統的に変化させられる配列を有するタンパク質バリアントは、当業者に周知の技法を使用して、多数の仕方で得ることができる。示されている通り、適した方法として、１つ以上の「親」ポリヌクレオチド配列に基づきバリアントを作製する組換えに基づく方法が挙げられるがこれに限定されない。例えば、組換えようとするポリヌクレオチドのＤＮＡｓｅ消化と、続く核酸のライゲーションおよび／またはＰＣＲ再構成を含む種々の技法を使用して、ポリヌクレオチド配列を組換えることができる。これらの方法として、例えば、全てが参照により本明細書に組み込まれる、Ｓｔｅｍｍｅｒ（１９９４年）ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓＵＳＡ、９１巻：１０７４７〜１０７５１頁、米国特許第５，６０５，７９３号、「ＭｅｔｈｏｄｓｆｏｒＩｎＶｉｔｒｏＲｅｃｏｍｂｉｎａｔｉｏｎ」、米国特許第５，８１１，２３８号、「ＭｅｔｈｏｄｓｆｏｒＧｅｎｅｒａｔｉｎｇＰｏｌｙｎｕｃｌｅｏｔｉｄｅｓｈａｖｉｎｇＤｅｓｉｒｅｄＣｈａｒａｃｔｅｒｉｓｔｉｃｓｂｙＩｔｅｒａｔｉｖｅＳｅｌｅｃｔｉｏｎａｎｄＲｅｃｏｍｂｉｎａｔｉｏｎ」、米国特許第５，８３０，７２１号、「ＤＮＡＭｕｔａｇｅｎｅｓｉｓｂｙＲａｎｄｏｍＦｒａｇｍｅｎｔａｔｉｏｎａｎｄＲｅａｓｓｅｍｂｌｙ」、米国特許第５，８３４，２５２号、「ＥｎｄＣｏｍｐｌｅｍｅｎｔａｒｙＰｏｌｙｍｅｒａｓｅＲｅａｃｔｉｏｎ」、米国特許第５，８３７，４５８号、「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＣｅｌｌｕｌａｒａｎｄＭｅｔａｂｏｌｉｃＥｎｇｉｎｅｅｒｉｎｇ」、ＷＯ９８／４２８３２、「ＲｅｃｏｍｂｉｎａｔｉｏｎｏｆＰｏｌｙｎｕｃｌｅｏｔｉｄｅＳｅｑｕｅｎｃｅｓＵｓｉｎｇＲａｎｄｏｍｏｒＤｅｆｉｎｅｄＰｒｉｍｅｒｓ」、ＷＯ９８／２７２３０、「ＭｅｔｈｏｄｓａｎｄＣｏｍｐｏｓｉｔｉｏｎｓｆｏｒＰｏｌｙｐｅｐｔｉｄｅＥｎｇｉｎｅｅｒｉｎｇ」、ＷＯ９９／２９９０２、「ＭｅｔｈｏｄｆｏｒＣｒｅａｔｉｎｇＰｏｌｙｎｕｃｌｅｏｔｉｄｅａｎｄＰｏｌｙｐｅｐｔｉｄｅＳｅｑｕｅｎｃｅｓ」などに記載されている方法が挙げられるがこれらに限定されない。

合成組換え方法も、系統的バリエーションを有するタンパク質バリアントライブラリーの作製に特によく適する。合成組換え方法において、組換えようとする複数の遺伝子を集合的にコードする複数のオリゴヌクレオチドが合成される。一部の実施形態において、オリゴヌクレオチドは、相同性親遺伝子に由来する配列を集合的にコードする。例えば、目的の相同性遺伝子は、ＢＬＡＳＴ（例えば、Ａｔｓｃｈｕｌら、ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、２１５巻：４０３〜４１０頁（１９９０年）を参照）等、配列アライメントプログラムを使用して整列される。ホモログ間のアミノ酸バリエーションに対応するヌクレオチドが知られている。これらのバリエーションは、親配列の共変動分析、親配列の機能情報、親配列間の保存的もしくは非保存的変化の選択または他の適した基準に基づき、あらゆる可能なバリエーションのサブセットに必要に応じてさらに制限される。バリエーションは、例えば、親配列の共変動分析、親配列の機能情報、親配列間の保存的もしくは非保存的変化の選択またはバリエーションの位置の見かけ上の許容度によって同定される位置における追加のアミノ酸多様性をコードするよう必要に応じてさらに増加する。結果は、アミノ酸バリエーションをコードする位置に縮重ヌクレオチドを有する、親遺伝子配列に由来するコンセンサスアミノ酸配列をコードする縮重遺伝子配列である。縮重遺伝子に存在する多様性の構築に要求されるヌクレオチドを含むオリゴヌクレオチドが設計される。このようなアプローチに関する詳細は、例えば、それぞれが参照により本明細書に組み込まれる、Ｎｅｓｓら（２００２年）ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、２０巻：１２５１〜１２５５頁、ＷＯ００／４２５６１、「ＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＭｅｄｉａｔｅｄＮｕｃｌｅｉｃＡｃｉｄＲｅｃｏｍｂｉｎａｔｉｏｎ」、ＷＯ００／４２５６０、「ＭｅｔｈｏｄｓｆｏｒＭａｋｉｎｇＣｈａｒａｃｔｅｒＳｔｒｉｎｇｓ，Ｐｏｌｙｎｕｃｌｅｏｔｉｄｅｓａｎｄ
ＰｏｌｙｐｅｐｔｉｄｅｓｈａｖｉｎｇＤｅｓｉｒｅｄＣｈａｒａｃｔｅｒｉｓｔｉｃｓ」、ＷＯ０１／７５７６７、「ＩｎＳｉｌｉｃｏＣｒｏｓｓ−ＯｖｅｒＳｉｔｅＳｅｌｅｃｔｉｏｎ」およびＷＯ０１／６４８６４、「Ｓｉｎｇｌｅ−ＳｔｒａｎｄｅｄＮｕｃｌｅｉｃＡｃｉｄＴｅｍｐｌａｔｅ−ＭｅｄｉａｔｅｄＲｅｃｏｍｂｉｎａｔｉｏｎａｎｄＮｕｃｌｅｉｃＡｃｉｄＦｒａｇｍｅｎｔＩｓｏｌａｔｉｏｎ」に見出すことができる。同定されたポリヌクレオチドバリアント配列は、ｉｎｖｉｔｒｏまたはｉｎｖｉｖｏのいずれかにおいて転写および翻訳されて、タンパク質バリアント配列のセットまたはライブラリーを作製することができる。

系統的に変化させられる配列のセットは、データセットにおける配列を定義するための実験計画（ＤＯＥ）方法を使用して、経験的に設計することもできる。ＤＯＥ方法の記載は、Ｄｉａｍｏｎｄ，Ｗ．Ｊ．（２００１年）ＰｒａｃｔｉｃａｌＥｘｐｅｒｉｍｅｎｔＤｅｓｉｇｎｓ：ｆｏｒＥｎｇｉｎｅｅｒｓａｎｄＳｃｉｅｎｔｉｓｔｓ、ＪｏｈｎＷｉｌｅｙ＆ＳｏｎｓおよびＷｉｌｌｉａｍＪＤｒｕｍｍｏｎｄ（１９８１年）ＶａｎＮｏｓｔｒａｎｄＲｅｉｎｈｏｌｄＣｏＮｅｗＹｏｒｋによる「ＰｒａｃｔｉｃａｌＥｘｐｅｒｉｍｅｎｔａｌＤｅｓｉｇｎｆｏｒＥｎｇｉｎｅｅｒｓａｎｄＳｃｉｅｎｔｉｓｔｓ」、「Ｓｔａｔｉｓｔｉｃｓｆｏｒｅｘｐｅｒｉｍｅｎｔｅｒｓ」ＧｅｏｒｇｅＥ．Ｐ．Ｂｏｘ，ＷｉｌｌｉａｍＧ
ＨｕｎｔｅｒａｎｄＪ．ＳｔｕａｒｔＨｕｎｔｅｒ（１９７８年）ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ、ＮｅｗＹｏｒｋ、または例えば、ワールドワイドウェブ、ｉｔｌ．ｎｉｓｔ．ｇｏｖ／ｄｉｖ８９８／ｈａｎｄｂｏｏｋ／に見出すことができる。ＳｔａｔｉｓｔｉｃｓＴｏｏｌｂｏｘ（ＭＡＴＬＡＢ（登録商標））、ＪＭＰ（登録商標）、ＳＴＡＴＩＳＴＩＣＡ（登録商標）およびＳＴＡＴ−ＥＡＳＥ（登録商標）ＤＥＳＩＧＮＥＸＰＥＲＴ（登録商標）を含む、関連する数学の実行に利用できるいくつかの計算パッケージが存在する。結果は、本発明の配列−活性モデルの構築に適した配列の、系統的に変化させられ直交性分散したデータセットである。ＤＯＥに基づくデータセットは、当技術分野において公知の通り、Ｐｌａｃｋｅｔｔ−Ｂｕｒｍａｎまたは一部実施要因計画のいずれかを使用して、容易に作製することもできる。Ｄｉａｍｏｎｄ，Ｗ．Ｊ．（２００１年）。

工学および化学において、完全実施要因計画と比較してより少ない実験を定義する一部実施要因計画を使用する。これらの方法において、２つ以上のレベルの間で要因は変化させられる（すなわち、「トグルされる」）。最適化技法を使用して、選ばれた実験が、要因空間分散の説明において最大に情報価値があることを確実にする。同じ計画アプローチ（例えば、一部実施要因、Ｄ−最適計画）をタンパク質工学において適用して、２つ以上の残基の間で所定の数の位置がトグルされた、より少ない配列を構築することができる。一部の実施形態において、この配列セットは、問題になっているタンパク質配列空間に存在する系統的分散の最適記載をもたらす。

タンパク質工学に適用されるＤＯＥアプローチの例証的な例として、次の作業が挙げられる：
１）本明細書に記載されている原理（例えば、親配列に存在する、保存のレベル等）に基づきトグルするための位置を同定する。
２）要因の数（すなわち、可変位置）、レベルの数（すなわち、各位置における選択）および出力行列をもたらすために行う実験の数を定義することにより、一般的に利用できる統計学的ソフトウェアパッケージのうちの１つを使用してＤＯＥ実験を作製する。出力行列（典型的に、各位置における残基選択を表す１および０からなる）の情報内容は、行う実験の数に直接的に依存する（典型的に、多いほど良い）。
３）出力行列を使用して、各位置における特異的残基選択に戻り、１および０をコードするタンパク質アライメントを構築する。
４）タンパク質アライメントに表されるタンパク質をコードする遺伝子を合成する。
５）関連するアッセイ（複数可）において合成された遺伝子にコードされるタンパク質を検査する。
６）検査された遺伝子／タンパク質に基づきモデルを構築する。
７）本明細書に記載されているステップに従い、重要な位置を同定し、改善された適応度を有する１つ以上のその後のライブラリーを構築する。

例証的な例において、２０種の位置における機能的に最良のアミノ酸残基が決定される（例えば、各位置において利用できる２つの可能なアミノ酸が存在する）タンパク質が調査される。この例において、分解能ＩＶ要因計画が適切となる。分解能ＩＶ計画は、２要因効果が重複することのない、あらゆる単一の変数の効果を解明することができる計画として定義される。続いて、計画は、２^２０（ほぼ百万）種の可能な配列の総多様性を網羅する４０種の特定のアミノ酸配列のセットを指定することになる。続いて、任意の標準遺伝子合成プロトコールを使用してこれらの配列が作製され、これらのクローンの機能および適応度が決定される。

上記のアプローチの代替物は、利用できる配列（例えば、ＧＥＮＢＡＮＫ（登録商標）データベースおよび他の公開ソース）の一部または全体を用いて、タンパク質バリアントライブラリーをもたらすことである。このアプローチは、目的の配列空間領域の指標を提供する。

（ＩＶ．シーケンシング方法）
歴史的に、シーケンシングは、大型の訓練セットと、結果的にますます頑健な配列−活性モデルの開発における制限ステップであった。バリアントのシーケンシングに要求される高コストおよび長時間は、観測の数を数十種のバリアントに制限した。次世代シーケンシングツールは、コストを大幅に低下させ、シーケンシングのスピードおよび量を増加させ、訓練セットに低および高活性バリアントの両方を含むことを可能にした。

次世代シーケンシングツールは、１回のランで多数の塩基対（例えば、少なくとも約１，０００，０００，０００塩基対）を安価にシーケンシングすることができる。この能力（ｃａｐａｃｉｔｙ）は、単一のランで典型的にほんの数キロ塩基対の長さであるバリアントタンパク質をシーケンシングする場合に利用することができる。多くの場合、次世代シーケンシングツールは、単一のランで、多くのより小型の配列よりむしろ単一の大型のゲノム（例えば、ヒトゲノム）のシーケンシングのために最適化される。多くの観測結果を並行してシーケンシングするための次世代シーケンシングツールの潜在力を実現するために、単一のランでシーケンシングされている観測結果のそれぞれの起源は、特有に同定されているべきである。一部の実施形態において、バーコード化された配列が、単一のランのために次世代シーケンサーへと供給された一つ一つの断片において使用される。一例において、バーコードは、特定のプレート（例えば、９６ウェルプレート）における特定のウェルを特有に同定する。これらの実施形態の一部において、各プレートの各ウェルは、単一の特有のバリアントを含む。各バリアント、またはより具体的には各バリアントの各断片をバーコード化することにより、単一のランで複数の異なるバリアントの遺伝子配列をシーケンシングおよび同定することができる。このプロセスにおいて、同じバーコードを有する全断片読み取りが同定され、バリアントについての長さ配列（ｌｅｎｇｔｈｓｅｑｕｅｎｃｅｓ）を同定するアルゴリズムにより共に処理される。

一部の実施形態において、所定のウェルにおけるバリアントの細胞由来のＤＮＡが抽出され、続いて断片化される。次に、断片をバーコード化して、該バリアントに関連する少なくともウェル、時にはウェルおよびプレートを同定する。次に、得られた断片をサイズ選択して、次世代シーケンサーに適切な長さの配列を生成する。例証的な一例において、読み取りの長さは、約２００塩基対である。一部の実施形態において、プレートバーコードは、プレートの様々なウェル由来のＤＮＡ断片が先ずプールされる後まで適用されない。次に、プールされたＤＮＡをバーコード化して、プレートを同定する。一部の実施形態において、各断片は、どのウェルに由来するかにかかわらず、同じプレートバーコードを有する。しかし、一部の代替的実施形態において、断片は、異なるバーコードを有する。その上、ウェルバーコードおよびプレートバーコードは、所定のウェルから抽出されたＤＮＡを同定するために適用することができる。

１つ以上の実施形態において、例えば、第１世代シーケンシング方法とみなされるサンガーシーケンシングまたはマクサムギルバートシーケンシングを含む、バルクシーケンシング方法を使用して配列データを得ることができる。標識ジデオキシ鎖ターミネーターの使用を包含するサンガーシーケンシングは、当技術分野において周知のものである；例えば、Ｓａｎｇｅｒら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ７４巻、５４６３〜５４６７頁（１９９７年）を参照されたい。核酸試料の画分における複数の部分的化学分解反応の実行と、続く配列を推測するための断片の検出および分析とを包含するマクサムギルバートシーケンシングも、当技術分野において周知のものである；例えば、Ｍａｘａｍら、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ
ＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ７４巻、５６０〜５６４頁（１９７７年）を参照されたい。別のバルクシーケンシング方法は、ハイブリダイゼーションによるシーケンシングであり、この方法において、試料の配列は、例えば、マイクロアレイまたは遺伝子チップにおける複数の配列へのそのハイブリダイゼーション特性に基づき推定される；例えば、Ｄｒｍａｎａｃら、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１６巻、５４〜５８頁（１９９８年）を参照されたい。

１つ以上の実施形態において、配列データは、次世代シーケンシング方法を使用して得られる。次世代シーケンシングは、「ハイスループットシーケンシング」とも称される。この技法は、シーケンシングプロセスを並列化し、数千または数百万種の配列を即座に生成する。適した次世代シーケンシング方法の例として、単一分子リアルタイムシーケンシング（例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ、ＭｅｎｌｏＰａｒｋ、Ｃａｌｉｆｏｒｎｉａ）、イオン半導体シーケンシング（例えば、ＩｏｎＴｏｒｒｅｎｔ、ＳｏｕｔｈＳａｎＦｒａｎｃｉｓｃｏ、Ｃａｌｉｆｏｒｎｉａ）、パイロシーケンシング（例えば、４５４、Ｂｒａｎｆｏｒｄ、Ｃｏｎｎｅｃｔｉｃｕｔ）、ライゲーションによるシーケンシング（例えば、シーケンシングＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｃａｒｌｓｂａｄ、ＣａｌｉｆｏｒｎｉａのＳＯＬｉｄシーケンシング）、合成および可逆的ターミネーターによるシーケンシング（例えば、Ｉｌｌｕｍｉｎａ、ＳａｎＤｉｅｇｏ、Ｃａｌｉｆｏｒｎｉａ）、透過型電子顕微鏡法等の核酸撮像技術などが挙げられるがこれらに限定されない。

一般に、次世代シーケンシング方法は、典型的に、ｉｎｖｉｔｒｏクローニングステップを使用して、個々のＤＮＡ分子を増幅する。エマルジョンＰＣＲ（ｅｍＰＣＲ）は、油相内の水滴におけるプライマーコーティングされたビーズと共に個々のＤＮＡ分子を単離する。ＰＣＲは、ビーズ上のプライマーに結合するＤＮＡ分子のコピーを生成し、続いて後のシーケンシングのために固定する。Ｍａｒｇｕｉｌｉｓら（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ、Ｂｒａｎｆｏｒｄ、ＣＴにより商品化）、ＳｈｅｎｄｕｒｅおよびＰｏｒｒｅｃａら（「ポロニーシーケンシング」としても公知）による方法ならびにＳＯＬｉＤシーケンシング（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓＩｎｃ．、ＦｏｓｔｅｒＣｉｔｙ、ＣＡ）において、ｅｍＰＣＲが使用される。Ｍ．Ｍａｒｇｕｌｉｅｓら（２００５年）「Ｇｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇｉｎｍｉｃｒｏｆａｂｒｉｃａｔｅｄｈｉｇｈ−ｄｅｎｓｉｔｙｐｉｃｏｌｉｔｒｅｒｅａｃｔｏｒｓ」Ｎａｔｕｒｅ４３７巻：３７６〜３８０頁；Ｊ．Ｓｈｅｎｄｕｒｅら（２００５年）「ＡｃｃｕｒａｔｅＭｕｌｔｉｐｌｅｘＰｏｌｏｎｙＳｅｑｕｅｎｃｉｎｇｏｆａｎＥｖｏｌｖｅｄＢａｃｔｅｒｉａｌＧｅｎｏｍｅ」Ｓｃｉｅｎｃｅ３０９巻（５７４１号）：１７２８〜１７３２頁を参照されたい。ｉｎｖｉｔｒｏクローン増幅は、固体表面に結合したプライマーにより断片が増幅される「ブリッジＰＣＲ」により行うこともできる。Ｂｒａｓｌａｖｓｋｙらは、この増幅ステップを省略し、表面にＤＮＡ分子を直接的に固定する単一分子方法を開発した（ＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓＣｏｒｐ．、Ｃａｍｂｒｉｄｇｅ、ＭＡにより商品化）。Ｉ．Ｂｒａｓｌａｖｓｋｙら（２００３年）「ＳｅｑｕｅｎｃｅｉｎｆｏｒｍａｔｉｏｎｃａｎｂｅｏｂｔａｉｎｅｄｆｒｏｍｓｉｎｇｌｅＤＮＡｍｏｌｅｃｕｌｅｓ」ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆ
ｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ１００巻：３９６０〜３９６４頁。

表面に物理的に結合しているＤＮＡ分子は、並行してシーケンシングすることができる。「合成によるシーケンシング」において、ＤＮＡポリメラーゼ様ダイターミネーション電気泳動シーケンシングを使用して、鋳型鎖の配列に基づき相補鎖が構築される。可逆的ターミネーター方法（Ｉｌｌｕｍｉｎａ、Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡおよびＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓＣｏｒｐ．、Ｃａｍｂｒｉｄｇｅ、ＭＡにより商品化）は、ダイターミネーターの可逆的バージョンを使用し、一度に１ヌクレオチドを付加し、ブロック基を反復的に除去して別のヌクレオチドの重合を可能にすることにより、各位置における蛍光をリアルタイムで検出する。「パイロシーケンシング」は、ＤＮＡ重合も使用し、一度に１ヌクレオチドを付加し、結合したピロリン酸の放出により放射された光により、所定の場所に付加されたヌクレオチドの数を検出および定量化する（４５４ＬｉｆｅＳｃｉｅｎｃｅｓ、Ｂｒａｎｆｏｒｄ、ＣＴにより商品化）。Ｍ．Ｒｏｎａｇｈｉら（１９９６年）「Ｒｅａｌ−ｔｉｍｅＤＮＡｓｅｑｕｅｎｃｉｎｇｕｓｉｎｇｄｅｔｅｃｔｉｏｎｏｆｐｙｒｏｐｈｏｓｐｈａｔｅｒｅｌｅａｓｅ」ＡｎａｌｙｔｉｃａｌＢｉｏｃｈｅｍｉｓｔｒｙ２４２巻：８４〜８９頁を参照されたい。

次世代シーケンシング方法の具体例は、さらに詳細に後述されている。本発明の１つ以上の実施は、本発明の原理から逸脱することなく、次のシーケンシング方法のうち１つ以上を使用することができる。

単一分子リアルタイムシーケンシング（ＳＭＲＴとしても公知）は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓによって開発された合成技術による並列化された単一分子ＤＮＡシーケンシングである。単一分子リアルタイムシーケンシングは、ゼロモード導波管（ＺＭＷ）を利用する。単一のＤＮＡポリメラーゼ酵素が、ＺＭＷの底に固定され、単一分子のＤＮＡを鋳型として用いる。ＺＭＷは、ＤＮＡポリメラーゼによって取り込まれているＤＮＡの単一ヌクレオチド（塩基としても公知）のみの観測に十分なほど小さい照射観測量（ｉｌｌｕｍｉｎａｔｅｄｏｂｓｅｒｖａｔｉｏｎｖｏｌｕｍｅ）を生じる構造である。４種のＤＮＡ塩基の各々は、４種の異なる蛍光色素のうちの１つに結合されている。ＤＮＡポリメラーゼによってヌクレオチドが取り込まれる際に、蛍光タグが切断され、ＺＭＷの観測区域から拡散し、するとその蛍光は観測可能ではなくなる。検出器は、ヌクレオチド取り込みの蛍光シグナルを検出し、色素の対応する蛍光に従って塩基コール（ｃａｌｌ）が為される。

適用可能な別の単一分子シーケンシング技術は、ＨｅｌｉｃｏｓＴｒｕｅ単一分子シーケンシング（ｔＳＭＳ）技術（例えば、ＨａｒｒｉｓＴ．Ｄ．ら、Ｓｃｉｅｎｃｅ３２０巻：１０６〜１０９頁［２００８年］に記載）である。ｔＳＭＳ技法において、ＤＮＡ試料は、およそ１００〜２００ヌクレオチドの鎖に切断され、各ＤＮＡ鎖の３’端にポリＡ配列が付加される。各鎖は、蛍光標識されたアデノシンヌクレオチドの付加によって標識される。次に、ＤＮＡ鎖は、フローセル表面に固定された数百万個のオリゴ−Ｔ捕捉部位を含むフローセルにハイブリダイズする。ある特定の実施形態において、鋳型は、約１億個の鋳型／ｃｍ^２の密度となり得る。続いて、フローセルは、機器、例えば、ＨｅｌｉＳｃｏｐｅ（商標）シーケンサーに装填され、フローセルの表面にレーザーを照射し、各鋳型の位置を明らかにする。ＣＣＤカメラは、フローセル表面における鋳型の位置をマッピングすることができる。次に、鋳型蛍光標識を切断し、洗い流す。シーケンシング反応は、ＤＮＡポリメラーゼおよび蛍光標識されたヌクレオチドを導入することにより始まる。オリゴ−Ｔ核酸は、プライマーとして機能する。ポリメラーゼは、鋳型指向性の様式で標識されたヌクレオチドをプライマーに取り込む。ポリメラーゼおよび取り込まれなかったヌクレオチドを除去する。蛍光標識されたヌクレオチドの指向性のある取り込み（ｄｉｒｅｃｔｅｄｉｎｃｏｒｐｏｒａｔｉｏｎ）を有する鋳型は、フローセル表面の撮像により識別される。撮像後に、切断ステップが蛍光標識を除去し、所望の読み取り長が達成されるまで、他の蛍光標識されたヌクレオチドを用いてこのプロセスを反復する。各ヌクレオチド付加ステップにより、配列情報を収集する。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリーの調製におけるＰＣＲに基づく増幅を除外または典型的に取り除き、この方法は、該試料のコピーの測定よりもむしろ、試料の直接測定を可能にする。

イオン半導体シーケンシングは、ＤＮＡの重合の間に放出された水素イオンの検出に基づくＤＮＡシーケンシングの方法である。これは、鋳型鎖の配列に基づき相補鎖が構築される「合成によるシーケンシング」の方法である。シーケンシングしようとする鋳型ＤＮＡ鎖を含むマイクロウェルを、単一種のデオキシリボヌクレオチド三リン酸（ｄＮＴＰ）で充満させる。導入されたｄＮＴＰは、リーディング鋳型ヌクレオチドに相補的である場合、成長中の相補鎖に取り込まれる。これにより、ＩＳＦＥＴイオンセンサーの引き金を引く水素イオンが放出され、反応が起こったことを示す。鋳型配列にホモポリマーリピートが存在する場合、複数のｄＮＴＰ分子が、単一サイクルで取り込まれる。これは、対応する数の放出水素と、比例的により高い電子シグナルを生じる。この技術は、改変ヌクレオチドまたはオプティクスが使用されないという点において、他のシーケンシング技術とは異なる。イオン半導体シーケンシングは、ｉｏｎｔｏｒｒｅｎｔシーケンシング、ｐＨ媒介性シーケンシング、シリコンシーケンシングまたは半導体シーケンシングと称することもできる。

パイロシーケンシングにおいて、重合反応によって放出されたピロリン酸イオンは、ＡＴＰスルフリラーゼによりアデノシン５’ホスホ硫酸と反応して、ＡＴＰを生成する；次に、ＡＴＰは、ルシフェラーゼによるルシフェリンからオキシルシフェリンプラス光への転換を駆動する。蛍光は一過性であるため、この方法において、蛍光を排除するための別個のステップは必要とされない。１種類のデオキシリボヌクレオチド三リン酸（ｄＮＴＰ）が一度に付加され、配列情報は、どのｄＮＴＰが反応部位に有意なシグナルを生じるかに従って識別される。市販のＲｏｃｈｅＧＳＦＬＸ機器は、この方法を使用して配列を取得する。この技法およびその応用は、例えば、Ｒｏｎａｇｈｉら、ＡｎａｌｙｔｉｃａｌＢｉｏｃｈｅｍｉｓｔｒｙ２４２巻、８４〜８９頁（１９９６年）およびＭａｒｇｕｌｉｅｓら、Ｎａｔｕｒｅ４３７巻、３７６〜３８０頁（２００５年）（Ｎａｔｕｒｅ４４１巻、１２０頁（２００６年）に誤植）に詳細に記述されている。市販のパイロシーケンシング技術は、４５４シーケンシング（Ｒｏｃｈｅ）である（例えば、Ｍａｒｇｕｌｉｅｓ，Ｍ．ら、Ｎａｔｕｒｅ４３７巻：３７６〜３８０頁［２００５年］に記載されるとおり）。

ライゲーションシーケンシングにおいて、リガーゼ酵素が使用されて、オーバーハングを有する部分的に二本鎖のオリゴヌクレオチドを、オーバーハングを有するシーケンシングされている核酸に連結する；ライゲーションが起こるよう、オーバーハング同士は相補的でなければならない。部分的に二本鎖のオリゴヌクレオチドのオーバーハングにおける塩基は、部分的に二本鎖のオリゴヌクレオチドおよび／または部分的に二本鎖のオリゴヌクレオチドの別の部分にハイブリダイズする二次オリゴヌクレオチドにコンジュゲートされたフルオロフォアによって同定することができる。蛍光データの取得後に、ライゲーションされた複合体は、その認識部位（部分的に二本鎖のオリゴヌクレオチドに含まれた）から固定された距離の部位でカットするＩＩｓ型制限酵素、例えば、Ｂｂｖｌによる等、ライゲーション部位の上流で切断される。この切断反応は、先のオーバーハングの直ぐ上流に新たなオーバーハングを露出させ、このプロセスは反復される。この技法およびその応用は、例えば、Ｂｒｅｎｎｅｒら、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ１８巻、６３０〜６３４頁（２０００年）に詳細に記述されている。一部の実施形態において、ライゲーションシーケンシングは、環状核酸分子のローリングサークル増幅産物を得て、ライゲーションシーケンシングのための鋳型としてローリングサークル増幅産物を使用することにより、本発明の方法に適応される。

ライゲーションシーケンシング技術の市販の例は、ＳＯＬｉＤ（商標）技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）である。ＳＯＬｉＤ（商標）のライゲーションによるシーケンシングにおいて、ゲノムＤＮＡを剪断して断片とし、断片の５’および３’端にアダプターを結合させて、断片ライブラリーを作製する。あるいは、断片の５’および３’端にアダプターをライゲーションし、断片を環状化し、環状化した断片を消化して、内部アダプターを作製し、得られた断片の５’および３’端にアダプターを結合させて、メイトペア（ｍａｔｅ−ｐａｉｒｅｄ）ライブラリーを作製することにより、内部アダプターを導入することができる。次に、ビーズ、プライマー、鋳型およびＰＣＲ構成成分を含むマイクロリアクター内にクローンビーズ集団を調製する。ＰＣＲ後に、鋳型を変性させ、ビーズを富化して、延長された鋳型を有するビーズを分離させる。選択されたビーズにおける鋳型を、スライドグラスへの結合を可能にする３’改変に付す。特定のフルオロフォアによって同定される中心決定塩基（または塩基の対）を有する部分的にランダムなオリゴヌクレオチドの逐次的ハイブリダイゼーションおよびライゲーションにより、配列を決定することができる。色が記録された後に、ライゲーションされたオリゴヌクレオチドを切断および除去し、続いてこのプロセスを反復する。

可逆的ターミネーターシーケンシングにおいて、ブロック基の存在による可逆的鎖ターミネーターである蛍光色素標識されたヌクレオチドアナログが、単一塩基伸長反応において取り込まれる。塩基の同一性は、フルオロフォアによって決定される；換言すれば、各塩基は、異なるフルオロフォアと対になる。蛍光／配列データを取得した後に、フルオロフォアおよびブロック基を化学的に除去し、このサイクルを反復して、配列情報の次の塩基を取得する。ＩｌｌｕｍｉｎａＧＡ機器は、この方法により作動する。この技法およびその応用は、例えば、Ｒｕｐａｒｅｌら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ１０２巻、５９３２〜５９３７頁（２００５年）およびＨａｒｒｉｓら、Ｓｃｉｅｎｃｅ３２０巻、１０６〜１０９頁（２００８年）に詳細に記述されている。

可逆的ターミネーターシーケンシング方法の市販の例は、Ｉｌｌｕｍｉｎａの合成によるシーケンシングおよび可逆的ターミネーターに基づくシーケンシング（例えば、Ｂｅｎｔｌｅｙら、Ｎａｔｕｒｅ６巻：５３〜５９頁［２００９年］に記載のとおり）である。Ｉｌｌｕｍｉｎａのシーケンシング技術は、オリゴヌクレオチドアンカーが結合した平面状の光学的に透明な表面への、断片化ゲノムＤＮＡの結合に基づく。鋳型ＤＮＡを末端修復して、５’−リン酸化平滑末端を作製し、クレノウ断片のポリメラーゼ活性を使用して、該平滑リン酸化ＤＮＡ断片の３’端に単一Ａ塩基を付加する。この付加は、その３’端にライゲーション効率を増加させる単一Ｔ塩基のオーバーハングを有するオリゴヌクレオチドアダプターへのライゲーションのためのＤＮＡ断片を調製する。アダプターオリゴヌクレオチドは、フローセルアンカーと相補的である。アダプター改変される限界希釈条件下で、一本鎖の鋳型ＤＮＡをフローセルに添加し、アンカーへのハイブリダイゼーションにより固定する。結合したＤＮＡ断片を延長させ、ブリッジ増幅させて、それぞれほぼ１，０００コピーの同じ鋳型を含む数億個のクラスターを有する超高密度シーケンシングフローセルを作製する。除去可能な蛍光色素を有する可逆的ターミネーターを用いる頑健な４色ＤＮＡの合成によるシーケンシング技術を使用して、鋳型をシーケンシングする。レーザー励起および全内部反射オプティクスを使用して、高感度蛍光検出が達成される。約２０〜４０ｂｐ、例えば、３６ｂｐの短い配列読み取りを、リピートマスク参照ゲノムに対し整列させ、特別に開発されたデータ分析パイプラインソフトウェアを使用して、参照ゲノムに対する短い配列読み取りの特有のマッピングを同定する。非リピートマスク参照ゲノムを使用することもできる。リピートマスク参照ゲノムまたは非リピートマスク参照ゲノムのいずれが使用されるのであれ、参照ゲノムに対し特有にマッピングされる読み取りのみを計数する。第１の読み取りの完了後に、ｉｎｓｉｔｕで鋳型を再生して、断片の反対端からの第２の読み取りを可能にすることができる。よって、ＤＮＡ断片のシングルエンドシーケンシングまたはペアエンドシーケンシングのいずれかを使用することができる。試料に存在するＤＮＡ断片の部分的シーケンシングを行い、所定の長さ、例えば、３６ｂｐの読み取りを含む配列タグを公知の参照ゲノムに対しマッピングし、計数する。

ナノポアシーケンシングにおいて、例えば、電気泳動による駆動力を使用して、一本鎖核酸分子をポアに通し、一本鎖核酸分子がポアを通過するにつれて得られるデータを分析することにより配列を推定する。データは、イオン電流データとなることができ、各塩基は、例えば、異なる識別可能な程度まで、ポアを通過する電流を部分的に遮断することにより電流を変更する。

別の例証的であるが非限定的な実施形態において、本明細書に記載されている方法は、透過型電子顕微鏡法（ＴＥＭ）を使用して配列情報を得るステップを含む。本方法は、重原子マーカーで選択的に標識された高分子量（１５０ｋｂ以上）ＤＮＡの単一原子分解能の透過型電子顕微鏡撮像を利用するステップと、これらの分子を超高密度（３ｎｍ鎖間）平行アレイにおける極薄フィルム上に一貫した塩基間スペーシングで配置するステップを含む。電子顕微鏡を使用して、フィルム上に分子を撮像して、重原子マーカーの位置を決定し、ＤＮＡから塩基配列情報を抽出する。本方法は、ＰＣＴ特許公開ＷＯ２００９／０４６４４５にさらに記載されている。

別の例証的であるが非限定的な実施形態において、本明細書に記載されている方法は、第三世代シーケンシングを使用して配列情報を得るステップを含む。第三世代シーケンシングにおいて、多くの小（ほぼ５０ｎｍ）孔を備えるアルミニウムコーティングを有するスライドをゼロモード導波管として使用する（例えば、Ｌｅｖｅｎｅら、Ｓｃｉｅｎｃｅ
２９９巻、６８２〜６８６頁（２００３年）を参照）。アルミニウム表面は、ポリホスホネート化学、例えば、ポリビニルホスホネート化学によってＤＮＡポリメラーゼの結合から保護される（例えば、Ｋｏｒｌａｃｈら、ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓｏｆｔｈｅＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ１０５巻、１１７６〜１１８１頁（２００８年）を参照）。これは、アルミニウムコーティングの孔における露出したシリカへのＤＮＡポリメラーゼ分子の優先的結合をもたらす。この仕組みは、エバネッセント波現象を使用して、蛍光バックグラウンドを低下させ、より高濃度の蛍光標識されたｄＮＴＰの使用を可能にする。ｄＮＴＰの取り込みにより蛍光が放出されるが、フルオロフォアが新たに取り込まれたヌクレオチドに結合し続けないように、ｄＮＴＰの末端リン酸にフルオロフォアを結合させる、このことは、複合体の、取り込みの別のラウンドの準備が直ちに整うことを意味する。この方法により、アルミニウムコーティングの孔に存在する個々のプライマー−鋳型複合体へのｄＮＴＰの取り込みを検出することができる。例えば、Ｅｉｄら、Ｓｃｉｅｎｃｅ３２３巻、１３３〜１３８頁（２００９年）を参照されたい。

（Ｖ．配列−活性モデルの作製）
上に示す通り、本明細書における実施形態により使用される配列−活性モデルは、タンパク質配列情報をタンパク質活性に関連付ける。モデルにより使用されるタンパク質配列情報は、多くの形態をとる。一部の実施形態において、これは、タンパク質におけるアミノ酸残基の完全配列である。しかし、一部の実施形態において、完全アミノ酸配列は不必要である。例えば、一部の実施形態において、特定の研究努力において変化させられるべき残基のみを提供すれば十分である。後の研究ステージを伴う一部の実施形態において、多くの残基が固定され、配列空間の限定された領域のみが探索されるために残る。このような状況の一部において、探索が続くタンパク質の領域における残基の同定のみを入力として要求する配列−活性モデルをもたらすことが簡便である。一部の追加の実施形態において、モデルは、残基位置における残基の正確な同一性が既知であることを要求しない。一部のこのような実施形態において、特定の残基位置におけるアミノ酸を特徴付ける、１つ以上の物理的または化学的特性が同定される。例証的な一例において、モデルは、バルク、疎水性、酸性度等による残基位置の特定を要求する。さらに、一部のモデルにおいて、このような特性の組合せが用いられる。実際には、モデルは、配列情報、活性情報および／または他の物理的特性（例えば、疎水性等）の様々な構成における使用を見出すため、本発明が、どんな特定のアプローチにも限定されることは企図されない。

よって、配列−活性モデルの形式は、要望に応じて配列情報に基づきタンパク質の相対的活性を正確に近似させるためのビヒクルを提供する限り、広く変化し得る。一部の実施形態において、モデルは一般に、従属変数として活性を扱い、独立変数として配列／残基値を扱う。モデルの数学的／論理的形式の例として、加法、乗法、線形および様々な次数の非線形数式、ニューラルネットワーク、分類および回帰ツリー／グラフ、クラスタリングアプローチ、再帰的分配、サポートベクターマシンその他が挙げられる。

モデルの一部の実施形態は、複数の乗法項の積を含む。乗法項のうちの少なくとも一部は、非相互作用乗法項であり、それらの各々は、目的の活性に対する定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む。定義されたアミノ酸またはヌクレオチドは、タンパク質配列または核酸配列における特定の位置における特定の残基型のものである。非相互作用乗法項の各々は、定義されたアミノ酸またはヌクレオチドの存在または非存在を表す、単一の独立変数またはダミー変数も含む。加えて、配列−活性モデルの各々は、本発明の一部の実施形態において、タンパク質バリアントの活性を表す従属変数を含む。

本発明の一部の実施形態において、配列−活性モデルは、相互作用項も含み、それらの各々は、（ｉ）タンパク質配列における第１の位置における第１のアミノ酸またはヌクレオチドと、（ｉｉ）タンパク質配列における第２の位置における第２のアミノ酸またはヌクレオチドとの定義された組合せの、活性に対する寄与を表す相互作用係数を含む。

本発明の一部の実施形態において、モデルは、乗算または加算によって複数の相互作用項を組み合わせる。一部の実施形態において、モデルは、乗算または加算によって複数の相互作用項を複数の非相互作用乗法項と組み合わせる。一部の実施形態において、モデルは、純粋に乗法的であり、非相互作用項および相互作用項を単一の積に組み合わせる。他の実施形態において、モデルは、加算により１つ以上の他の項と組み合わせた複数の項の少なくとも１つの積を含む。

本発明の一部の代替的実施形態において、配列−活性モデルは、１つ以上の非相互作用項と少なくとも１つの相互作用項との和を含む加法形式を有する。少なくとも１つの相互作用項は、１相互作用残基の存在を表す１変数と、別の１相互作用残基の存在を表す別の１変数との積を含む外積項である。

一部の実施形態において、活性対配列情報の訓練セットからモデルを開発して、活性および配列の間の数学的／論理的関係性を提供する。この関係性は、典型的には、新たな配列に対する活性または目的の活性に対する残基の影響を予測するための使用に先立ち検証される。

モデルを生成するための様々な技法が利用可能であり、本発明での用途がある。一部の実施形態において、技法は、モデルの最適化またはモデル誤差の最小化を含む。具体的な例には、部分最小二乗法、アンサンブル回帰、ランダムフォレスト、様々なその他の回帰技法、ならびにニューラルネットワーク技法、再帰分割、サポ−トベクターマシン技法、および／またはＣＡＲＴ（分類および回帰ツリー）等が含まれる。一般に、技法は、活性に著しい影響を及ぼす残基を、そうでない残基と区別することができるモデルを生成すべきである。一部の実施形態において、モデルは、個々の残基または残基位置を、活性に対するそれらの影響に基づいてランク付けもする。本発明は、当技術分野で公知の任意の適切な方法には本発明での用途があるので、モデルを生成するための任意の特定の技法に限定するものではない。

加法モデルを含む一部の実施形態において、モデルは、訓練セットにおける独立および従属変数の共変動を同定する回帰技法により作製される。様々な回帰技法が公知であり、広く使用されている。例として、多重線形回帰（ＭＬＲ）、主成分回帰（ＰＣＲ）および部分最小二乗回帰（ＰＬＳ）が挙げられる。一部の実施形態において、モデルは、アンサンブル回帰およびランダムフォレストが挙げられるがこれらに限定されない、複数の構成成分を含む技法を使用して作製される。上述および他のいかなる適した方法も、本発明における使用を見出す。本発明が、どんな特定の技法にも限定されることは企図されない。

ＭＬＲは、これらの技法の中で最も基本的なものである。これは訓練セットのメンバーに関する一組の係数方程式を解くためだけに使用される。各方程式は、特定の位置での特定の残基の存在または不在（すなわち、独立変数）を伴う訓練セットメンバーの活性（すなわち、従属変数）に関する。訓練セットにおける残基オプションの数に応じて、これら方程式の数は非常に大きくあり得る。

ＭＬＲのように、ＰＬＳおよびＰＣＲは、配列活性を残基値に関連付ける方程式からモデルを生成する。しかし、これらの技法は、そのような生成を異なる手法で行う。これらの技法はまず、独立変数の数を低減させるために座標変換を行う。次いで変換された変数に関して回帰を行う。ＭＬＲでは、潜在的に非常に大きい数の独立変数があり：訓練セット内で変化する各残基位置に関して２つ以上がある。目的のタンパク質およびペプチドがしばしば非常に大きく、訓練セットが多くの異なる配列を提供し得るとすれば、独立変数の数は、迅速に、非常に大きくなることができる。データセットに最も大きなバリエーションをもたらすものに焦点を当てるために変数の数を低減させることによって、ＰＬＳおよびＰＣＲは一般に、より少ない試料しか必要とせず、モデルの生成において含まれるステップを単純化する。

ＰＣＲは、生の独立変数（すなわち、残基値）の座標変換によって得られた比較的小さい数の潜在変数に対して実際の回帰が行われる点が、ＰＬＳ回帰に類似している。ＰＬＳとＰＣＲとの相違は、ＰＣＲの潜在変数が、独立変数（すなわち、残基値）間の共変動を最大にすることにより構成されることである。ＰＬＳ回帰では、潜在変数は、独立変数と従属変数（すなわち、活性値）との間の共変動が最大になるような方法で構成される。部分最小二乗回帰は、Ｈａｎｄ，Ｄ．Ｊ．ら（２００１年）Ｐｒｉｎｃｉｐｌｅｓｏｆ
ＤａｔａＭｉｎｉｎｇ（ＡｄａｐｔｉｖｅＣｏｍｐｕｔａｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）、Ｂｏｓｔｏｎ、ＭＡ、ＭＩＴＰｒｅｓｓ、およびＧｅｌａｄｉら（１９８６年）「ＰａｒｔｉａｌＬｅａｓｔ−ＳｑｕａｒｅｓＲｅｇｒｅｓｓｉｏｎ：ａＴｕｔｏｒｉａｌ」、ＡｎａｌｙｔｉｃａＣｈｉｍｉｃａＡｃｔａ、１９８巻：１〜１７頁に記載されている。これらの参考文献は共に、全ての目的で参照により本明細書に組み込まれる。

ＰＣＲおよびＰＬＳにおいて、回帰分析の直接の結果は、重み付けられた潜在変数の関数である活性に関する式である。この式は、潜在変数を元の当初の独立変数に変換する座標変換を行うことにより、当初の独立変数の関数として、活性に関する式に変換することができる。

本質的に、ＰＣＲおよびＰＬＳは共に、最初に訓練セットに含まれる情報の次元を低減させ、次いで変換されたデータセットに関して回帰分析を行うが、変換されたデータセットは、新しい独立変数が生成されるように変換されたものであり、しかし当初の従属変数値を保存している。変換バージョンのデータセットは、回帰分析を行うための比較的少ない式しかもたらさないであろう。次元の低減が行われていないプロトコールでは、それに対してバリエーションがあり得る各個別の残基を考慮しなければならない。これは、係数の非常に大きいセットであり得る（例えば、双方向相互作用に関して２^Ｎ係数、但しＮは訓練セットで変化し得る残基位置の数である）。典型的な主成分分析では、３、４、５、６つの主成分だけが用いられる。

訓練データを適合させるマシン学習技法の能力を、しばしば「モデル適合」と呼び、ＭＬＲ、ＰＣＲ、およびＰＬＳ等の回帰技法において、モデル適合は、典型的には測定値と予測値との間の差分平方和によって測定される。所与の訓練セットでは、最適モデル適合が、ＭＬＲを使用して実現されることになり、ＰＣＲおよびＰＬＳは、しばしば悪化したモデル適合を有する（測定と予測との間の誤差平方和がより大きい）。しかし、ＰＣＲおよびＰＬＳ等の潜在変数回帰技法を使用する主な利点は、そのようなモデルの予測能力にある。誤差平方和が非常に小さいモデル適合を得ることは、モデルが訓練セットでは見られない新しい試料を正確に予測できるようになることを、決して保証するものではなく−実際に、それはしばしば、特に多くの変数がありかつ少ししか観察（すなわち、試料）がない場合に、逆のケースになる。このように、潜在変数回帰技法（例えば、ＰＣＲ、ＰＬＳ）は、しばしば訓練データに関する悪化したモデル適合を有するが、通常はより堅牢であり、訓練セット外の新しい試料をより正確に予測することができる。

本開示によりモデルを生成するために使用することができる、別のクラスのツールは、サポートベクターマシン（ＳＶＭ）である。これらの数学的ツールは、入力として、活性に基づいて２つ以上の群に分類された配列の訓練セットを得る。サポートベクターマシンは、訓練セットの「活性」および「不活性」メンバーを分離する超平面界面にそれらがどの程度近いかに応じて、異なって、訓練セットの異なるメンバーを重み付けすることによって動作する。この技法では、科学者はまず、どの訓練セットのメンバーを「活性」群に配置し、かつどの訓練セットのメンバーを「不活性」群に配置するかを決定する必要がある。一部の実施形態において、これは、訓練セットの「活性」メンバーと「不活性」メンバーとの間の境界として働く活性レベルに適切な数値を選択することによって実現される。この分類から、ベクトルＷを生成し、Ｗは、サポートベクターマシンは、訓練セット内の活性および不活性群のメンバーの配列を定める個々の独立変数に関する係数値を提供することができる。これらの係数は、本明細書の他の部分で記載されるように、個々の残基を「ランク付け」するために使用することができる。技法は、平面の反対側にある最も近い訓練セットのメンバー間の距離を最大にする、超平面を同定するために使用される。別の実施形態において、サポートベクター回帰モデリングを実施する。この場合、従属変数は、連続活性値のベクトルである。サポートベクター回帰モデルは、個々の残基をランク付けするために使用できる係数ベクトルＷを生成する。

ＳＶＭは、多くの研究で大きいデータセットを調べるのに使用され、ＤＮＡマイクロアレイと共に広い用途が見出された。それらの潜在的強度は、試料を互いに分離する因子を細かく区別する（重み付けにより）能力を含む。ＳＶＭが、どの残基が機能に寄与するかを精密に探り出すことができる限り、それは残基をランク付けするために特に有用なツールとすることができる。ＳＶＭは、全ての目的で参照により本明細書に組み込まれるＳ．
Ｇｕｎｎ（１９９８年）「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒ
ＣｌａｓｓｉｆｉｃａｔｉｏｎａｎｄＲｅｇｒｅｓｓｉｏｎｓ」、ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ、ＦａｃｕｌｔｙｏｆＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｅｄＳｃｉｅｎｃｅ、ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃｓａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ、ＵｎｉｖｅｒｓｉｔｙｏｆＳｏｕｔｈａｍｐｔｏｎに記載されている。

本発明の一部の実施形態において、モデルを生成するために使用することができる別のクラスのツールは、その例がランダムフォレストであるランダム入力を使用した、分類ツリーのアンサンブルに基づく分類および回帰である。Ｂｒｅｉｍａｎ（２００１）「ＲａｎｄｏｍＦｏｒｅｓｔｓ」、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ４５巻（１号）：５〜３２頁を参照されたい。ランダムフォレストは、各ツリーが、独立してサンプリングされたランダムベクトルの値に依存しかつフォレスト内の全てのツリーに関して同じ分布を有するような、ツリー予測因子の組合せである。ランダムフォレストは、決定ツリーの各分割部での特徴のランダム化選択による非プールニング決定ツリー学習器のバギングからなる学習アンサンブルである。フォレストの一般化誤差は、フォレスト内のツリーの数が大きくなるにつれ、限界に集束する。

ランダムフォレストは、下記の手法で構成され得る：
１）訓練セットにおける件数がＮの場合、ランダムに試料Ｎ個−しかし返還を伴い、オリジナルデータから。この試料は、ツリーを成長させるための訓練セットであろう。
２）Ｍ個の入力独立変数がある場合、数値ｍ（ｍ＜＜Ｍ）は、ツリーの各ノードでｍ個の変数がＭの中からランダムに選択されるように、かつこれらｍに対する最良の分割が、ノードを分割するために使用されるように指定される。ｍの値は、フォレスト成長中は一定に保たれる。
３）一部の実施において、各ツリーは、最大限可能な程度まで成長させられる。プールニングはない。
４）次いで多数のツリー、ｋ＝１、．．．、Ｋ（通常、Ｋ≧１００）が生成される。
５）多数のツリーが生成された後、それらは全て、目的の変数の分類に票を投じる。例えばツリーは、活性の最終的な予測または特定の変異の寄与に各々が寄与し得る。
６）次いでランダムフォレストは、フォレスト内の全てのツリー予測因子から最も多く投票されたクラスを得ることにより、ｘを分類する（例えば、変異の配列またはその他の独立変数）。

フォレスト誤差率は、フォレスト内の任意の２つのツリー間の相関に依存する。相関が増大すると、フォレスト誤差率も増大する。フォレスト誤差率は、フォレスト内の各個々のツリーの強度に依存する。誤差率が低いツリーは強力な分類子である。個々のツリーの強度が増大すると、フォレスト誤差率が低下する。ｍの低減は、相関および強度の両方を低減させる。ｍの増大は、両方を増大させる。間のどこかが、ｍの「最適」範囲であり−通常は非常に広い。

ランダムフォレスト技法は、回帰モデルにおけるカテゴリー変数ならびに連続変数に関して使用することができる。本発明の一部の実施形態において、ランダムフォレストモデルは、ＳＶＭおよびニューラルネットモデルに匹敵する予測検出力を有しており、しかしより高い計算効率を有する傾向がある。何故なら、他にも理由がある中で、交差検証がモデリングプロセスに構築され、交差検証用の別のプロセスが必要ではないからである。

（Ａ．乗法モデル）
本発明の一部の実施形態は、複数の乗法項の積を含む配列−活性モデルを構築し、定向進化を誘導するために該モデルを使用する方法を提供する。一部の実施形態において、配列−活性モデルは、配列の２個以上のサブユニットの存在または非存在の関数としてタンパク質バリアントの活性を予測する。一部の実施形態において、サブユニットは、タンパク質バリアントを構成するアミノ酸である。一部の実施形態において、サブユニットは、タンパク質バリアントをコードする核酸またはコドンである。

一部の実施形態において、モデルの乗法項のうちの少なくとも一部は、非相互作用乗法項であり、それらの各々は、目的の活性に対する定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む。定義されたアミノ酸またはヌクレオチドは、タンパク質配列または核酸配列における特定の位置における特定の残基型のものである。非相互作用乗法項の各々は、特定の配列の場所における特定の型の定義されたアミノ酸またはヌクレオチドの存在または非存在を表す、単一の独立変数またはダミー変数も含む。様々な実施形態において、ダミー変数は、定義された残基の存在に対し１および非存在に対し１／係数等、ビット値として実装することができる。一部の実施形態において、アミノ酸または核酸の代わりにコドンがモデリングされる。

上に説明する通り、相互作用項のプールは通常、大型である。多数の相互作用項を含むことは、定向進化の効率にマイナスに影響を与える。追加の項も、データの過剰適合、したがって、モデルの予測検出力の低下を引き起こす傾向がある。モデルの複数の非相互作用項が積を形成し、複数の非相互作用項の独立変数が乗法様式において従属変数に寄与ことを可能にするので、乗法モデルは、相互作用項の数を低下させ、モデルの予測検出力を改善することができる場合がある。本明細書において仮定されている理論のいずれにも制約されることなく、乗法モデルは、モデルの予測検出力および／または定向進化の効率を改善することができる。

２つ以上のコドンが、同じアミノ酸をコードする場合、コドン縮重が存在する。一部の実施形態において、同じ独立変数を使用して２つ以上の縮重コドンを表すことにより、コドン縮重を必要に応じてくくり出すことができる。しかし、コドン縮重は、一部の実施形態におけるモデルにおいて保持することもあり得る。例えば、モデルは、同義変異の２つの異なる核酸を、同じタンパク質活性に関連付け得る。乗法モデルが、活性とタンパク質配列情報との間の関係性を適切に捕捉し得る理由は、アレニウス式を使用して、バリアントタンパク質における様々な変異の関数としてタンパク質活性を記述することにより実証され得る。本来のアレニウス式は、

活性化エネルギーΔＧおよび反応温度Ｔ（ケルビン）の関数として化学反応速度定数ｋを記述する（式中、Ａは頻度因子（実験定数）であり、Ｒは８．３１４Ｊ／ｍｏｌ．Ｋの一般気体定数である）。アレニウス式は、次のように書き直すことができ、

反応速度定数が、温度Ｔと正に相関し、活性化エネルギーと負に相関することを示す。換言すれば、より高い反応温度は、より速い反応を導き、より高い活性化エネルギーは、より遅い反応を導く。

化学反応の反応速度をタンパク質の活性に、また、活性化エネルギーをタンパク質の活性に対する変異の寄与に対応させることは概念的に賢明である。対応に基づいて描写する場合、アレニウス式を使用して、変異の効果ΔＧの関数としてタンパク質活性ｋを記述することができる。タンパク質のバックボーン残基が、ΔＧ_０の効果を有する場合、変異１は、ΔＧ_１の効果を有し、変異２は、ΔＧ_２の効果を有し、変異１および２の組み合わせた効果は、次の通りに表すことができる：

この方程式から分かる通り、２つの変異の効果は、乗法形式での積へと組み合わせることができる。本発明の一部の実施形態において、乗法モデルは、様々な項の積として表すことができる。各項は、配列における位置および該位置における特定の残基またはヌクレオチド／コドンの特定の組合せの、活性に対する寄与を表す。これらの項の各々は、係数および独立変数を含む。独立変数は、２つの値のうち一方をとることができる：問題になっている変異が存在する場合は一方の値、問題になっている変異が非存在の場合は異なる値である。

一部の実施形態において、配列−活性モデルにおける各項は、その係数および関連する独立変数の単純な積であり得る。本発明の一部の実施形態において、項に関連するヌクレオチドまたは残基が存在する場合、独立変数の値は、１に設定される。独立変数が存在しない場合、変数の値は、該項の係数値で割った１、すなわち１／Ｃ_ｎである。相互作用項に関して、係数は、相互作用の活性に対する寄与に対して提供される。関連する係数は、全相互作用メンバー（ｍおよびｎ）が存在する場合、１の値を有し、存在しない場合は１／Ｃ_ｍ，ｎの値を有する。

モデルの別の形式において、各項において、位置に問題になっている残基またはヌクレオチドが存在する場合は１の値により、位置に存在しない場合はゼロの値により、独立変数が与えられる。モデルのこの形式において、項は、１プラス係数×独立変数の値により与えられる：（１＋Ｃ_ｎｘ_ｎ）。相互作用項は、第１の事例と同様に扱われる：（１＋Ｃ_ｍ，ｎｘ_ｍｘ_ｎ）。一実施形態において、モデルは、この形式をとることができる：
ｙ＝（１＋Ｃ_１ｘ_１）×（１＋Ｃ_２ｘ_２）×（１＋Ｃ_３ｘ_３）×…×（１＋Ｃ_ｎｘ_ｎ）
相互作用項は、モデルに存在してもしなくてもよい。まさにその本質により、積は、相互作用残基間の相互作用を説明することが可能である。乗法モデルが本質的に、このような相互作用の完全な寄与を説明しない事象において、相互作用項は、乗法モデルにおける項として含まれ得る。このような事例において、２個以上の変異の存在を表す係数および２個の変異を表すダミー変数を含むことにより、１つ以上の相互作用項を取り込むことができる：
（１＋Ｃ_１，２ｘ_１ｘ_２）×（１＋Ｃ_２，３ｘ_２ｘ_３）×…×（１＋Ｃ_ｍ，ｎｘ_ｍｘ_ｎ）
一部の実施形態において、相互作用項は、非相互作用項と乗算される。他の実施形態において、相互作用項は、非相互作用項との総和により組み合わせることができる。上述の実施形態において、相互作用項同士は、乗算により組み合わされる。代替的な実施形態において、相互作用項同士は、加算により組み合わせることができる。

表Ｉは、目的の４個の位置：１０、１６６、１７５および３４０を有するタンパク質バックボーンおよびバリアントを含む例を提示する。バックボーン残基は、１０におけるＡｌａ、１６６におけるＰｈｅ、１７５におけるＧｌｙおよび３４０におけるＰｈｅである。タンパク質の活性は、バックボーンに対してｙ、バリアントに対してｙ_ｎとして測定される。

＊変化する各位置におけるあらゆる可能なアミノ酸を考慮することができる。この例において、バリアント内の変異のみ（バックボーンに対して）が考慮される。

この例に次の形式で乗法モデルを適用すると、
ｙ_ｎ＝（１＋Ｃ_{１０Ａｓｐ}Ｘ_{１０Ａｓｐ}）^＊（１＋Ｃ_{１０Ｌｙｓ}Ｘ_{１０Ｌｙｓ}）^＊（１＋Ｃ_{１６６Ｓｅｒ}Ｘ_{１６６Ｓｅｒ}）^＊（１＋Ｃ_{１６６Ｌｅｕ}Ｘ_{１６６Ｌｅｕ}）^＊（１＋Ｃ_{１６６Ｉｌｅ}Ｘ_{１６６Ｉｌｅ}）^＊（１＋Ｃ_{１７５Ｖａｌ}Ｘ_{１７５Ｖａｌ}）^＊（１＋Ｃ_{３４０Ａｌａ}Ｘ_{３４０Ａｌａ}）
次のモデルによりバリアント２の予測される活性を得ることができる：
ｙ_２＝（１＋Ｃ_{１０Ａｓｐ} ^＊１）^＊（１＋Ｃ_{１０Ｌｙｓ} ^＊０）^＊（１＋Ｃ_{１６６Ｓｅｒ} ^＊０）^＊（１＋Ｃ_{１６６Ｌｅｕ} ^＊０）^＊（１＋Ｃ_{１６６Ｉｌｅ} ^＊０）^＊（１＋Ｃ_{１７５Ｖａｌ} ^＊１）^＊（１＋Ｃ_{３４０Ａｌａ} ^＊１）
＝（１＋Ｃ_{１０Ａｓｐ} ^＊１）^＊（１＋Ｃ_{１７５Ｖａｌ} ^＊１）^＊（１＋Ｃ_{３４０Ａｌａ} ^＊１）
ただし、モデル方程式は、次のように、可変位置にあらゆるアミノ酸を含むことができる：
ｙ_ｎ＝（１＋Ｃ_{１０Ａｌａ}Ｘ_{１０Ａｌａ}）^＊（１＋Ｃ_{１０Ａｓｐ}Ｘ_{１０Ａｓｐ}）^＊（１＋Ｃ_{１０Ｌｙｓ}Ｘ_{１０Ｌｙｓ}）^＊（１＋Ｃ_{１６６Ｓｅｒ}Ｘ_{１６６Ｓｅｒ}）^＊（１＋Ｃ_{１６６Ｐｈｅ}Ｘ_{１６６Ｐｈｅ}）^＊（１＋Ｃ_{１６６Ｌｅｕ}Ｘ_{１６６Ｌｅｕ}）^＊（１＋Ｃ_{１６６Ｉｌｅ}Ｘ_{１６６Ｉｌｅ}）^＊（１＋Ｃ_{１７５Ｇｌｙ}Ｘ_{１７５Ｇｌｙ}）^＊（１＋Ｃ_{１７５Ｖａｌ}Ｘ_{１７５Ｖａｌ}）^＊（１＋Ｃ_{３４０Ｐｈｅ}Ｘ_{３４０Ｐｈｅ}）^＊（１＋Ｃ_{３４０Ａｌａ}Ｘ_{３４０Ａｌａ}）
バックボーンにおける項は、多くの場合方程式から除外される。多くの場合、本方法は、バリアントの倍数改善（ＦＩＯＰ）を使用してモデルを適合させ、よって、バックボーンアミノ酸係数が０である（バックボーンのｙ＝１であるように）ため、このアプローチは許容できる。

一部の代替的実施形態において、別のアプローチは、位置および関連する変異の一つ一つの組合せに対して係数値が提供されるルックアップテーブルを使用することである。バリアント配列（変異のコレクション）の活性を予測するために、アルゴリズムは、単純に、バリアントに存在する変異を同定し、ルックアップテーブルから変異の関連する係数値を選定する。次に、選択された係数を互いに乗算して、従属変数である予測される活性値を生成する。

図３Ｉ〜図３Ｊは、乗法モデルが、加法モデルよりも良く観測データを適合させて、ある特定の環境下でより高い予測検出力を提供する例を示す。観測データは、タンパク質活性における非常に有害な影響を引き起こす傾向がある変異を有するタンパク質バリアントを含む。図３Ｉは、タンパク質バリアントの訓練セットの観測活性値に対し、非相互作用加法モデルの予測活性値をプロットする。加法モデルの予測が、高い活性値を有する観測に対する有意な過小評価を被ることは明らかである。対照的に、乗法モデルの予測活性値は、加法モデルよりも、図３Ｊに示す通り、観測活性値により良くマッチし、有意により小さい誤差を有する。

（Ｂ．線形加法モデル）
一部の実施形態において、線形モデルは、非線形モデルを作製するための段階的プロセスにおいて、「ベース」モデルとして使用される。一般に、活性対配列の線形回帰モデルは、次の形式を有する：

この一次式において、ｙは予測される応答であり、それに対してｃ_ｉｊおよびｘ_ｉｊは、それぞれ、配列内の位置ｉでの残基選択肢を表すために使用される回帰係数およびビット値またはダミー変数である。タンパク質バリアントライブラリーの配列には、Ｎ個の残基位置があり、これらの各々は、１つ以上の残基によって占有され得る。任意の所与の位置で、ｊ＝１〜Ｍ個の個別の残基タイプがあり得る。このモデルは、全ての位置で残基間の線形（加算）関係を想定する。方程式１の拡張版は、下記の通りである：
ｙ＝ｃ_０＋ｃ_１１ｘ_１１＋ｃ_１２ｘ_１２＋…ｃ_１Ｍｘ_１Ｍ＋ｃ_２１ｘ_２１＋ｃ_２２ｘ_２２＋…ｃ_２Ｍｘ_２Ｍ＋．．．＋ｃ_ＮＭｘ_ＮＭ
示されるように、活性および配列情報の形態のデータは、初期タンパク質バリアントライブラリーから誘導され、モデルの回帰係数を決定するために使用される。ダミー変数は、まずタンパク質バリアント配列のアライメントから同定される。アミノ酸残基位置は、それらの位置でのアミノ酸残基が配列間で異なっている、タンパク質バリアント配列の中から同定される。これらの可変残基位置のいくつかまたは全てにおけるアミノ酸残基情報は、配列−活性モデル内に組み込まれ得る。

表Ｉは、可変残基位置の形をした配列情報と、各バリアントタンパク質に対応する活性値と共に１０個の例示的なバリアントタンパク質に関する残基タイプとを含む。これらは、係数の全てが解かれるよう十分な方程式を生成するために必要な、より大きいセットの代表的なメンバーである。つまり、例えば表ＩＩの例示的なタンパク質バリアント配列では、１０、１６６、１７５、および３４０位が可変残基位置であり、その他全ての位置、すなわち表に示されていないものが、バリアント１〜１０の間で同一である残基を含む。

この例において、この１０種のバリアントは、野生型バックボーン配列を含んでも含まなくてもよい。一部の実施形態において、野生型バックボーン配列を含む全バリアントのデータを説明するよう開発されたモデルは、完全な多重共線性またはダミー変数トラップの問題を導入し得る。様々な技法によりこの問題に取り組むことができる。一部の実施形態は、モデルの開発から野生型バックボーンデータを除外し得る。一部の実施形態は、野生型バックボーンを表す係数を除外し得る。一部の実施形態は、ＰＬＳ回帰等の技法を使用して、多重共線性に取り組み得る。

よって、方程式１に基づき、回帰モデルは、表ＩＩにおける系統的に変化させられるライブラリーから得ることができる、すなわち：
ｙ＝ｃ_０＋ｃ_{１０Ａｌａ}ｘ_{１０Ａｌａ}＋ｃ_{１０Ａｓｐ}ｘ_{１０Ａｓｐ}＋ｃ_{１０Ｌｙｓ}ｘ_{１０Ｌｙｓ}＋ｃ_{１６６Ｓｅｒ}ｘ_{１６６Ｓｅｒ}＋ｃ_{１６６Ｐｈｅ}ｘ_{１６６Ｐｈｅ}＋ｃ_{１６６Ｌｅｕ}ｘ_{１６６Ｌｅｕ}＋ｃ_{１６６Ｉｌｅ}ｘ_{１６６Ｉｌｅ}＋ｃ_{１７５Ｇｌｙ}ｘ_{１７５Ｇｌｙ}＋ｃ_{１７５Ｖａｌ}ｘ_{１７５Ｖａｌ}＋ｃ_{３４０Ｐｈｅ}ｘ_{３４０Ｐｈｅ}＋ｃ_{３４０Ａｌａ}ｘ_{３４０Ａｌａ}（方程式２）
ビット値（ｘダミー変数）は、指定されたアミノ酸残基の存在または不在を反映する１または０のいずれかとして表すことができ、あるいは１または−１、またはいくつかのその他の代理表示とすることができる。例えば、１または０という表示を使用すると、ｘ_{１０Ａｌａ}は、バリアント１に関しては「１」になり、バリアント２に関しては「０」になる。１または−１の表示を使用すると、ｘ_{１０Ａｌａ}は、バリアント１に関しては「１」になり、バリアント２に関しては「−１」になる。したがって回帰係数は、ライブラリー内の全てのバリアントに関する配列活性情報に基づいて、回帰方程式から誘導することができる。バリアント１〜１０に関するそのような方程式の例（ｘに関して１または０の表示を使用）は、下記の通りである：
ｙ_１＝ｃ_０＋ｃ_{１０Ａｌａ}（１）＋ｃ_{１０Ａｓｐ}（０）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（１）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（１）＋ｃ_{１７５Ｖａｌ}（０）＋ｃ_{３４０Ｐｈｅ}（１）＋ｃ_{３４０Ａｌａ}（０）
ｙ_２＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（１）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（１）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（０）＋ｃ_{１７５Ｖａｌ}（１）＋ｃ_{３４０Ｐｈｅ}（０）＋ｃ_{３４０Ａｌａ}（１）
ｙ_３＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（０）＋ｃ_{１０Ｌｙｓ}（１）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（１）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（１）＋ｃ_{１７５Ｖａｌ}（０）＋ｃ_{３４０Ｐｈｅ}（０）＋ｃ_{３４０Ａｌａ}（１）
ｙ_４＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（１）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（１）＋ｃ_{１７５Ｇｌｙ}（０）＋ｃ_{１７５Ｖａｌ}（１）＋ｃ_{３４０Ｐｈｅ}（１）＋ｃ_{３４０Ａｌａ}（０）
ｙ_５＝ｃ_０＋ｃ_{１０Ａｌａ}（１）＋ｃ_{１０Ａｓｐ}（０）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（１）＋ｃ_{１７５Ｇｌｙ}（０）＋ｃ_{１７５Ｖａｌ}（１）＋ｃ_{３４０Ｐｈｅ}（０）＋ｃ_{３４０Ａｌａ}（１）
ｙ_６＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（１）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（１）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（１）＋ｃ_{１７５Ｖａｌ}（０）＋ｃ_{３４０Ｐｈｅ}（１）＋ｃ_{３４０Ａｌａ}（０）
ｙ_７＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（０）＋ｃ_{１０Ｌｙｓ}（１）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（１）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（１）＋ｃ_{１７５Ｖａｌ}（０）＋ｃ_{３４０Ｐｈｅ}（１）＋ｃ_{３４０Ａｌａ}（０）
ｙ_８＝ｃ_０＋ｃ_{１０Ａｌａ}（１）＋ｃ_{１０Ａｓｐ}（０）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（１）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（０）＋ｃ_{１７５Ｖａｌ}（１）＋ｃ_{３４０Ｐｈｅ}（０）＋ｃ_{３４０Ａｌａ}（１）
ｙ_９＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（０）＋ｃ_{１０Ｌｙｓ}（１）＋ｃ_{１６６Ｓｅｒ}（１）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（０）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（１）＋ｃ_{１７５Ｖａｌ}（０）＋ｃ_{３４０Ｐｈｅ}（１）＋ｃ_{３４０Ａｌａ}（０）
ｙ_１０＝ｃ_０＋ｃ_{１０Ａｌａ}（０）＋ｃ_{１０Ａｓｐ}（１）＋ｃ_{１０Ｌｙｓ}（０）＋ｃ_{１６６Ｓｅｒ}（０）＋ｃ_{１６６Ｐｈｅ}（０）＋ｃ_{１６６Ｌｅｕ}（１）＋ｃ_{１６６Ｉｌｅ}（０）＋ｃ_{１７５Ｇｌｙ}（０）＋ｃ_{１７５Ｖａｌ}（１）＋ｃ_{３４０Ｐｈｅ}（０）＋ｃ_{３４０Ａｌａ}（１）
方程式の完全セットを、任意の適した回帰技法（例えば、ＰＣＲ、ＰＬＳまたはＭＬＲ）を使用して容易に解き、目的の各残基および位置に対応する回帰係数の値を決定することができる。この例において、回帰係数の相対的規模は、活性に対する特定の位置における該特定の残基の寄与の相対的規模に相関する。続いて、回帰係数をランク付けしまたは他の仕方でカテゴリー化して、いずれの残基が、所望の活性に有利に寄与する可能性が高いか決定することができる。表ＩＩＩは、表ＩＩに例証される系統的に変化させられるライブラリーに対応する例証的回帰係数値を提示する：

回帰係数のランク順序付けされたリストを使用して、所望の活性に関して最適化された（すなわち、改善された適応度）タンパク質バリアントの新しいライブラリーを構成することができる。これは様々な方法で行うことができる。一実施形態において、それは観測値が最も高い係数を有するアミノ酸残基を保持することによって、実現される。これらは、所望の活性に最も寄与することが回帰モデルによって示される残基である。残基を特定するために負の記述子が用いられる場合（例えば、ロイシンに対して１、およびグリシンに対して−１）、係数の絶対値に基づいて残基位置をランク付けすることが必要になる。そのような状況では、典型的には、各残基に対して単一の係数のみ存在することに留意されたい。係数の大きさの絶対値は、対応する残基位置のランク付けを示す。次いで個々の残基の符号が、それらの各々が所望の活性に関して有害であるか有益であるかを決定するために考慮することが必要となる。

（Ｃ．非線形加法モデル）
非線形モデリングは、タンパク質中の活性に寄与する残基−残基相互作用を説明するために用いられる。Ｎ−Ｋランドスケープは、この問題を記述する。パラメータＮは、関連するポリペプチド配列の収集物における可変残基の数を指す。パラメータＫは、これらポリペプチドの任意のものにおける個々の残基間の相互作用を表す。相互作用は、通常、ポリペプチドが１次、２次、または３次構造であろうとなかろうと、様々な残基同士が物理的に非常に近接していることの結果である。相互作用は、直接的相互作用、間接的相互作用、物理化学的相互作用、フォールディング中間体に起因した相互作用、および翻訳効果等に起因し得る。Ｋａｕｆｆｍａｎ，Ｓ．およびＬｅｖｉｎ，Ｓ．（１９８７年）、「Ｔｏｗａｒｄｓａｇｅｎｅｒａｌｔｈｅｏｒｙｏｆａｄａｐｔｉｖｅｗａｌｋｓｏｎｒｕｇｇｅｄｌａｎｄｓｃａｐｅｓ」、ＪｏｕｒｎａｌｏｆＴｈｅｏｒｅｔｉｃａｌＢｉｏｌｏｇｙ１２８巻（１号）１１〜４５頁を参照されたい。

パラメータＫは、値Ｋ＝１の場合、各可変残基（例えば、それらの２０個が存在する）が、その配列中の正確に１つのその他の残基と相互作用するよう定義される。全ての残基が、他の全ての残基の作用から物理的および化学的に切り離されている場合、Ｋの値はゼロである。明らかに、ポリペプチドの構造に応じて、Ｋは広範な種々の値を有することができる。問題となっているポリペプチドの、厳密に解明された構造により、Ｋに関する値を推定し得る。しかし、しばしば、そのようにはならない。

ポリペプチド活性の純粋に線形の加算モデル（上述の通り）は、２つ以上の残基間の特定の相互作用を表す１つ以上の非線形相互作用項を含めることによって改善することができる。上記にて提示されたモデル形態の文脈において、これらの項は、活性に対して有意な正または負の影響を及ぼすように相互作用する２つ以上の特定の残基（各々、配列中の特定の位置に関連付けられている）を表す２つ以上のダミー変数を含む「外積」として示される。例えば、外積項は形式ｃ_ａｂｘ_ａｘ_ｂを有し得、式中、ｘ_ａは、配列上の特定の位置で特定の残基の存在を表すダミー変数であり、変数ｘ_ｂは、ポリペプチド配列における（最初の位置と相互作用する）異なる位置での特定の残基の存在を表す。モデルの詳細な例の形は、以下に示される。

外積項で表される全ての残基の存在（すなわち、特に同定された位置での、２つ以上の特定タイプの残基の各々）は、ポリペプチドの全体的な活性に影響を及ぼす。その影響は、多くの方法で明らかにすることができる。例えば、個々の相互作用する残基の各々は、ポリペプチド中に単独で存在する場合、活性に対して負の影響を及ぼし得るが、それらがポリペプチド中に存在する場合には、全体の効果が正である。反対のことが、その他の場合に言える。さらに、相乗効果がもたらされる可能性があり、その場合、単独の個々の残基の各々が活性に対して比較的限られた影響を及ぼす場合に、それら全てが存在する場合に、活性に対する効果は、個々の残基全ての累積的効果よりも大きい。

一部の実施形態において、非線形モデルは、配列中の相互作用する可変残基の全ての可能な組合せに関する、外積項を含む。しかしこれは、可変残基の部分セットしか互いに実際に相互作用しないので、物理的現実を表さない。さらに、それは、モデルの生成に使用される特定のポリペプチドの現れであり、ポリペプチド内の実際の相互作用を表さない、誤った結果をもたらすモデルを生成する「過剰適合」をもたらすと考えられる。物理的現実を表しかつ過剰適合を回避するモデルに関する、外積項の正しい数は、Ｋの値によって示される。例えば、Ｋ＝１の場合、外積相互作用項の数はＮに等しい。

非線形モデルの構築において、一部の実施形態において、活性に有意な影響を有する真の構造的相互作用を表す外積相互作用項を同定することが重要である。これは、項の加算が統計学的に有意でなくなるまで候補外積項が初期線形のみのモデルに１つずつ加算される、フォワード加算と、初期モデルにおいてあらゆる可能な外積項が提供され１つずつ除去される、リバース減算が挙げられるがこれらに限定されない、様々な仕方で達成することができる。以下に提示する例証的な例は、有用な非線形項を同定するための段階的加算および減算技法の使用を含む。

一部の実施形態において、そのような相互作用項を含む非線形モデルを生成するアプローチは、線形モデルを生成するための上述のアプローチと同じである。言い換えれば、訓練セットを用いてデータをモデルに「適合させる」。しかし、１つ以上の非線形項、好ましくは上記にて論じた外積項をモデルに追加する。さらに、得られる非線形モデルは、上述の線形モデルと同様に、ポリペプチドの全体的な活性に対する様々な残基の重要性をランク付けするために用いることができる。様々な技法は、非線形方程式により予測されるような、可変残基の最良の組合せを同定するために使用することができる。残基をランク付けするアプローチを、以下に記載する。一部の実施形態において、僅か２つの残基によって引き起こされる相互作用に限定された場合であっても、可変残基に関する非常に多くの数の可能な外積項を使用する。より多くの相互作用が生ずるにつれ、非線形モデルに考慮される潜在的な相互作用の数は、指数関数的に増大する。モデルが、３つ以上の残基を含む相互作用の可能性を含む場合、潜在的な項の数は、さらに、より素早く増大する。

２０個の可変残基がありＫ＝１である（これは、各可変残基が他の１つの可変残基と相互作用すると仮定する）単純な例証的な例において、２０個の相互作用項（外積）がモデル内にあるべきである。任意のより少ない相互作用項がある場合、モデルは、相互作用について完全には記述しないことになる（しかし、相互作用のいくつかは、活性に対して著しい影響を及ぼさないこともある）。対照的に、任意のより多くの相互作用項がある場合、モデルはデータセットに過剰適合し得る。この例において、Ｎ×（Ｎ−１）／２、すなわち１９０の可能な相互作用の対がある。配列中の２０の相互作用について記述する２０の固有の対の組合せを見出すことは、約５．４８×１０^２６の可能な組合せがあるので、計算上の著しい問題である。

関連ある外積項を同定するために、非常に数多くの技法を用いることができる。問題のサイズおよび利用可能な計算力に応じて、全ての可能な組合せを調査することが可能であり、それによって、データに最も良く適合する１つのモデルが同定される。しかし、しばしば、問題は計算上生じる。従って、一部の実施形態において、効率的な探索アルゴリズムまたはその近似が利用される。本明細書に示される、１つの適切な探索技法は、段階的技法である。しかし本発明は、関連ある外積項を同定するための任意の特定の方法に限定するものではない。

例証的な例を下の表ＩＶに提示して、配列情報から活性を予測するモデルにおける取り込み型非線形外積項の値を示す。この例は、配列における各可変位置に２残基オプションのみが存在すると仮定される非線形モデルである。この例において、＋１および−１を使用して、選択Ａまたは選択Ｂに対応するダミー変数をそれぞれ使用することにより、タンパク質配列をコード配列に入れる。モデルは、各残基選択を割り当てるためにどの数値が使用されるかに関する任意選択に影響されない。表ＩＶの第１行に示す可変位置は、タンパク質配列の実際の配列位置を示さない。その代わりに、これは、残基選択Ａおよび残基（Ｒｅｓｉｄｕａｌ）選択Ｂに関する表ＩＶの第２および第３行に示す２つのオプションのうち一方により変化させられ得る、タンパク質配列における任意の１０個の仮説上の位置を表す任意標識である。

このコードスキームにより、活性とタンパク質配列との関連付けに使用される線形モデルは、次の通りに表すことができる：
ｙ＝ｃ_１ｘ_１＋ｃ_２ｘ_２＋ｃ_３ｘ_３…＋ｃ_ｎｘ_ｎ＋…＋ｃ_Ｎｘ_Ｎ＋ｃ_０（方程式３）
式中、ｙは、応答（活性）であり、ｃ_ｎは、ｎ位における残基選択のための回帰係数であり、ｘは、ｎ位における残基選択（＋１／−１）をコードするダミー変数であり、ｃ_０は、応答の平均値である。モデルのこの形式は、可変残基間に相互作用がないことを仮定する（すなわち、各残基選択は、タンパク質の全体の適応度に独立的に寄与する）。

非線形モデルは、ある特定の数の（未だ決定されていないため）外積項を含み、残基間の相互作用を説明する：
ｙ＝ｃ_１ｘ_１＋ｃ_２ｘ_２＋ｃ_３ｘ_３＋…＋ｃ_ｎｘ_ｎ＋ｃ_１，２ｘ_１ｘ_２＋ｃ_１，３ｘ_１ｘ_３＋ｃ_２，３ｘ_２ｘ_３＋…＋ｃ_０（方程式４）
式中、変数は、方程式（３）と同じものであるが、この式には非線形項が存在し、例えば、ｃ_１，２は、変数の位置の１と２との間の相互作用の回帰係数である。

線形および非線形モデルの性能を評価するために、ＮＫランドスケープとして公知の合成データ源を使用した（ＫａｕｆｆｍａｎおよびＬｅｖｉｎ、１９８７年）。上述のように、Ｎは、シミュレーションがなされるタンパク質における可変位置の数であり、Ｋは、残基同士の上位カップリングである。さらに合成データセットは、ｉｎｓｉｌｉｃｏで生成された。

このデータセットは、Ｓ＝４０個の合成試料、Ｎ＝２０個の可変位置、およびＫ＝１を有する初期訓練セットを生成するために使用した（繰り返すために、Ｋ＝１の場合、各可変位置を機能的に別の１つの可変位置に連結する）。ランダム化タンパク質生成する際、各可変位置は、ダミー変数＋１または−１を含む均等な確率を有していた。残基−残基相互作用（外積によって表される）および実際の活性は、合成訓練セットの各メンバーに関して既知であった。別のＶ＝１００個の試料が、検証で使用するために生成された。この場合も、残基−残基相互作用および活性は、検証セットの各メンバーに関して既知であった。

訓練セットを使用して、線形および非線形モデルの両方を構成した。いくつかの非線形モデルは外積項の選択により生成し、その他の非線形モデルはそのような項の選択なしに生成した。図３Ａ〜Ｆのモデルは、遺伝的アルゴリズムモデリング法を使用して生成し、一方、図Ｇ〜Ｈに関するモデルは、段階的モデリング法を使用して生成した。線形項のみ有するモデルに対する、線形および非線形項の両方を有するモデルの定量的利点は、遺伝的アルゴリズムと段階的モデリング法とでは異なるが、その結果は、モデリング法とは無関係に、非線形項を持つモデルの一般化可能な利点を示す。事実、本発明は、任意の適切なモデリング法には本発明での用途があるので、任意の特定の方法に限定されるものではない。

上述のＳ＝４０の訓練セットサイズでは、線形モデルは、測定値および予測値を十分合理的に相関させることが可能であったが、訓練セットで見られないデータに対して検証した場合、より弱い相関を実証した（図３Ａ参照）。図示されるように、暗色のデータポイントは、線形モデルによりなされた予測に対する、４０個の訓練データポイントで観察された活性を表す。明色データポイントは、４０個の訓練試料から構成されかつ検証試料Ｖを予測するために使用された、同じモデルによりなされた予測を表すが、これらは当初の訓練セットでは見られなかったものである。検証セットは、特に以下に記載される非線形ケースに関するモデルの過剰適合の問題に悩まされ得る訓練セットとは対照的に、モデルの真の予測能の良好な尺度を提供する。

上述のＳ＝４０訓練セットに関するこの結果は、線形モデルが非線形適応度ランドスケープをモデル化するために使用されたことを考慮すれば、注目に値する。この場合、線形モデルは、せいぜい、所与の残基の選択に関する適応度への平均的な寄与を捕えることができたにすぎない。組合せで考慮される十分な数の平均的寄与があるとすれば、線形モデルは、実際に測定された応答を大まかに予測する。線形モデルの検証結果は、訓練サイズがＳ＝１００に増大した場合、僅かに良好であった（図３Ｂ参照）。比較的単純なモデルがデータをアンダーフィット（ｕｎｄｅｒｆｉｔ）する傾向は、「バイアス」として公知である。

非線形モデルが、Ｓ＝４０試料のみ使用して訓練された場合、訓練セットのメンバーとの相関は優れていた（図３Ｃ参照）。残念ながら、この例証的な例において、モデルは、検証セットで測定された値とのその限定された相関により証明されるように、訓練セット外で限られた予測検出力を提供した。多くの潜在的な変数（おそらく２１０）を有しかつ適正な外積項の同定を容易にするために限られた訓練データを有するこの非線形モデルは、本質的に、訓練されるデータセットを覚えることのみできた。非常に複雑なモデルがデータに過剰適合するこの傾向は、「分散」として公知である。バイアス分散トレードオフは、マシン学習での基本的な問題を表し、ある形態の検証は、新しいまたは特徴付けられていないマシン学習の問題を取り扱う場合にそれに対処することをほぼ常に求められる。

しかし、図３Ｄに示されるように、より大きい訓練セット（Ｓ＝１００）を使用して非線形モデルが訓練された場合、非線形モデルは、訓練予測およびより重要なことには検証予測の両方に関して非常にうまく機能した。検証予測は、訓練セットをプロットするために使用される暗色円形によってデータポイントのほとんどが曖昧になるほど、十分正確であった。

比較のため、図３Ｅおよび３Ｆは、外積項を慎重に選択することなく調製された非線形モデルの性能を示す。図３Ｃおよび３Ｄのモデルとは異なって、全ての可能な外積項が選択された（すなわち、Ｎ＝２０に関して１９０個の外積項）。これらの図に示されるように、検証セットの活性を予測する能力は、外積項を慎重に選択することにより生成された非線形モデルの場合に比べて比較的不十分である。検証データを予測するこの不十分な能力は、過剰適合を明示している。

図３Ｇおよび３Ｈは、それぞれ、ｉｎｓｉｌｉｃｏでシミュレーションがなされたデータに関する線形モデルと段階的な非線形モデルとの残余によって示される予測検出力を示す。段階的な非線形モデルは、一般には上述のようにかつより具体的には以下のように実現される。

これらのモデルを試験するために、シミュレーションがなされるデータを生成した。乱数発生器Ｒを、平均ＭＮおよび標準偏差ＳＤを有する正規分布に基づいて生成した。次いでの一組の１０個の変異を定義した。これらの呼称は、Ｍ１、Ｍ２．．．Ｍ１０（この呼称スキームは任意である）であった。このステップは、多様性の生成をシミュレートする。

各変異は、タンパク質配列中の所与の位置でのアミノ酸の変化を表し、各位置は、他の位置から独立している。上記各変異は、Ｒ（ＭＮ＝０、ＳＤ＝０．２）に基づいて割り当てられたランダムな活性値Ａを有していた。上記の６つの変異が選択され、一緒に対にして、３つの対Ｐにした。これらの対は、変異間の上位相互作用を表した。

活性値ＡＰを、Ｒ（ＭＮ＝０、ＳＤ＝０．２）に基づいて各対Ｐに割り当てた。５０バリアントのライブラリーＬを構成し、各バリアントは、乱数個の上記にて定義された変異Ｍを含んでいた−変異の乱数は、丸めた絶対値Ｒ（ＭＮ＝４、Ｓ＝０．２５）により定義された。このステップは、ライブラリーの構築およびシーケンシングをシミュレートする。

Ｌにおける各バリアントの活性は、最初に１．０（野生型の定義された活性、変異配列なし）に、各ペアワイズ変異ＰＡからの活性（両方の変異が存在する場合）の値を加え、その後、残りのシングルの変異（Ａ）の値を加えることによって計算した。アッセイのノイズを、各バリアントに関する最終値にＲ（ＭＮ＝０、ＳＤ＝０．００５）からのランダム値を加えることによってシミュレートした。このステップは、バリアントのスクリーニングをシミュレートする。

線形モデルＬＭは、最後のステップからのデータに基づいて構成した。このモデルは１０個の独立した変数／係数を含み、各々は、Ｍのうちの１つの変異を表していた。次いで最小二乗法回帰および上記にて得られたデータを使用して、線形モデルを適合させた。

段階的加算法を使用して、上記にて得られたデータに基づきモデルＭＭを選択し、ここでベースモデルはＬＭであり、ＡＩＣを選択基準として使用し、シングルの変異およびペアワイズ相互作用を表す係数のみ含むモデルを選択した。モデル選択法のさらなる詳細については、以下のモデル選択に関する記載を参照されたい。ＡＩＣによって選択された最良のモデルを、最小二乗法回帰を使用して適合させた。

線形モデルおよび非線形モデルの予測能を評価するために、上述の手順を２０回繰り返した。モデルの予測を、シミュレートされたデータに対してプロットしたが、図３Ｇは線形モデルを示し、図３Ｈは段階的非線形モデルを示す。モデルを使用して、上述のシングル変異の値を予測した。この予測は、目的のただ１つの変異を含むバリアントを予測するために、モデルを使用し、１．０（野生型）を差し引くことによって行った。図３Ｇおよび３Ｈから明らかなように、非線形モデルは、値をより正確に予測し、線形傾向を有しかつより小さい残余を有する。

（Ｄ．モデル選択）
ベース配列活性モデルを作製した後に、プロセスは、モデルの項における係数の値を調整して、モデル予測と観測されたデータとの間の残余誤差を最小化することにより、モデルを精密化する。ブロック１０７を参照されたい。この種類の調整は、モデル適合とも称される。当技術分野において公知のモデル適合の様々な方法を使用することができる。例えば、遺伝的アルゴリズムを使用して、係数の値を調整することができる。加法モデルに関して、様々な回帰技法を使用して、モデルを適合させることができる。

本発明の一部の実施形態において、プロセスは、また、残余誤差を最小化し、および／またはモデルの予測検出力を改善することができるように、モデルに含むまたはモデルから除外するために適切な項を選択することにより、モデルを精密化する。ブロック１０７を参照されたい。考慮されているモデルは、全てが項の同じプールから選択された項を有するので、この精密化プロセスは、ネステッドモデルの間のモデル選択としても公知である。本発明の一部の実施形態は、遺伝的アルゴリズムを使用して、適切な項を選択する。その上またはそれに代えて、本発明の一部の実施形態は、利用できる相互作用項のプールからの相互作用項を、ベースモデルにまたはこれから反復的に加算または減算し、ベースモデルを上回る改善に関して得られた新たなモデルを評価して、最終モデルを生成する。

モデルの予測検出力を改善するためのモデル係数値の調整およびモデル項の選択は、両者共に、モデル最適化技法として公知である。ブロック１０５および１０７における作業に従って配列−活性モデルを作製するための例示的なアルゴリズムを以下に提示する。このような技法として、モデルにおける追加の相互作用項の包含に対する否定的な偏りを伴う遺伝的アルゴリズムおよび段階的技法が挙げられるがこれらに限定されない。しかし、本開示が、これらの具体例に限定されることは企図されない。

（遺伝的アルゴリズム）
本発明の一部の実施形態は、遺伝的アルゴリズムを使用して、配列−活性モデルの１つ以上の項を選択する方法を提供する。他の実施形態は、遺伝的アルゴリズムを使用して、得られたデータにモデルが適合するように係数の値を調整する方法を提供する。

遺伝的アルゴリズムにおいて、適切な適応度関数および適切な交配手順が定義される。適応度関数は、いずれのモデル（外積項の組合せ）が「最も適合」するか、または最高の予測検出力を有する（すなわち、最良の結果をもたらす可能性が高い）かを決定するための基準を提供する。一部の実施形態において、アルゴリズムは、パラメータ空間を通して検索して、パラメータ（すなわち、配列−活性モデルの係数）の最適値を見出すための機構を提供する。これらの実施形態において、集団の個体または染色体の各々は、検査中のあらゆる係数を表す遺伝子と、係数のための定義された範囲内の選ばれた値を有する遺伝子を含む。例えば、染色体は、０．４の値を有する、Ｇｌｙの係数を表す遺伝子を１３１位に有することができる。

一部の実施形態において、遺伝的アルゴリズムを使用して、モデルのために適切な項を選択することもできる。このようなアルゴリズムの一例は、全個体／染色体が、全適格パラメータ（係数）を表す全遺伝子を含み、遺伝子の値が、０の値の仮定を許されることを除いて、以前の例と同様であり得る。アルゴリズムの終わりに最適合個体の間のある項に関して係数が０に収束する場合、その項は、モデルから除外される。逆に、その項は保存される。

他の実施形態において、交配手順は、以前の世代における成功した「親」モデルから相互作用項の新たな組合せを導入するための機構を提供する。

遺伝的アルゴリズムの一例は、係数の値を調整し、必要に応じて適した項を選択して、モデルの予測検出力を最大化することによって、データにモデルを適合させる。この例は、図１Ｂを参照して説明される。このアルゴリズムは、全てが係数の変数値を有する複数の可能なモデルを含む第一世代から始まり、一部のモデルは、物理的実在性を表すジョブをその他のモデルよりも良く行う。ブロック１３１を参照されたい。第一および各後続世代は、「集団」における多数のモデル（個体または染色体とも称される）として表される。各モデル／染色体は、この世代において検査される全項の係数値を表す遺伝子を含む。遺伝的アルゴリズムは、各々が配列−活性モデルの項の係数に対する値の異なるセットによって特徴付けられるモデルの後続世代を通って前進することにより、収束に向けて進む。

世代における各モデルの適応度は、ポリペプチド（既知の配列および関連する活性を有する）の訓練セットに対して計算される。図２のブロック１３３、１３５、１４１および１４３を参照されたい。一部の実施形態において、適応度は、平均二乗誤差により測定される。他の実施形態において、適応度は、尤度により測定される。追加の実施形態において、適応度は、ＡＩＣまたはＢＩＣにより測定される。

特定の世代における項の各組合せをその予測検出力に関して評価した後（すなわち、決断１４３が、いいえと解答される）、収束または他の基準（固定された数の世代等）に関して遺伝的アルゴリズムをチェックして、さらなる世代のためにプロセスを続けるべきか否かを決定する。ブロック１４５を参照されたい。遺伝的アルゴリズムが、停止するための基準を未だ満たしていない場合、現世代のモデルをランク付けする。活性を予測する最良のジョブを行うものを保存し、次世代において使用することができる。ブロック１４７を参照されたい。例えば、１０％のエリート主義（ｅｌｉｔｉｓｍ）率を用いることができる。換言すれば、モデルの上位１０％（適合関数を使用して決定され、例えば、平均二乗誤差またはＡＩＣにより測定される）を確保して、次世代のメンバーとする。次世代におけるメンバーの残りの９０％は、前の世代からの「親」を交配することにより得る。ブロック１４９、１５１および１５３を参照されたい。

示されている通り、「親」は、前の世代から選択されたモデルである。ブロック１４９を参照されたい。一般に、その選択においてランダム要素が存在し得るが、選択は、前の世代のより適合したメンバーに向けてより大きく重み付けられる。例えば、線形重み付け（例えば、別のモデルよりも１．２倍成績が良いモデルは、選択される可能性が２０％高い）または幾何的重み付け（すなわち、モデルにおける予測差は、選択の確率を得るために累乗される）を使用して、親モデルを選択することができる。一部の実施形態において、親は、前の世代におけるモデルのランク付けから最良の成績の２個以上のモデルを単純に選ぶことにより選択され、他のモデルは選択されない。これらの実施形態において、先の世代から選択された全モデルを交配する。他の実施形態において、次世代モデルにおいて含むために交配することなく先の世代からの一部のモデルを選択し、先の世代からの他のより成績の悪いモデルを親としてランダムに選択する。これらの親は、互いにおよび／または次世代において含むために選択されたより成績の良いモデルと交配され得る。

親モデルのセットを選択した後に、一方の親からの一部の遺伝子（係数値）および他方の親からの他の係数値を提供することにより、このようなモデルのペアを交配して（ブロック１５１）子供モデルを提供する。１アプローチにおいて、続いて、２つの親の係数が整列させられ、各値が、子供が親Ａからの項を採用すべきか、または親Ｂからの項を採用すべきかを決定するために考慮される。一実装において、交配プロセスは、親Ａから始まり、遭遇した第１の項において「クロスオーバー」事象を行うべきか否かをランダムに決定する。行う場合、親Ｂから項を取り出す。行わない場合、親Ａから項を取り出す。続いて、次の項がクロスオーバーに関して考慮される、等々。クロスオーバー事象が生じるまで、項は、検討中の以前の項を供与する親によってもたらされ続ける。その時点で、次の項は、他の親から供与され、全ての後続の項は、別のクロスオーバー事象が行われるまでその親から供与される。子供モデルにおいて、２つの異なる場所において同じ項が選択されないことを確実にするため、様々な技法、例えば、部分的適合クロスオーバー技法を用いることができる。一部の実施形態において、いずれかの親からの遺伝子の係数値を使用する代わりに、子供染色体のために遺伝子の値の平均を採用することができる。

本発明の一部の実施形態において、遺伝的アルゴリズムは、モデルのさらなる多様性を作製するために、１つ以上の変異機構も用いる（ブロック１５２）。それは、親世代におけるどんな現存する遺伝子によってもカバーされないパラメータ空間の領域の探索に役立つ。その一方で、変異機構は、変異率が高いほど、または変異範囲が広いほど、収束（仮にあるとしても）に要する時間が長くなるように、収束に影響を与える。一部の実施形態において、変異は、染色体／モデルのランダム選択および前記染色体の係数のランダム選択により実装され、そして、これはランダムに変化させられる。一部の実施形態において、係数のランダムに変化させられた値は、定義された範囲によるランダム均一分布から導かれる。他の実施形態において、係数のランダムに変化させられた値は、定義された範囲によるランダム正規分布から導かれる。

各相互作用項を考慮した後に、次世代のために子供「モデル」が定義される。そして、別の２つの親を選んで、別の子供モデルを生成する、等々。最終的に、この様式で全部の世代を選択した後に（ブロック１５３）、評価およびプロセス管理のための次世代の準備が整い、続いてブロック１３３に戻り、上述の通りに次世代のメンバーを評価する。

停止基準（ｃｒｉｔｉｅｒｉｏｎ）を満たす（すなわち、決断ブロック１４５が、はいと解答される）まで、プロセスを世代毎に続ける。その時点で、全体の最良のモデルとして、現世代から上位ランクのモデルのうち少なくとも１つを選択する。ブロック１５５を参照されたい。多くの従来技法により収束を検査することができる。一般に、これは、多数の後続世代からの最良のモデルの性能が、大幅に変化しないことの決定を含む。決断基準または収束の例として、これまでに生成された世代の数、現ライブラリーからの上位タンパク質の活性、所望の活性の規模およびモデルの最後の世代において観測された改善のレベルが挙げられるがこれらに限定されない。

次に例を提示して、モデルの係数の値を調整することによりモデルを精密化するための遺伝的アルゴリズムの使用を示す。各モデルに対して、各可能な変異に対して（すなわち、モデルにおける各項に対して）係数を選択する。ある特定の最大および最小境界内で、シード集団における係数値をランダムに選択する。次に、各モデルを使用して、バリアントの訓練セットにおける各バリアント配列からの活性を予測する。所定のモデルに対して、活性の全計算値を活性の観測に対して比較し、平均二乗誤差の残余を生成する。第一世代におけるランダムに生成されたモデルの各々に対してこの手順を行う。最小の残余誤差を有するモデルを、次世代において含むために選択する。

この例に対して、遺伝的アルゴリズムは、個々の染色体に予想される活性を計算するためのモデル方程式を使用して、各染色体の適応度を評価する。
ｙ_ｎ＝（１＋Ｃ_{１０Ａｓｐ}Ｘ_{１０Ａｓｐ}）^＊（１＋Ｃ_{１０Ｌｙｓ}Ｘ_{１０Ｌｙｓ}）^＊（１＋Ｃ_{１６６Ｓｅｒ}Ｘ_{１６６Ｓｅｒ}）^＊（１＋Ｃ_{１６６Ｌｅｕ}Ｘ_{１６６Ｌｅｕ}）^＊（１＋Ｃ_{１６６Ｉｌｅ}Ｘ_{１６６Ｉｌｅ}）^＊（１＋Ｃ_{１７５Ｖａｌ}Ｘ_{１７５Ｖａｌ}）^＊（１＋Ｃ_{３４０Ａｌａ}Ｘ_{３４０Ａｌａ}）
染色体／モデル２に関し、予想される活性ｙ＝（１＋１．１５）^＊（１−０．００１）^＊（１＋１．０）。モデルのこの予想される活性を観測される配列活性に対して比較し、平均二乗誤差（ＭＳＥ）から個体の適応度を計算する。

次に、遺伝的アルゴリズムは、現世代の最低ＭＳＥを有する上位２０％モデルを選ぶ。典型的には、次世代は、前の世代から選択されたモデルの交配を含む。交配は、単純に、一方の「親」モデルから一部の係数を選択し、異なる「親」から残りの係数を選択することを含み得る。項の選択は、「クロスオーバー」または他の遺伝的操作として行うことができる。

次に、次世代モデル（交配により生成）は、各々がバリアントの訓練セットにおける活性を予測するために使用される。予測される活性を活性の観測された値に対して比較し、残余誤差が生成される。交配および選択のさらなる世代のために、最良の活性を有する第二世代モデルを選択する。モデル性能が収束するまでプロセスを続ける。例えば、遺伝的アルゴリズムは、５０〜１００世代に対して実行する。その時点で、全体の最良のモデルとして、現世代から上位ランクのモデルのうち少なくとも１つを選択する。最適合モデルは、配列−活性モデルのための係数の値を決定する。

（段階的選択）
一部の実施形態において、段階的加算または減算方法を使用して、相互作用項を有するモデルを調製する。図１のブロック１０７に示す作業を実装することにより、相互作用項を含む高い予測検出力を有する最終モデルが、ベースモデルからの相互作用項の段階的加算または減算により提供される。

図４Ａは、相互作用項をベースモデルに加え、新しいモデルを評価して最終的な最良モデルを生成ることによって、図１のブロック１０７の動作を実装するフローチャートを提供する。

この例において、ベース配列モデルに相互作用項は含まれない。方法は、まず現行の配列モデルおよび最良の配列モデルをブロック４０９でベース配列モデルに設定する。方法は、配列バリアントに対する相互作用項のプールを定義する。これらの相互作用項は、２つ以上のアミノ酸残基の、任意の数のペアワイズまたはより高次の相互作用を含み得る。ブロック４１１を参照されたい。ブロック４０９はブロック４１１の前に行われるとして示されているが、２つのステップの順序は重要ではない。一部の実施形態において、相互作用項のプールには、目的の全てのアミノ酸残基の階乗組合せが含まれる。一部の追加の実施形態において、少なくとも全てのペアワイズ相互作用項が含まれる。一部のさらなる実施形態において、ペアワイズおよび三元相互作用項が含まれる。

ベースモデルの生成後、方法は、プールから、まだ試験されていない相互作用項を選択する。次いで方法は、選択された相互作用項を現行の配列モデルに加えることによって、新しい配列モデルを生成する。ブロック４１３を参照されたい。次いで方法は、追加の相互作用項を含むことに対して否定的な偏りを有するモデル選択法を使用して、新しい配列モデルの予測検出力を評価する。ブロック４１５を参照されたい。方法は、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きいか否かを決定する。決定ブロック４１７を参照されたい。例として、方法は、モデル選択基準として「尤度」決定（例えば、ＡＩＣ）を用いる技法を使用し得る。そのような場合、先に試験されたモデルよりも小さいＡＩＣ値を有するモデルだけが、より高い予測検出力を有すると見なされる。

一部の実施形態において、選択法は、より多くのパラメータを持つモデルに対する否定的な偏りを伴う。そのような選択法の例には、赤池の情報量基準（（ＡＩＣ））およびベイズ情報量基準（（ＢＩＣ））およびそれらのバリエーションが含まれるが、これらに限定するものではない。例えば、ＡＩＣは：
ＡＩＣ＝−２ｌｏｇ_ｅＬ＋２ｋ
として計算することができ、式中、Ｌは、データセットが与えられたモデルの尤度であり、ｋはモデル内の自由パラメータの数である。

一部の実施形態において、データセットを与えられるモデルの尤度は、最尤法が含まれるがこれに限定されない様々な方法によって計算され得る。例えば、１つの観測に対して活性が存在するまたは存在しないバイナリー従属変数に対して、モデルの尤度を：

として計算することができ、式中、ｎはデータセットにおけるデータポイントの総数であり；ａ_ｉおよびｂ_ｉは、ｉ回目の状態を含む、観測された試験の数であり；ｐは、モデルにより予測された通り観測された従属変数の確率である。

ベースモデルよりも漸進的に多くの相互作用項（および関連する係数）を持つ回帰モデルとして一連のネステッドモデルを含む一部の実施形態において、余分な係数が偽性の場合であっても、より複雑なモデルが、より単純なモデルに対して等しく良好なまたはより良好な適合を提供するが、それはより複雑なモデルが過度な自由度を享受するからである。一部の実施形態において、ＡＩＣは、適合度の利得が偽性のパラメータのコストによって相殺されるよりも大きい程度にまで、より複雑なモデルにペナルティーを科す。モデル選択では、より小さい値のＡＩＣがより良好なモデルであることを示す。

図４Ａに示される例において、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きい場合、方法は、新しいモデルを最良のモデルとして設定する。ブロック４１９を参照されたい。次いで方法は、試験されていない任意の追加の相互作用項が、プール内に残されているかをチェックする。決定ブロック４２１を参照されたい。もしそうなら、プロセスを元のブロック４１３に戻し、それによって内側ループを形成して、相互作用プール内で利用可能な利用可能相互作用項の全てを試験する。内側ループの反復を通して、単一の最良の相互作用項を見出すことができ、これをモデルに加えることができる。

全ての相互作用項を試験しかつ内側ループを終了した後、先の最良のモデルよりも大きい予測検出力を有するモデルが存在するなら、１つの追加の相互作用項を有する最良のモデルが同定される。決定ブロック４２３を参照されたい。そのような実施形態において、方法は、現行モデルを最良モデルに設定し、相互作用項の利用可能なプールから最良モデルの相互作用項を除外する。ブロック４２５を参照されたい。次いで方法は、元のブロック４１３にループされる。この外側ループは、モデルの予測検出力を改善することができる次の最良の相互作用項を探索する。そのような相互作用項が見出された場合、次の最良の相互作用項の探索は、先の最良の配列モデルの予測検出力よりも大きい予測検出力を有する新しいモデルが同定されなくなるまで、外側ループで継続される。

モデルを改善する相互作用項をもはや見出すことができない場合、方法は、最良モデルを最終モデルとして設定する。ブロック４２７を参照されたい。配列データおよび活性データが与えられた最良モデルの探索は、終了する。次いでモデルを使用して、新しい配列の活性を予測する。そのような予測は、さらなるバリエーションおよび試験に対して配列の選択を誘導することができる。

ある特定の実施形態において、相互作用項のプールにおける利用可能な相互作用項の各々は、モデルの品質または予測検出力に、潜在的に等しい影響を及ぼすように処理される。言い換えれば、実装に際し、プール内の利用可能な相互作用項の各々は、特定の反復中に、検討のために等しく選択される可能性がある。一部の実施形態において、利用可能な相互作用項は、ランダムにまたはいくつかの任意の順序で選択される。一部の他の実施形態において、相互作用項は、いくつかの項が所与の反復中に他のものよりも検討のためにより選択され易くなるように、偏りをもたされまたは重み付けられる。偏りまたは重み付けは、ある特定の実施形態において、相互作用に関する物理的または理論的情報に基づいて適用されることができる。例えば、タンパク質の２つの特定領域における変異が互いに物理的に近接する傾向にあり、それによって相互作用することは、公知であり得る。これら２つの一般領域における残基に関する相互作用項は、モデルを精緻化する反復プロセス中に、選択のために偏りをもたされることができる。

図４Ａのプロセスに類似したプロセスを示す擬似コードは、下記の通りである：
ＳＥＴＣｏｅｆｆ＝ＩｎｔｅｒａｃｔｉｏｎＴｅｒｍｓｔｏＴｅｓｔ
Ｂｅｓｔ＝ＢａｓｅｌｉｎｅＭｏｄｅｌ
ｃｏｕｎｔ＝１
ＷＨＩＬＥｃｏｕｎｔ＞０
ｃｏｕｎｔ＝０
ＢｅｓｔＦｒｏｍＲｏｕｎｄ＝Ｂｅｓｔ
ＢｅｓｔＣｏｅｆｆｉｃｉｅｎｔ＝ＮＵＬＬ
ＦＯＲｅａｃｈＩｎｔｅｒａｃｔｉｏｎＴｅｒｍｉｎＣｏｅｆｆ
ＴｅｓｔＭｏｄｅｌ＝（ｂｅｓｔ＋ＩｎｔｅｒａｃｔｉｏｎＴｅｒｍ）^１
ＩＦＴｅｓｔＭｏｄｅｌＢＥＴＴＥＲＴＨＡＮＢｅｓｔＦｒｏｍＲｏｕｎｄＴＨＥＮ^２
ＢｅｓｔＦｒｏｍＲｏｕｎｄ＝ＴｅｓｔＭｏｄｅｌ
Ｃｏｕｎｔ＋＋
ＢｅｓｔＣｏｅｆｆｉｃｉｅｎｔ＝ＩｎｔｅｒａｃｔｉｏｎＴｅｒｍ
ＥＮＤＩＦ
ＥＮＤＦＯＲ
ＩＦｃｏｕｎｔ＞０ＴＨＥＮ
Ｂｅｓｔ＝ＢｅｓｔＦｒｏｍＲｏｕｎｄ
ＲｅｍｏｖｅＢｅｓｔＣｏｅｆｆｉｃｉｅｎｔＦＲＯＭＣｏｅｆｆ^３
ＥＮＤＩＦ
ＥＮＤＷＨＩＬＥ
項目１は、試験相互作用項を回帰モデルに加える
項目２は、モデルの比較を表し、赤池の情報量基準（ＡＩＣ）、ベイズ情報量基準（ＢＩＣ）、交差検証（平均誤差）、ＡＮＯＶＡ、または係数寄与の１つまたは複数を表す。
項目３は、二重の相互作用項試験を回避するために提供される
図４Ｂは、図１のブロック１０７に示される操作の実施形態を示すフローチャートを提供する。このプロセスでは、最終的な最良モデルを生成するために、相互作用項が、項のプールからの全ての可能な相互作用項を含むベースモデルから差し引かれる。

この実施形態において、ベース配列モデルは、定義されたプール内の全ての相互作用項を含む。方法は、まず、ブロック４３９で、プロセスの開始時、ベース配列モデルに等しくなるように、現行の配列モデルおよび最良の配列モデルを設定する。この実施形態は、相互作用項のプール全体が２つ以上のアミノ酸残基の任意の数のペアワイズまたはより高次の相互作用を含み得る点が、上述の最後のモデルに類似している。一部の実施形態において、相互作用項のプールは、目的である全アミノ酸残基の階乗組合せを含む。

ベースモデルの生成後、方法は、ベースモデルに既に含まれる項のプールから、まだ試験されていない相互作用項を選択する。次いで方法は、選択された相互作用項を現行の配列モデルから差し引くことによって、新しい配列モデルを生成する。ブロック４４１を参照されたい。次いで方法は、追加の相互作用項に対して否定的な偏りを有するモデル選択法を使用して、新しい配列モデルの予測検出力を評価する。ブロック４４３を参照されたい。方法は、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きいか否かを評価する。ブロック４４５に示される決定動作を参照されたい。一部の実施形態において、先に試験されたモデルよりも小さいＡＩＣ値を有するモデルが、より高い予測検出力を有すると見なされるように、ＡＩＣをモデル選択基準として使用する。

この例証的な例において、新しい配列モデルの予測検出力が最良の配列モデルの予測検出力よりも大きい場合、方法は、新しいモデルを最良のモデルとして設定する。ブロック４４７を参照されたい。次に方法は、任意の追加の相互作用項が、試験されていないプール内に残されているか否かをチェックする（すなわち、現行の配列モデルから差し引く）。決定ブロック４４９を参照されたい。任意の試験されていない項がある場合、方法はブロック４４１に戻り、それによって内側ループが形成されて、相互作用プール内で利用可能な全ての利用可能相互作用項を試験する。内側ループの反復を通して、単一の相互作用項が同定される。それをモデルから落とすことにより、モデルを最大限に改善する（ＡＩＣがモデルの予測検出力を測定するために使用される場合、ＡＩＣは、最大限の差を付けて低下する）。

全ての相互作用項を試験しかつ内側ループが終了した後に、先の最良モデルよりも大きい予測検出力を有するモデルが存在するなら、１つ少ない相互作用項を有する最良モデルが特定される。決定ブロック４５１を参照されたい。この場合、方法は、現行モデルを最良モデルに設定する。ブロック４５３を参照されたい。次いで、方法はループをブロック４４１に戻す。この外側ループは、最大限の差を付けてモデルの予測検出力を改善することができる次の相互作用項を探索する。そのような相互作用項が見出された場合、差し引かれる次の相互作用項の探索は、先の最良の配列モデルの予測検出力よりも大きい予測検出力を有する新しいモデルがもはや同定されなくなるまで、外側ループ内で継続する。

内側ループが終了し、かつモデルを改善するために相互作用項が差し引かれるのをもはや見出すことができない場合（すなわち、ブロック４５１に示される決定動作が否と答える）、方法は、最後の最良モデルを最終モデルとして設定する。ブロック４５５を参照されたい。配列データおよび活性データが与えられた最良モデルの探索が終了する。

（Ｅ．代替的モデリングオプション）
上記アプローチに関する多数の追加のバリエーションが、本開示の範囲内にある。事実、本発明は、任意の適切なモデルには本発明での用途があるので、任意の特定のモデルに限定するものではない。１つの例証的な例として、ｘ_ｉｊ変数は、アミノ酸の物理的または化学的性質を表すものであり−アミノ酸そのものの正確な識別情報を表すものではない（ロイシン対バリン対プロリン．．．）。そのような性質の例には、親油性、バルク、および電子的性質（例えば、形式電荷、部分電荷に関連するファンデルワールス表面積等）が含まれる。このアプローチを実装するために、アミノ酸残基を表すｘ_ｉｊ値を、それらの性質またはこれらの性質から構成された主成分に関して提示することができる。本発明は、任意の適切な性質には本発明の方法での用途があるので、アミノ酸、ペプチド、および／またはポリペプチドの任意の特定の性質に限定されるものではない。

一部の追加の実施形態において、ｘ_ｉｊ変数は、アミノ酸残基ではなくてヌクレオチドを表す。これらの実施形態で、目標は、タンパク質バリアントライブラリーのタンパク質をコードする核酸配列を同定することである。アミノ酸ではなくヌクレオチドを使用することにより、所望に応じて、活性（例えば、特異的活性）以外のパラメータを最適化することができる。例えば、特定の宿主またはベクターでのタンパク質の発現は、ヌクレオチド配列の関数であり得る。２つの異なるヌクレオチド配列は、同じアミノ酸配列を有するタンパク質をコードし得るが、ヌクレオチド配列の１つは、より多くの量のタンパク質の生成をもたらし得、および／またはタンパク質はより活性である。アミノ酸配列ではなくヌクレオチド配列を使用することによって、本明細書に記載される方法は、改善された遺伝子発現性および／または改善された性質（例えば、特異的活性、安定性等）を示す微生物の株を最適化するために使用することができる。

一部の実施形態において、ヌクレオチド配列は、コドンの配列として表される。一部の実施形態において、モデルは、予測された活性がヌクレオチド配列中に存在する様々なコドンの関数であるように、ヌクレオチド配列の原子単位としてコドンを利用する。各コドンは、ヌクレオチド配列全体におけるその位置と一緒になって、配列活性モデルを生成するための独立変数として働く。ある場合には、所与のアミノ酸に対する異なるコドンが、所与の生体内で異なって発現することに留意されたい。一部の実施形態において、各生体が、所与のアミノ酸に対して好ましいコドンまたはコドン頻度の分布を有する。独立変数としてコドンを使用することにより、実施形態は、これらの好ましさを説明する。したがって実施形態は、発現バリアントのライブラリーを生成するために使用することができる（例えば、「活性」が、特定の宿主生体の遺伝子発現レベルを含む場合）。

一部の実施形態において、本方法は、次の動作を含む：（ａ）タンパク質バリアントライブラリーの訓練セットを特徴付けるデータを受け取ること、（ｂ）（ａ）において得られたデータに基づき、ヌクレオチド配列におけるヌクレオチド型および対応する位置の関数として活性を予測する相互作用配列−活性モデルを開発すること、（ｃ）配列−活性モデルを使用して、所望の活性における影響の順に、ヌクレオチド配列における位置および／またはヌクレオチド配列における特定の位置におけるヌクレオチド型をランク付けすること、（ｄ）ランク付けを使用して、所望の活性を改善するために、ヌクレオチド配列において、変化させられるべき、または固定されるべき１つ以上のヌクレオチドを同定する。示されている通り、一部の実施形態において、変化すべきヌクレオチドは、特定のアミノ酸をコードする。

一部の他の実施形態において、本方法は、ある特定の特性に関連するそれらの重要性の観点から残基をランク付けするか、または他の仕方で特徴付けるための異なる技法の使用を含む。線形または非相互作用モデルに関する上述の通り、回帰係数の規模を使用して、残基をランク付けした。大きい規模の係数を有する残基（例えば、１６６Ｉｌｅ）は、高ランク残基とみなされた。この特徴付けを使用して、タンパク質バリアントの新たな最適化されたライブラリーの作製において特定の残基を変化させるか否かを決断した。相互作用モデルに関して、本明細書に記載されている通り、感度分析はより複雑であった。

ＰＬＳおよびその他の技法は、特定の残基または残基位置をランク付けするために使用することができる、回帰係数の大きさを超えた追加の情報を提供する。ＰＬＳおよび主成分分析（ＰＣＡ）またはＰＣＲ等の技法は、主成分または潜在ベクトルの形で情報を提供する。これらは、本明細書に開示される本発明の実施形態で用いられるタンパク質配列−活性空間等の多元データセットを通した最大バリエーションの方向またはベクトルを表す。これらの潜在ベクトルは、様々な配列次元、すなわち、訓練セットを構成するために使用されるバリアントライブラリーを含むタンパク質配列を含む個々の残基または残基位置の関数である。したがって潜在ベクトルは、訓練セット中の残基位置の各々からの寄与の合計を含む。いくつかの位置は、ベクトルの方向に、より強力に寄与する。これらは、比較的大きい「負荷」、すなわち、ベクトルを記述するために使用される係数によって明らかにされる。単純な例証的な例として、訓練セットはトリペプチドから構成され得る。この例において、第１の潜在ベクトルが、３つの残基全てからの寄与を含む。
ベクトル１＝ａ１（残基位置１）＋ａ２（残基位置２）＋ａ３（残基位置３）
係数ａ１、ａ２、およびａ３は、負荷である。これらは対応する残基位置の重要性をデータセット内のバリエーションに反映するので、上述のような「トグリング」決定の目的で個々の残基位置の重要性のランク付けに使用することができる。回帰係数のような負荷は、各トグルされる位置での残基をランク付けするために使用され得る。様々なパラメータは、これら負荷の重要性について記述する。一部の実施形態は、負荷行列を使用するために、投影における変数重要度（ＶＩＰ）等の方法を利用する。この負荷行列は、訓練セットから得られた多数の潜在ベクトルに関する負荷から構成される。ＰＬＳ投影法に関する変数重要度において、変数（例えば、残基位置）の重要性はＶＩＰを計算することによって算出される。所与のＰＬＳ次元に対して、ある（ＶＩＮ）_ａｋ ^２は、そのＰＬＳ次元によるｙ（従属変数、例えば、ある特定の関数）のパーセント説明変動性を乗じた変数の平方ＰＬＳ重み（ｗ_ａｋ）^２に等しい。（ＶＩＮ）_ａｋ ^２を、全てのＰＬＳ次元（成分）上で合計する。次いでＶＩＰを、ＰＬＳモデルにより説明されるｙの全パーセント変動性で合計を割り、モデルの変数の数を乗じることによって計算する。１より大きいＶＩＰを有する変数は、ある特定の関数（ｙ）と相関させるのに最も関連あるものであり、したがって、トグリングの決定を行う目的で最も高いランク付けがなされる。

多くの実施形態において、本発明は、目的の配列−活性に対するコンビナトリアルライブラリーの変異の影響を同定するために、一般的な線形回帰法を利用する。代替のモデリングオプションおよび技法、例えばベイズ回帰、アンサンブル回帰、ブートストラッピングは、上記の方法と組み合わせてまたは代わりに使用することができる。事実、本発明は、任意の適切な方法には本発明での用途があるので、任意の特定のモデリングオプションおよび／または技法に限定するものではない。

（ベイズ線形回帰）
本発明の一部の実施形態において、ベイズ線形回帰は用途を見出す。この方法は、ベイズ推定の文脈において統計分析を行う線形回帰のためのアプローチである。回帰モデルが正規分布を有する誤差を有する場合、および特定の形の事前の分布が想定される場合、モデルのパラメータの事後確率分布を、ベイズ推定技法を使用して決定することができる。

線形回帰モデルの通常の最小二乗推定法は、ムーア−ペンロース擬似逆行列等の分析計算法を使用して、データの尤度関数に基づいて係数ベクトルおよびモデル誤差を推定する。これは、全ての配列に関する配列−活性関係を表すための十分なデータ観測があることを仮定する、頻度論的アプローチである。しかし、試料の実際の観測は、集団のメンバーの全てを表すためにほとんど十分ではない。これは、試料（または、訓練セット）サイズが限定される場合に特に問題がある。ベイズアプローチでは、試料データを、従来の確率分布の形をした追加の情報で補う。パラメータに関する事前信念を、ベイズの定理に従うデータの尤度関数と組み合わせて、パラメータに関する事後信念をもたらす。事前信念は、演繹的に利用可能なドメインおよび情報に応じて、異なる関数形態をとることができる。

例えば、一部の実施形態において、ベイジアン回帰は、モデル適合前に係数を重み付けるために事前情報を使用することができる。一部の実施形態において、定向進化の以前のラウンド、例えば、親または参照バックボーンおよび以前のラウンドにおいて使用した変異の少なくとも一部を使用して行ったラウンドから採取した配列／活性データを使用して、線形係数を重み付けることができる。さらに、２個以上の変異の間の上位関係性の予測を使用して、相互作用係数を重み付けることができる。このアプローチの主な利点の１つは、直接的なモデル予測への事前情報の包含である。

事前情報の供給源の例証的な一例は、参照バックボーンに対する複数の変異の各々に対する独立および相互作用項を有するモデルである。一部の実施形態において、バリアント当たり１変異を含むバリアントのコレクションからデータを得る。

本発明で用途を見出す事前の情報の追加の例には、ある特定の変異の役割または変異のタイプに関する直観的または物理的な情報が含まれるが、これらに限定するものではない。供給源とは無関係に、事前の情報は、配列と活性との関係の既成概念として働く。

モデルのパラメータを推定するための一部の実施形態において、ベイズの線形回帰は、データを与えられたモデルを適合させるために、ギブスサンプリングまたはメトロポリスアルゴリズム等のモンテカルロシミュレーションを使用する。ギブスサンプリングは、直接サンプリングが難しい場合、ほぼ指定された多変量確率分布から（すなわち、２つ以上のランダム変数の接合確率分布から）のものである、一連の観測を得るためのマルコフチェーンモンテカルロアルゴリズムである。

図５は、バリアントライブラリーの誘導進化におけるベイズ回帰の使用を示すフローチャートである。配列進化の各ラウンドは、配列−活性モデル等の知識により誘導され得る、先のラウンドからの配列に基づく変異を含む。ブロック５０１にあるような進化のラウンドｎでは、例えば、バリアント当たり１つの変異がある。進化の次のまたはｎ＋１のラウンドは、ブロック５０３に示されるように現行のラウンドである。各バリアントに対して、少なくとも１つの新しい変異があり、バリアント当たり２つ以上の変異になる。ベイズ回帰は、この例証的な例においてこのラウンドで実装される。

ラウンドｎ＋１の配列バリアントは、新たなモデルのデータの訓練セットを提供する。ブロック５０７に示す通り、新たなモデルは、個々の残基の非相互作用項のみを含むベースモデルまたはあらゆる可能な相互作用項／係数を含む完全モデルを含むことができる。新たなモデルは、上に説明されている段階的加算または減算技法を含む、様々な技法によって選択されたモデルを含み得る。ブロック５０５を参照。あるいは、モデルは、後述する遺伝的アルゴリズムまたはブートストラップ技法を使用して選択し得る。これらのモデルは全て、ラウンドｎ＋１の訓練セットデータからの現／新たなデータに基づく。モデルが、現データの確率関数および事前情報の分布の両方に基づくように、ベイジアン推論技法をこれらのモデルに適用することができる。事前情報は、ブロック５０１により示されるラウンドｎにおけるような、配列バリアントの以前のラウンドのデータに由来することができる。情報は、ブロック５１３により示される通り、進化の任意の以前のラウンドからの配列−活性データまたは知識に基づく他の先の直観に由来することもできる。ブロック５０９により示されるベイジアン回帰モデルは、現データおよび事前情報により提供される情報に基づき活性を予測する。ブロック５１１を参照。図５は、ラウンドｎ＋１へのベイジアン回帰技法の適用のみを例示するが、これは、様々なステージにおいて適用することができる。任意の適した方法が、本発明における使用を見出すため、本発明が、図５に提示されている特定のステップに限定されることも企図されない。

（アンサンブル回帰）
一部の実施形態において、本発明は、アンサンブル回帰技法を利用して、配列−活性モデルを調製する。アンサンブル回帰モデルは、数種の回帰モデルに基づく。各モデルの予測は、特定の情報基準（ＩＣ）に基づき重み付けられ、アンサンブルの予測は、これが含む全モデルの予測の加重和である。一部の実施形態において、モデル開発は、全相互作用項を含むベースモデルから開始する。その後のモデルは、一部または全ての可能な組合せにおける相互作用係数を加算することにより構築される。一部の実施形態において、相互作用係数は、段階的プロセスで加算される。各モデルがデータに適合させられ、ＩＣが作製される。各モデルに対する重みは、ＩＣそれ自体または変換バージョン、例えば、対数値、ネゲート値等であり得るＩＣに基づく。アンサンブルにおける各モデルの予測を作製し、各モデルからの予測の加重平均を採用することによりアンサンブル予測を決定することにより、予測を観測に対して行うことができる。完全アンサンブルは、あらゆる可能なモデルを含むが、これが含むモデルの数またはＩＣに閾値をセットすることにより、成績の悪いモデルを除去するように調整されることができる。

アンサンブルの構成モデルは、様々な技法を使用して生成することができる。例えば、一部の実施形態において、遺伝的アルゴリズムを使用して構成モデルを生成する。配列／活性データは、その各々がそれ自体の係数セットを有している複数の回帰モデルを生成するために使用される。最良のモデルは、適応度基準（例えば、ＡＩＣまたはＢＩＣ）に従い選択される。これらのモデルを「交配」させて新しいハイブリッドモデルを生成し、次いでこれらの適応度を評価し、それに応じて選択する。一部の実施形態において、このプロセスを、「計算上の進化」の多数のラウンドに対して繰り返して、最良モデルのアンサンブルを生成する。あるいは、一部の実施形態において、アンサンブル構成成分は、上述のような段階的回帰により生成され、最良のｎモデルがアンサンブルを形成するために選択される。

図６は、本発明の実施形態による、配列バリアントの定向進化においてアンサンブル回帰を実装するプロセスのフローチャートを提供する。この実施形態において、アンサンブル回帰技法を、配列進化の多数のラウンドの任意の段階で適用し得る。例えば、ラウンドｎで、ブロック６０１に示される配列バリアントは、ブロック６０３により示されるように、モデルプールを形成するための様々なモデルに対するデータの訓練セットを提供する。モデルプール内のモデルは、遺伝的アルゴリズムおよび／または段階的選択によって生成されたモデルであり得る。他の実施形態において、モデルプールはｎ分割交差検証モデルおよび／またはブートストラッピングモデルを含む。一部の実施形態において、ＡＩＣまたはＢＩＣ等の様々なモデル選択基準に基づいて、優れた予測検出力を持つモデルのみが、プールに入るために選択される。

それに代えてまたはその上、一部の実施形態において、モデル選択によりスクリーニングされたことがないモデルも、モデルプールに入れる。一実施形態において、全非相互作用項および相互作用項を有する全モデルを、モデルプールに入れる。多数の残基および残基間のさらに多数の要因相互作用に対して、本実施形態は、非常に計算的に集約的であり得る。一部の代替的実施形態において、非相互作用項およびペアワイズ相互作用項を含むモデルのみを、モデルプールに入れる。モデルプールの包含方法にもかかわらず、アンサンブルモデルは、その構成成分の全項を含む。モデルプールは、ベイジアンモデルが挙げられるがこれに限定されない、任意の数のモデルを含むことができ、この場合、事前情報をアンサンブルに取り込むことができる。

一部の実施形態において、アンサンブルは、プール内の各モデルの係数の加重平均に基づいて配列活性を予測し、この重みは、ブロック６０５により示されるように、対応するモデルの予測検出力によって決定される。

一部の実施形態において、アンサンブル回帰は、下記のワークフローを使用する：（１）空のアンサンブルを提供する；（２）１以上のグループサイズｎを選択する；（３）データポイントをサイズｎのグループに分類するが、このデータポイントは、返還なしでグループ分けされる；および（４）アンサンブルモデルを調製して、個々および相互作用の係数を予測する。一部の実施形態において、アンサンブルモデルを調製するステップ（４）は、さらに：ａ）各グループのデータポイントを除去することであって、残りのデータが訓練セットを形成しかつ脱落データが検証セットを形成する、こと；ｂ）段階的回帰を使用して訓練セットを適合させることにより、モデルを調製すること；ｃ）モデルの予測能力の指標を提供する検証セットを使用して、モデルを試験すること；ｄ）モデルを、上述のようにアンサンブルモデルを生成するために使用されるモデルのプールに追加することを含む。

（ブートストラップアプローチ）
所与の反復における考慮中のモデルの予測検出力を特徴付けるためのその他の技法は、本発明で用途を見出す。一部の実施形態において、これらの技法は交差検証またはブートストラップ技法を含む。一部の実施形態において、交差検証は、モデルを生成するために使用される一組の観測を用いるが、観測のいくつかはモデルの強度を評価するために除外する。一部の実施形態において、ブートストラップ技法は、返還を伴って試験される一組の試料を使用することを含む。一部の実施形態において、交差検証またはブートストラッピングにより生成されたモデルは、上述のようなアンサンブルモデルに組み合わせることができる。

一部の追加の実施形態において、方法は、それらの予測される活性に対する寄与の大きさによってだけでなくそれらの予測される寄与の信頼性によっても同様に、残基をランク付けする。ある場合には、研究者は、１つのデータセットから別のセットへのモデルの一般化可能性を懸念する。言い換えれば、研究者は、係数または主成分の値が偽であるか否かを知りたい。交差検証およびブートストラッピング技法は、モデルを様々なデータに一般化可能にする信頼性のレベルを示す尺度を提供する。

一部の実施形態において、ランク付けが大きさと分布との組合せに基づく、より統計的に厳密なアプローチを利用する。これらの実施形態の一部において、非常に大きくかつ緊密な分布を持つ係数は、最高のランク付けを与える。ある場合には、別の係数よりも大きさが小さい１つの係数が、ばらつきが少ないためにより高いランク付けを与えられ得る。このように、一部の実施形態は、大きさ、および標準偏差または分散の両方に基づいて、アミノ酸残基またはヌクレオチドをランク付けする。これを実現するために様々な技法を使用することができる。事実、本発明は、ランク付けするための任意の特定の技法に限定するものではない。ブートストラップｐ値アプローチを使用する一実施形態について、以下に記載する。

ブートストラップ法を用いる方法の例証的な例を、図７に示す。図７に示すように、方法７２５はブロック７２７で開始し、オリジナルデータセットＳが提供される。一部の実施形態において、これは上述の訓練セットである。例えば、一部の実施形態において、それは、任意の手法で（例えば、上述のように）出発配列の個々の残基を系統的に変化させることによって生成される。方法７２５により示される場合では、データセットＳが、分析で使用されるＭ個の異なるデータポイント（アミノ酸またはヌクレオチド配列から収集された活性および配列情報）を有する。

データセットＳから、様々なブートストラップセットＢが生成される。これらのセットの各々は、セットＳから、返還を伴うサンプリングによって得られ、その結果、新しいＭ個のメンバーのセットが生成され−全てはオリジナルセットＳから得られる。ブロック７２９を参照されたい。「返還を伴う」条件は、オリジナルセットＳにバリエーションをもたらす。新しいブートストラップセットＢは、時々、Ｓからの複製試料を含むことになる。ある場合には、ブートストラップセットＢは、Ｓに当初から含まれていたある特定の試料を欠く。

例証的な例として、１００個の配列のセットＳが提供される。ブートストラップセットＢは、オリジナルセットＳの１００個の配列から１００個のメンバー配列をランダムに選択することによって生成される。この方法で使用される各ブートストラップセットＢは、１００個の配列を含む。このように、いくつかの配列が２回以上選択されかつその他の配列が全く選択されないことが可能である。１００個の配列のセットＳから生成されたブートストラップセットＢを使用して、この方法は次に、モデルを構築する。ブロック７３１を参照されたい。モデルは、ＰＬＳ、ＰＣＲ、ＳＶＭ、段階的回帰等を使用して、上述のように構築され得る。事実、任意の適切な方法は、モデルの構築に用途を見出すことになることが意図される。このモデルは、係数、またはセットＢからの様々な試料に見出される残基もしくはヌクレオチドをランク付けするその他のしるしを提供する。ブロック７３３に示されるように、これらの係数またはその他のしるしは、後続の使用のために記録される。

次に、決定ブロック７３５で、この方法は別のブートストラップセットが生成されるべきか否かを決定する。はいの場合、方法はブロック７２９に戻り、そこで新しいブートストラップセットＢを上述のように生成する。いいえの場合、方法は、以下に論じられるブロック７３７に進む。ブロック７３５での決定は、それらの値の分布を評価する際に、どれくらい多くの異なる係数値セットが使用されるべきかによって定まる。セットＢの数は、正確な統計が生成されるように十分であるべきである。一部の実施形態において、１００から１０００個のブートストラップセットが調製され分析される。これは、方法７２５のブロック７２９、７３１、および７３３を約１００から１０００回通過することによって表される。しかし本発明は、所望の分析に適切な任意の数には用途があるので、ブートストラップセットの任意の特定の数に限定されるものではない。

十分な数のブートストラップセットＢが調製され分析された後、決定７３５は、いいえと答える。次いで示されるように、方法は、ブロック７３７に進む。そこで、係数（またはモデルによって生成されたその他の指標）の平均および標準偏差を、係数値（例えば、１００から１０００の値、各ブートストラップセットから１つ）を使用して、各残基またはヌクレオチド（コドンを含む）に対して計算する。この情報から、方法は、ｔ統計量を計算し、測定された値がゼロとは異なっている信頼区間を決定することができる。ｔ統計量から、方法は、信頼区間に対するｐ値を計算する。この例示的なケースでは、ｐ値が小さくなるほど信頼性が大きくなり、測定された回帰係数がゼロとは異なっている。

ｐ値は、係数または残基の重要性に関するその他の指標における統計的バリエーションを説明することができる、特徴付けの多くの異なるタイプの１つにすぎないことに留意されたい。その例には、回帰係数に対して９５パーセント信頼区間を計算し、それに対する９５パーセントの信頼区間がラインゼロと交差する考慮中の任意の回帰係数を除外することが含まれるが、これに限定するものではない。基本的に、一部の実施形態において、標準偏差、分散、またはデータ分布のその他の統計的関連尺度を説明する任意の特徴付けは用途を見出す。一部の実施形態において、この特徴付けステップは、係数の大きさについても説明する。

一部の実施形態において、大きい標準偏差が得られる。この大きい標準偏差は、データセットでの不十分な測定、および／またはオリジナルデータセットでの特定の残基もしくはヌクレオチドの限定された表示を含むがこれらに限定するものではない、様々な原因に起因し得る。この後者の場合、いくつかのブートストラップセットは、特定の残基またはヌクレオチドの出現を含まないであろう。そのような場合、その残基の係数の値はゼロであろう。その他のブートストラップセットは、残基またはヌクレオチドの少なくともいくつかの出現を含み、対応する係数の非ゼロ値を与えるであろう。しかしゼロ値を与えるセットは、係数の標準偏差が比較的大きくなるようにする。これは、係数値の信頼性を低減させ、より低いランクをもたらす。しかしこれは、含まれる残基またはヌクレオチドに関して比較的少ないデータしかない場合には、予測されることである。

次に、ブロック７３９で、方法は、回帰係数（または、その他の指標）を最も低い（最良）ｐ値から最も高い（最悪）ｐ値までランク付けする。このランク付けは、絶対値が大きいほどより大きい標準偏差がゼロから隔たっているという事実により、回帰係数そのものの絶対値に非常に相関している。従って、所与の標準偏差では、回帰係数がより大きくなるにつれてｐ値はより小さくなる。しかし、絶対的なランク付けは、特に比較的少ししかないデータポイントがセットＳで始めるために利用可能である場合、ｐ値法および純粋規模（ｐｕｒｅｍａｇｎｉｔｕｄｅ）法の両方と常に同じであるわけではない。

最後に、ブロック７４１で示されるように、方法は、ブロック７３９の動作で観測されたランク付けに基づいて、ある特定の残基を固定し、ある特定の残基をトグルする。これは本質的に、他の実施形態に関する上述のランク付けの同じ使用である。１つのアプローチでは、方法は、最良の残基を固定し（ここでは、最低のｐ値を持つもの）、その他はトグルする（最高のｐ値を持つもの）。

この方法７２５は、ｉｎｓｉｌｉｃｏで十分機能することが示されている。さらに、一部の実施形態において、ｐ値ランク付けアプローチは、単一のまたは少しのインスタンス残基を自然に取り扱い：ｐ値は、ブートストラッププロセスにおいてオリジナルデータセットでしばしば現れなかった残基がランダムにピックアップされ難くなるので、一般により高くなる（悪化する）。それらの係数が大きい場合であっても、それらの変動性（標準偏差で測定される）も同様に非常に高いであろう。一部の実施形態において、十分呈示されない残基（すなわち、十分な頻度で見られなかった、またはより低い回帰係数を有している）はライブラリー設計の次のラウンドでのトグリングに良い候補であり得るので、これは望ましい結果である。

（ＶＩ．モデル予測配列を修正することによる最適化されたタンパク質バリアントライブラリーの作製）
本発明の目標の１つは、定向進化を通して最適化タンパク質バリアントライブラリーを生成することである。本発明の一部の実施形態は、生成された配列−活性モデルを使用して、タンパク質バリアントの定向進化を誘導する方法を提供する。上記の方法に従い調製され精密化された様々な配列−活性モデルは、タンパク質または生体分子の定向進化を誘導するために適している。プロセスの部分として、方法は、新しいタンパク質バリアントライブラリーを生成するために使用される配列を同定し得る。そのような配列は、上記同定された定義済み残基に対してバリエーションを含み、またはそれらは引き続きそのようなバリエーションを導入するために使用される前駆体である。配列は、タンパク質バリアントの新しいライブラリーを生成するために、変異誘発または組換えをベースにした多様性生成メカニズムを行うことによって、改変され得る。新しいライブラリーは、新しい配列−活性モデルを開発する際に使用され得る。

一部の実施形態において、オリゴヌクレオチド配列または核酸配列の調製は、核酸合成機を使用してオリゴヌクレオチド配列または核酸配列を合成することにより達成される。本発明の一部の実施形態は、調製されたオリゴヌクレオチド配列またはタンパク質配列を定向進化のための基本要素として使用した、定向進化のラウンドの実行を含む。本発明の様々な実施形態は、これらの基本要素に組換えおよび／または変異誘発を適用して、多様性を作製することができる。

１つの特定の例として、一部の実施形態は、組換え技法をオリゴヌクレオチドに適用する。これらの実施形態において、方法は、配列−活性モデルの項の係数を評価することによって、定向進化のラウンドのために１つ以上の変異を選択することを含む。変異は、モデルにより予測されたタンパク質の活性に対するそれらの寄与に基づいて、特定の位置にある特定のタイプの定義済みアミノ酸またはヌクレオチドの組合せから選択される。一部の実施形態において、変異の選択は、係数のうちの他のものよりも大きいことが決定された１つ以上の係数を特定することと、そのように特定された１つ以上の係数によって表される、定義された位置にある定義済みアミノ酸またはヌクレオチドを選択することとを含む。一部の実施形態において、配列−活性モデルにより変異を選択した後、方法は、１つ以上の変異を含むまたはコードする複数のオリゴヌクレオチドを調製することと、調製されたオリゴヌクレオチドを使用して定向進化のラウンドを行うこととを含む。一部の実施形態において、定向進化技法は、オリゴヌクレオチドを組み合わせかつ／または組み換えることを含む。

本発明の他の実施形態は、組換え技法をタンパク質配列に適用する。一部の実施形態において、方法は、新しいタンパク質配列または新しい核酸配列を同定することと、新しいタンパク質、または新しい核酸配列によってコードされたタンパク質を調製しアッセイすることとを含む。一部の実施形態において、方法はさらに、新しいタンパク質、または新しい核酸配列によってコードされたタンパク質を、さらなる定向進化のための開始ポイントとして使用することを含む。一部の実施形態において、定向進化プロセスは、所望のレベルの活性を有することがモデルによって予測されたタンパク質配列を断片化し組み換えることを含む。

一部の実施形態において、方法は、モデルにより重要であることが予測される個々の変異に基づいて、新しいタンパク質配列または新しい核酸配列を同定しかつ／または調製する。これらの方法は：活性に寄与する定義された位置の定義済みアミノ酸またはヌクレオチドの１つまたは複数が同定されるように、配列−活性モデルの項の係数を評価することによって、１つ以上の変異を選択することと；上記選択された１つ以上の変異を含む、新しいタンパク質配列または新しい核酸配列を同定することと、新しいタンパク質、または新しい核酸配列によってコードされたタンパク質を、調製しアッセイすることとを含む。

他の実施形態において、本方法は、個々の変異の代わりに配列全体の予測される活性に基づき、新たなタンパク質配列または新たな核酸配列を同定および／または調製する。これらの実施形態の一部において、本方法は、前記配列−活性モデルに複数のタンパク質配列または複数のアミノ酸配列を適用することと、前記複数のタンパク質配列または核酸配列の各々に対して、前記配列−活性モデルによって予測される活性値を決定することとを含む。本方法は、複数の配列に対する、配列−活性モデルにより予測される活性値を評価することにより、上に適用された複数のタンパク質配列または複数のアミノ酸配列の中から新たなタンパク質配列または新たな核酸配列を選択することをさらに含む。本方法は、新たなタンパク質配列を有するタンパク質、または新たな核酸配列にコードされるタンパク質を調製およびアッセイすることも含む。

一部の実施形態において、単一の最良の予測されるタンパク質を単純に合成するのではなく、タンパク質のコンビナトリアルライブラリーは、タンパク質の各場所における残基選択における最良の変化の感度分析に基づき作製される。本実施形態において、所定の残基選択が、予測されるタンパク質に対して高感度であるほど、予測される適応度変化は大きくなるであろう。一部の実施形態において、これらの感度は、最高から最低に及び、感度スコアを使用して、その後のラウンドにおいてコンビナトリアルタンパク質ライブラリーを作製する（すなわち、感度に基づきこれらの残基を取り込むことにより）。非相互作用モデルが使用される一部の実施形態において、感度は、モデルにおける所定の残基項に関連する係数のサイズを単純に考慮することにより同定される。しかし、これは、相互作用モデルに対して可能ではない。代わりに、相互作用モデルを利用する実施形態において、残基感度は、「最良の」予測される配列において単一残基が変化させられた場合の活性の変化を計算するためのモデルを使用することにより決定される。

本発明の一部の実施形態は、タンパク質配列または核酸配列内の１つ以上の位置を選択すること、およびそのように特定された１つ以上の位置で飽和変異誘発を行うことを含む。一部の実施形態において、位置は、配列−活性モデルの項の係数を評価して、活性に寄与する定義された位置で定義済みアミノ酸またはヌクレオチドの１つまたは複数を同定することによって選択される。したがって一部の実施形態において、定向進化のラウンドは、配列−活性モデルを使用して選択された位置にあるタンパク質配列上で飽和変異誘発を行うことを含む。１つ以上の相互作用項を含むモデルを含む一部の実施形態において、方法は、２つ以上の相互作用残基で同時に変異誘発を適用することを含む。

一部の実施形態において、残基は、それらがランク付けされる順序で考慮される。一部の実施形態において、考慮中の各残基ごとに、プロセスは、その残基を「トグル」するかどうかを決定する。「トグリング」という用語は、最適化ライブラリー内のタンパク質バリアントの配列中の、特定の位置への複数のアミノ酸残基タイプの導入を指す。例えばセリンは、１つのタンパク質バリアント中の位置１６６に現れてもよく、それに対してフェニルアラニンは、同じライブラリーにおける別のタンパク質バリアントの位置１６６に現れてもよい。訓練セットのタンパク質バリアント配列間で変化しないアミノ酸残基は、典型的には最適化ライブラリー内で固定されたままである。しかしこれは、最適化ライブラリーにバリエーションがある可能性があるので、常にというわけではない。

一部の実施形態において、最適化されたタンパク質バリアントライブラリーは、特定された「高」ランキングの回帰係数残基（ｒｅｇｒｅｓｓｉｏｎｃｏｅｆｆｉｃｉｅｎｔ
ｒｅｓｉｄｕｅ）の全てが固定されるように、かつ残りのより低いランキングの回帰係数残基がトグルされるように、設計される。この実施形態の理論的根拠は、「最良」予測タンパク質を取り囲む局所空間が探索されるべきであることである。トグルが導入される開始ポイントの「主鎖」は、モデルによって予測された最良のタンパク質、および／またはスクリーニングされたライブラリーからの既に検証された「最良」のタンパク質であり得ることに留意されたい。事実、開始ポイントの主鎖は任意の特定のタンパク質に限定するものではない。

代替の実施形態において、特定された高ランキングの回帰係数残基の少なくとも１つまたは複数であるが全てではないものが、最適化ライブラリー内で固定され、その他はトグルされる。このアプローチは、一度に非常に多くの変化を組み込むことによって、その他のアミノ酸残基の状況を劇的に変化させないことが望まれる場合、一部の実施形態で推奨される。この場合も、トグリングの開始ポイントは、モデルによって予測されるような残基の最良のセット、既存のライブラリーからの最良の検証済みのタンパク質、または充分にモデル化する「平均」クローンであり得る。後者の場合、より高い重要性を持つことが予測された残基をトグルすることが望ましいと考えられるが、それはより大きい空間を、サンプリングから事前に省かれた活性ヒル（ａｃｔｉｖｉｔｙｈｉｌｌ）の探索で調査すべきだからである。このタイプのライブラリーは、後続のラウンドに関してより洗練された画像を生成するので、ライブラリー生成の早期のラウンドにおいて典型的にはより妥当である。開始ポイントの主鎖も、任意の特定のタンパク質に限定するものではない。

上記実施形態のいくつかの代替例は、どの残基をトグルするかを決定する際に、残基の重要性（ランク付け）を使用するための異なる手順を含む。１つのそのような代替の実施形態において、より高いランク付けの残基位置が、トグリングをより積極的に支持する。このアプローチに必要な情報には、訓練セットからの最良のタンパク質の配列、ＰＬＳまたはＰＣＲ予測最良配列、およびＰＬＳまたはＰＣＲモデルからの残基のランキングが含まれる。「最良」のタンパク質は、データセットにおける、ウェットラボで検証された「最良」のクローンである（すなわち、交差検証での予測値の比較的近くに包含されるという理由で、依然として十分モデル化される、最高の一様な機能（ｔｈｅｈｉｇｈｅｓｔ
ｍｅａｓｕｒｅｄｆｕｎｃｔｉｏｎ）を持つクローン）。方法は、このタンパク質からの各残基を、所望の活性の最高値を有する「最良予測」配列からの対応する残基と比較する。最高負荷または回帰係数を持つ残基が「最良」クローン内に存在しない場合、方法は、その位置を、後続のライブラリーのためのトグル位置として導入する。残基が最良クローン内に存在する場合、方法は、その位置をトグル位置として処理せず、連続して次の位置に移動させる。プロセスを、様々な残基に関して繰り返し、十分なサイズのライブラリーが生成されるまで、連続してより低い負荷値を移動する。

一部の実施形態において、保持される回帰係数残基の数およびトグルされる回帰係数残基の数を変化させる。どの残基をトグルしかつどれを保持するかの決定は、所望のライブラリーサイズ、回帰係数間の差の大きさ、および非線形性が存在すると考えられる程度を含むがこれらに限定するものではない様々な因子に基づく。小さい（ニュートラル）係数を持つ残基の保持は、後続の進化のラウンドで重要な非線形性を明らかにする可能性がある。一部の実施形態において、最適化タンパク質バリアントライブラリーは、約２^Ｎ個のタンパク質バリアントを含有し、ここでＮは、２つの残基間でトグルされた位置の数を表す。別の方法で記述されるように、それぞれ追加のトグルにより付加された多様性は、ライブラリーのサイズを２倍にし、その結果、１０個のトグル位置がほぼ１，０００個のクローン（１，０２４）を生成し、１３個の位置がほぼ１０，０００個のクローン（８，１９２）を生成し、２０個の位置ンがほぼ１，０００，０００クローン（１，０４８，５７６）を生成する。適切なライブラリーサイズは、例えば、スクリーンのコスト、ランドスケープの凹凸、好ましい割合の空間のサンプリング（ｐｒｅｆｅｒｅｄｐｅｒｃｅｎｔａｇｅｓａｍｐｌｉｎｇｏｆｓｐａｃｅ）等の因子に依存する。ある場合には、比較的大きな数の変化した残基が、クローンの過度に大きなパーセンテージが非機能性であるライブラリーを生成することがわかった。したがって、一部の実施形態において、トグリングのための残基の数が約２から約３０に及び；すなわち、ライブラリーのサイズは約４から２^３０〜１０^９クローンの間に及ぶ。

さらに、様々な後続のラウンドのライブラリー戦略は、より挑戦的ないくつかの戦略（より「有益な」残基を固定する）およびより保存的なその他の戦略（より徹底的に空間を調査する目的で、より少ない「有益な」残基を固定する）と同時に利用されることが企図される。

一部の実施形態において、ほとんど天然に生ずるまたはそうでない場合には首尾良く得られたペプチドに生じる、グループまたは残基または「モチーフ」を、同定しかつ／または保存するが、それは、それらがタンパク質の機能性（例えば、活性、安定性等）で重要となり得るからである。例えば、可変位置３のＩｌｅは、天然に生ずるペプチドにおける可変位置１１でＶａｌと常にカップリングすることを見出し得る。したがって、一実施形態において、そのようなグループの保存が任意のトグリング戦略で求められる。言い換えれば、唯一受け入れられるトグルは、ベースタンパク質での特定のグループ分けを保存するトグル、または活性タンパク質でも見出される異なるグループ分けを生成するトグルである。後者の場合、２つ以上の残基をトグルすることが必要である。

一部の追加の実施形態において、現行の最適化ライブラリーにおいて、ウェットラボで検証された「最良」（または数個の最良のものの１つ）のタンパク質（すなわち、依然として十分モデル化される、すなわち交差検証での予測値に比較的近くに包含される、最高の、または数個の最高の一様の機能の１つを持つタンパク質）は、様々な変化が組み込まれる主鎖として働く。別のアプローチでは、十分モデル化できない現行のライブラリーにおいて、ウェットラボで検証された「最良」の（またはいくつかの最良のものの１つ）タンパク質は、様々な変化が組み込まれる主鎖として働く。いくつかのその他のアプローチでは、所望の活性の最高値（または最高値の１つ）を有することが配列−活性モデルにより予測される配列は、主鎖として働く。これらのアプローチでは、「次世代」ライブラリー（およびおそらくは対応するモデル）のデータセットが、最良のタンパク質の１つまたは数種の残基を変更することによって得られる。一実施形態において、これらの変化は、主鎖に、残基の系統的バリエーションを含む。ある場合には、変化には、様々な変異誘発、組換え、および／または部分配列選択技法が含まれる。これらの各々は、ｉｎｖｉｔｒｏ、ｉｎｖｉｖｏ、および／またはｉｎｓｉｌｉｃｏで行ってもよい。事実、本発明は、任意の適切なフォーマットには用途があるので、任意の特定のフォーマットに限定するものではない。

一部の実施形態において、非相互作用モデルによって予測される最適配列は、上述の通りの点検により同定することができるが、これは相互作用モデルには当てはまらない。ある特定の残基は、非相互作用項および相互作用項の両方において出現し、他の残基の多くの可能な組合せの文脈における活性に対するその全体の効果は問題がある可能性がある。よって、相互作用モデルの相互作用項の選択と同様に、モデルによりあらゆる可能な配列を検査することにより（十分な計算資源を仮定する）、あるいは段階的アルゴリズム等の検索アルゴリズムを利用することにより、相互作用モデルによって予測される最適配列を同定することができる。

一部の実施形態において、上記のように同定されたコンピュータ進化型タンパク質に含まれる情報を使用して、新規なタンパク質を合成し、それらを物理的アッセイで試験する。実際のウェットラボで決定された適応度関数の正確なｉｎｓｉｌｉｃｏ表示により、研究者は、進化のサイクル数および／またはラボ内でスクリーニングする必要があるバリアントの数を低減させることが可能になる。一部の実施形態において、最適化タンパク質バリアントライブラリーを、本明細書に記載される組換え法を使用して、あるいは遺伝子合成法により、その後、ｉｎｖｉｖｏまたはｉｎｖｉｔｒｏで発現させることによって、生成する。一部の実施形態において、最適化タンパク質バリアントライブラリーを所望の活性に関してスクリーニングした後、それらをシーケンシングする。図１および２の考察において上記に示したように、最適化タンパク質バリアントライブラリーからの活性および配列情報を用いて、別の配列−活性モデルを生成することができ、そこから、本明細書に記載される方法を使用してさらなる最適化ライブラリーを設計することができる。一実施形態において、この新しいライブラリーからのタンパク質の全てを、データセットの部分として使用する。

（ＶＩＩ．デジタル装置およびシステム）
明らかなように、本明細書に記載される実施形態は、命令の制御下で動作するプロセス、および／または１つ以上のコンピュータシステムの内部に記憶されまたはそれを通して転送されるデータを用いる。本明細書に開示される実施形態は、これらの動作を行うための装置にも関する。一部の実施形態において、装置は、必要とされる目的のために特別に設計されかつ／または構成され、あるいは、コンピュータに記憶されたコンピュータプログラムおよび／またはデータ構造によって選択的に活性化されまたは再構成される汎用コンピュータであり得る。本発明により提供されるプロセスは、任意の特定のコンピュータまたはその他の特殊な装置に本来関係しない。特に、様々な汎用マシンには、本明細書の教示により書かれたプログラムで用途がある。しかし、一部の実施形態において、必要な方法操作を行うために専用の装置を構成する。様々なこれらのマシンの、特定の構造の一実施形態について、以下に記載する。

さらに、本発明のある特定の実施形態は、様々なコンピュータで実現される操作を行うためのプログラム命令および／またはデータ（データ構造を含む）を含む、コンピュータ読み取り可能な媒体またはコンピュータプログラム製品に関する。コンピュータ読み取り可能な媒体の例には、磁気媒体、例えば、ハードディスク、フロッピー（登録商標）ディスク、磁気テープ；光学媒体、例えば、ＣＤ−ＲＯＭデバイスおよびホログラフィックデバイス；光磁気媒体；半導体メモリーデバイス；およびプログラム命令を記憶し行うよう特別に構成されたハードウェアデバイス、例えば、読み取り専用メモリーデバイス（ＲＯＭ）およびランダムアクセスメモリ（ＲＡＭ）、特定用途向け集積回路（ＡＳＩＣ）、およびプログラム可能論理デバイス（ＰＬＤ）が含まれるが、これらに限定するものではない。データおよびプログラム命令は、搬送波またはその他の輸送媒体（例えば、光回線、電線、および／またはエアウェーブ）に具体化され得る。事実、本発明は、コンピュータで実現される操作を行うための命令および／またはデータを含む、任意の特定のコンピュータ読み取り可能な媒体または任意のその他のコンピュータプログラム製品に限定するものではない。

プログラム命令の例には、コンパイラーによって生成されるような低レベルコード、およびインタープリターを使用してコンピュータにより実行され得る高レベルコードを含むファイルが含まれるが、これらに限定するものではない。さらに、プログラム命令には、機械コード、ソースコード、および本発明による計算機の動作を直接または間接的に制御する任意のその他のコードが含まれるが、これらに限定するものではない。このコードは、入力、出力、計算、条件付き、分岐、反復ループ等を指定し得る。

１つの例証的な例において、本明細書に開示される方法を具体化するコードは、適切に構成されたコンピュータデバイスにロードされた場合、このデバイスに１つ以上の文字列上でシミュレートされた遺伝的操作（ＧＯ）を行わせる、論理命令および／またはデータを含む固定媒体または伝達性プログラムコンポーネントにおいて具体化される。図８は、例示的なデジタルデバイス８００であり、媒体８１７、ネットワークポート８１９、ユーザー入力キーボード８０９、ユーザー入力８１１、またはその他の入力手段からの命令を読み取ることができる論理的装置を示す。装置８００はその後、データスペースにおける統計的な操作を指示する命令を使用して、例えば１つ以上のデータセットを構成することができる（例えば、データスペースの代表的な複数のメンバーを決定するために）。開示される実施形態を具体化することができる論理的装置の１つのタイプは、ＣＰＵ８０７と、任意選択のユーザー入力デバイスであるキーボード８０９と、ＧＵＩポインティングデバイス８１１とを含むコンピュータシステム８００と同様のコンピュータシステム、ならびに周辺構成要素、例えば、ディスクデバイス８１５およびモニター８０５（ＧＯ改変文字列を表示し、ユーザーによって、そのような文字列のサブセットの簡易化選択を提供する）である。固定媒体８１７は、必要に応じて、全システムをプログラムするために使用され、例えばディスク型の光学もしくは磁気媒体またはその他の電子記憶要素を含むことができる。通信ポート８１９は、このシステムをプログラムするために使用することができ、任意のタイプの通信接続を表すことができる。

一部の実施形態において、本開示は、１つ以上のプロセッサと、システムメモリと、１つ以上のプロセッサによって実行されると、コンピュータシステムに生物分子の定向進化を行う方法を実装させるコンピュータ実行可能命令を記憶した１つ以上のコンピュータ読み取り可能な記憶媒体とを含むコンピュータシステムを提供する。本方法は、（ａ）複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子が、様々な型および配列位置のサブユニットを有する配列を含むことと、（ｂ）前記得られたデータから配列−活性モデルを構築することと、（ｃ）前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるための、バリエーションの特定の位置における特定の型の１つ以上のサブユニットを同定することとを含む。一部の実施形態において、配列−活性モデルは、複数のベース乗法項の積を含み、ベース乗法項の各々は、（１）特定の配列位置における特定の型の定義されたサブユニットの存在／非存在を表すダミー変数と、（２）活性に対する前記定義されたサブユニットの寄与を表す係数とを含む。

ある特定の実施形態は、特定用途向け集積回路（ＡＳＩＣ）またはプログラム可能論理デバイス（ＰＬＤ）の回路内で具体化することもできる。そのような場合、実施形態は、ＡＳＩＣまたはＰＬＤを生成するために使用することができるコンピュータ読み取り可能な記述子言語で実現される。本発明の一部の実施形態は、ＰＤＡ、ラップトップコンピュータシステム、ディスプレー、画像編集設備等、様々なその他のデジタル装置の回路または論理的プロセッサ内で実装される
一部の実施形態において、本発明は、コンピュータシステムの１つ以上のプロセッサによって実行されると、コンピュータシステムに、所望の活性に影響を与える生物分子を同定する方法を実施させるコンピュータ実行可能命令を記憶した１つ以上のコンピュータ読み取り可能な記憶媒体を含むコンピュータプログラム製品に関する。そのような方法は、図および擬似コードにより包含されるような、本明細書に記載される任意の方法である。一部の実施形態において、方法は、複数の生体分子の配列データおよび活性データを受け取り、配列データおよび活性データからベースモデルおよび改善されたモデルを調製する。一部の実施形態において、モデルは、配列のサブユニットの存在または非存在の関数として活性を予測する。

本発明の一部の実施形態において、コンピュータプログラム製品によって実施される方法は、少なくとも１つの新たな相互作用項を、ベースモデルに／これから加算／減算することにより、少なくとも１つの新たなモデルを調製し、前記新たな相互作用項は、２個以上の相互作用するサブユニットの間の相互作用を表す。一部の実施形態において、本方法は、サブユニットの存在または非存在の関数として活性を予測する少なくとも１つの新たなモデルの能力を決定する。本方法は、また、上で決定された活性を予測する少なくとも１つの新たなモデルの能力に基づき、追加の相互作用項を含むことに対する否定的な偏りを伴って、新たな相互作用項をベースモデルに／これから加算／減算すべきか否かを決定する。

（ＶＩＩＩ．実施例）
次の実施例は、本発明の様々な実施形態を実装する定向進化のプロセスを示す。プロセスは、タンパク質バリアントライブラリーの作製、ライブラリーのバリアントに基づく様々な形式の配列−活性モデルの作製、および所望のレベルの目的のタンパク質活性を達成するためのタンパク質の定向進化の実施を含む。

先ず、重複伸長による自動並列スプライシング（ＳＯＥ化）またはＡＰＳ技術を使用して、１１種の変異を有するタンパク質バリアントのコンビナトリアルタンパク質バリアントライブラリーを構築した。ライブラリーは、バリアント当たり約３変異の率で変異をランダムに取り込む。表ＶＩの最初の１１行に、タンパク質バリアントの１１種の変異を示す。

次に、プロセスは、ライブラリーのための配列／活性データを得た。バーコード能力を有する次世代シーケンシング方法を使用して、構築されたバリアントをシーケンシングした。シーケンシングアッセイ（ｅｓｓａｙ）は、６×９６ウェルプレートを含み、各プレートは、６個のバックボーン陽性対照ウェルおよび６個の陰性対照ウェルを含んだ。アッセイは、タンパク質の適応度または所望の活性も測定した。陽性対照（ＦＩＯＰ）尺度を上回る倍数改善として、陽性対照に対する比率として適応度を記録した。

上で得られた配列／活性データを使用して、変異の存在／非存在を表すデータ行列を構築した。データ行列の各行は、総計ｎ行（１７９）に対して、バリアント（配列）を表した。行列の第１列は、バリアントの活性を表すＦＩＯＰ値を含んだ。他の全列は、変異の存在／非存在を表す値を含んだ。

次の形式のような非相互作用加法ベースモデルを使用して、得られたデータ行列を適合させる：
ｙ＝β＋Ｃ_１ＡＸ_１Ａ＋Ｃ_１ＧＸ_１Ｇ＋Ｃ_２ＡＸ_２Ａ＋Ｃ_２ＧＸ_２Ｇ＋Ｃ_３ＡＸ_３Ａ＋Ｃ_４ＡＸ_４Ａ＋Ｃ_５ＡＸ_５Ａ＋Ｃ_６ＡＸ_６Ａ＋Ｃ_６ＧＸ_６Ｇ＋Ｃ_７ＡＸ_７Ａ＋Ｃ_８ＡＸ_８Ａ式中、ｙは、モデルにより予測される活性であり、βは、線形方程式の「切片」である。

返還を伴うランダムサンプリングを使用したブートストラップ技法を適用して、次の手順を使用してモデルを得られたデータに適合させた：
（ａ）データ行列におけるデータの行を、ｎ行（１７９）回数返還を伴ってサンプリングした。
（ｂ）通常の最小二乗回帰を使用して、サンプリングしたデータを適合させた。
（ｃ）ステップ（ａ）および（ｂ）を５００回反復した。
（ｄ）（ｃ）の各々からの係数を平均して、最終モデル係数値を得た。
（ｅ）（ｄ）から得られたモデルを使用して、データ行列における配列データのＦＩＯＰ値を予測した。図９Ａにおいて、各観測に対して、観測および予測される値を一緒にプロットした。

表ＶＩの第２列に、この非相互作用加法モデルの係数の値を示す。図９Ａから分かる通り、非相互作用加法モデルは、多くの観測、特に、低い観測活性レベルを有する観測の活性レベルを過大評価する。

第２の例は、乗法モデルを使用して、同じデータを適合させた。モデルは、次の形式を有する：
ｙ＝β×（１−Ｃ_１ＡＸ_１Ａ）×（１−Ｃ_１ＧＸ_１Ｇ）×（１−Ｃ_２ＡＸ_２Ａ）×（１−Ｃ_２ＧＸ_２Ｇ）×（１−Ｃ_３ＡＸ_３Ａ）×（１−Ｃ_４ＡＸ_４Ａ）×（１−Ｃ_５ＡＸ_５Ａ）×（１−Ｃ_６ＡＸ_６Ａ）×（１−Ｃ_６ＧＸ_６Ｇ）×（１−Ｃ_７ＡＸ_７Ａ）×（１−Ｃ_８ＡＸ_８Ａ）
あるいは、係数値が、ｙ値の計算に定数１を効果的に取り込むよう設定される場合、モデルは、次の形式をとることができる。例えば、上述のモデルの係数が、−０．９〜１．５の範囲に及ぶよう設定される場合、係数は、次の代替的モデルに対し０．１〜２．５の範囲に及ぶよう設定して、同様のモデル出力を達成することができる：
ｙ＝β×Ｃ_１ＡＸ_１Ａ×Ｃ_１ＧＸ_１Ｇ×Ｃ_２ＡＸ_２Ａ×Ｃ_２ＧＸ_２Ｇ×Ｃ_３ＡＸ_３Ａ×Ｃ_４ＡＸ_４Ａ×Ｃ_５ＡＸ_５Ａ×Ｃ_６ＡＸ_６Ａ×Ｃ_６ＧＸ_６Ｇ×Ｃ_７ＡＸ_７Ａ×Ｃ_８ＡＸ_８Ａ
ブートストラップおよび遺伝的アルゴリズム技法の両方を使用して係数値を調整することにより、モデルを精密化した。次の通り、観測に対する予測される活性（または適応度）の平均二乗誤差を最小化することにより、モデル適合を行った：
（ａ）行の配列／活性データをｎ行数返還を伴ってサンプリングして、ブートストラップデータを提供した。
（ｂ）−０．９〜１．５の間となるよう係数値が制限される遺伝的アルゴリズムを使用して、モデルをサンプリングしたデータに適合させた。遺伝的アルゴリズムは、２００の集団サイズを有し、１００世代にわたり実行した。
（ｃ）ステップ（ａ）および（ｂ）を５００回反復した。
（ｄ）（ｃ）の各々からの上位１０種の染色体／個体を平均して、最終モデル係数を得る。
（ｅ）各データ行列の行に対して、（ｄ）を使用してＦＩＯＰ値を予測する。図９Ｂにおいて、データ（観測）の各行に対して、観測および予測される値を一緒にプロットした。この乗法ベースモデルの係数値を、表ＶＩの第３列に示す。

図９Ｂから分かる通り、この非相互作用乗法モデルは、低い観測活性レベルを有するタンパク質バリアントに対して有意な一貫した過大評価を持たないように、バリアントライブラリーの観測された活性値により良くマッチする予測を有する。しかし、残余誤差は依然として相対的に大きく、データポイントは、プロットの対角線から離れて散乱した。

次の例は、相互作用乗法モデルを形成して、適切な相互作用項を同定するために、段階的方法を使用して精密化された乗法ベースモデルを実証する。この手順を開始して、次のステップにより、先の例に概要を述べる乗法ベースモデルから乗法モデルを精密化した。（ａ）上で得られたベースモデルを最良のモデルとして設定した。
（ｂ）あらゆる可能なペアワイズ相互作用係数を係数のプールに配置した（１Ａ^＊２Ａ、１Ａ^＊３Ａ、１Ａ^＊４Ａ、…、６Ｇ^＊８Ａ、７Ａ^＊８Ａ）。
（ｃ）先の例に記載されているものと同じパラメータを有する遺伝的アルゴリズムを使用して適合させられた、最良のモデルに各係数を加算した。
（ｄ）ＡＩＣを使用して（ｃ）から各新たなモデルの適応度を得た。
（ｅ）（ｄ）から得た最低ＡＩＣを有するモデル（すなわち、最適合モデル）を、現ラウンドのモデルの最良であるよう設定した。
（ｆ）（ｅ）から得たモデルが、最良のモデルよりも優れていた場合、最良のモデルをこのモデルに設定し、このモデルにおける係数を係数プールから除去し、アルゴリズムを（ｃ）に進める − さもなければ、新たなモデルが存在せず、アルゴリズムを完了する。（ｇ）先行する例に概要を述べるブートストラップ／適合方法を使用して、（ｆ）から得た新たなモデルを適合させる。

この相互作用乗法モデルの係数の値を表ＶＩの第４列に示し、この表の最後の４係数は相互作用項に関する。この表の３つの列にわたる係数値から分かる通り、モデル内の係数の相対的規模は同様のパターンを維持し、全モデルに関する最適化手順の正確な収束を示唆した。

図９Ｃは、相互作用乗法モデルにより予測されるタンパク質バリアントの活性対タンパク質バリアントの観測された活性レベルをプロットする。それによると、相互作用乗法モデルは、３つのモデルの間で観測の活性の予測において最良の成績であった。残余誤差は、活性レベルの全範囲を通して一貫して小さく、データポイントは、対角線付近に分布する。

次の例は、上で得られた相互作用乗法モデルを使用して、タンパク質バリアントの定向進化を誘導して、所望のタンパク質活性を達成する仕方を示す。

一例は、現ライブラリーに既に存在する変異を使用する。この例において、上で得られた相互作用乗法モデルを使用して、変異のあらゆる妥当に思われる組合せの活性を予測した。次に、あらゆる可能なバリアントの配列をｉｎｓｉｌｉｃｏで構築し、相互作用乗法モデルを使用して、その活性（ＦＩＯＰ）を計算した。予測されるＦＩＯＰを最高から最低に順序付け、表ＶＩＩにリストアップした。

上位５種の予測を、その予測値および観測値（利用できるのであれば）と共に以下に示す。観測されなかったバリアントを合成し、再検査し、観測されたバリアントと一緒に比較した。再検査における最良の成績のバリアントを前進させて、進化のための新たなバックボーンを作製した。

定向進化のこの例において、有害な変異および変異の組合せを記録し、進化の直近のラウンドから除外した。さらに、同定されたが、次のラウンドバックボーンに含まれない有益な多様性を、コンビナトリアル様式で（利用できるのであれば）以前に同定された有益な多様性と一緒に組み換えた。

定向進化の別の例は、変異誘発多様性機構を使用して、新たな多様性を作製した。目的の活性に有意な相互作用効果を有すると相互作用乗法モデルにより同定された位置において、コンビナトリアル様式で飽和変異誘発により多様性を作製することにより、配列空間を検索した。これらの位置は、高い値の相互作用係数を有する位置である：この場合、２位、３位、４位および７位である。これらの位置において同時に飽和変異誘発を行った。バックボーンに対する活性に関して、得られたライブラリーをスクリーニングし、これにより、より成績の良いバリアントの同定に役立てる。

前述では、明瞭さと理解を目的にいくらか詳細に記載してきたが、本開示の真の範囲から逸脱することなく形式上および詳細に様々な変更を行うことができることが、本開示を読み取ることから当業者に明らかにされよう。例えば、上述の全ての技法および装置は、様々な組合せで使用され得る。本出願に引用される全ての刊行物、特許、特許出願、またはその他の文書は、個々の刊行物、特許、特許出願、またはその他の文書のそれぞれが個々に全ての目的で参照により組み込まれることを示すかのように同じ程度まで、全ての目的でその全体が参照により組み込まれる。
例えば、本発明は以下の項目を提供する。
（項目１）
定向進化を行う方法であって、前記方法は、
（ａ）複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
（ｂ）前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
（ｃ）前記配列−活性モデルの前記項の前記係数を評価して、前記活性に寄与する前記定義された位置における前記定義されたアミノ酸またはヌクレオチドのうち１つ以上を同定することによって、定向進化のラウンドのための１つ以上の変異を選択することと、
（ｄ）（ｃ）において選択された前記１つ以上の変異を含むかまたはコードする複数のオリゴヌクレオチドを調製することと、
（ｅ）（ｄ）において調製された前記複数のオリゴヌクレオチドを使用して、定向進化のラウンドを実行することと
を含む、方法。
（項目２）
定向進化のラウンドのための変異を選択することは、前記係数の他のものよりも大きいと決定された１つ以上の係数を同定することと、そのように同定された前記１つ以上の係数によって表される定義された位置における前記定義されたアミノ酸またはヌクレオチドを選択することとを含む、項目１に記載の方法。
（項目３）
（ｃ）において選択される前記変異を含むかまたはコードする前記複数のオリゴヌクレオチドを調製することは、核酸合成機を使用して前記オリゴヌクレオチドを合成することを含む、項目１〜２のいずれかに記載の方法。
（項目４）
定向進化のラウンドを実行することは、所望のレベルの活性を有すると前記モデルによって予測される前記タンパク質配列を断片化し組み換えることを含む、項目１〜３のいずれかに記載の方法。
（項目５）
定向進化のラウンドを実行することは、所望のレベルの活性を有すると前記モデルによって予測される前記タンパク質配列において飽和変異誘発を実行することを含む、項目１〜４のいずれかに記載の方法。
（項目６）
定向進化を行う方法であって、前記方法は、
（ａ）複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
（ｂ）前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または前記タンパク質配列をコードする核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
（ｃ）前記配列−活性モデルの前記項の前記係数を評価して、前記活性に寄与する前記定義された位置における前記定義されたアミノ酸またはヌクレオチドのうち１つ以上を同定することによって、１つ以上の変異を選択することと、
（ｄ）（ｃ）において選択された前記１つ以上の変異を含む新たなタンパク質配列または新たな核酸配列を同定することと、
（ｅ）前記新たなタンパク質、または前記新たな核酸配列にコードされるタンパク質を調製しアッセイすることと
を含む、方法。
（項目７）
（ｄ）において同定された前記新たなタンパク質配列または新たな核酸配列をさらなる定向進化の出発点として使用することをさらに含む、項目６に記載の方法。
（項目８）
（ｃ）において選択される前記変異の１つ以上の位置において飽和変異誘発を行うことをさらに含む、項目６に記載の方法。
（項目９）
定向進化を行う方法であって、前記方法は、
（ａ）複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
（ｂ）前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または前記タンパク質配列をコードする核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
（ｃ）前記配列−活性モデルの前記項の前記係数を評価して、前記活性に寄与する前記定義された位置における前記定義されたアミノ酸またはヌクレオチドのうち１つ以上を同定することにより、前記タンパク質配列または核酸配列における１つ以上の位置を選択することと、
（ｄ）（ｃ）において同定された前記１つ以上の位置において飽和変異誘発を行うことと
を含む、方法。
（項目１０）
定向進化を行う方法であって、前記方法は、
（ａ）複数のタンパク質バリアントの各々に対する配列データおよび活性データを得ることと、
（ｂ）前記複数のタンパク質バリアントの各々に対する前記配列データおよび活性データから配列−活性モデルを生成することであって、前記配列−活性モデルは、
複数の項の積であって、前記項のうちの少なくとも一部の各々は、活性に対するタンパク質配列または前記タンパク質配列をコードする核酸配列における定義された位置における定義されたアミノ酸またはヌクレオチドの寄与を表す係数を含む、複数の項の積と、
前記タンパク質バリアントの前記活性を表す従属変数と
を含む、ことと、
（ｃ）前記配列−活性モデルに複数のタンパク質配列または複数のアミノ酸配列を適用し、前記複数のタンパク質配列または核酸配列の各々に対して、前記配列−活性モデルによって予測される活性値を決定することと、
（ｄ）前記複数の配列に対して、前記配列−活性モデルによって予測される前記活性値を評価することによって、（ｃ）において適用される前記複数のタンパク質配列または複数のアミノ酸配列の中から新たなタンパク質配列または新たな核酸配列を選択することと、（ｅ）前記新たなタンパク質配列を有するタンパク質、または前記新たな核酸配列にコードされるタンパク質を調製しアッセイすることと
を含む、方法。
（項目１１）
前記新たなタンパク質配列を有する前記タンパク質、または前記新たな核酸配列にコードされる前記タンパク質を調製することは、前記新たなタンパク質または前記新たな核酸配列を合成することを含む、項目１０に記載の方法。
（項目１２）
前記係数を含む前記項の各々は、係数と独立変数との積を含み、前記係数は、活性に対する定義された位置における前記定義されたアミノ酸またはヌクレオチドの寄与を表し、前記独立変数は、前記関連する係数の前記定義された位置における前記定義されたアミノ酸またはヌクレオチドの存在または非存在を表す、項目１〜１１のいずれかに記載の方法。
（項目１３）
前記係数を含む前記項の各々は、（１＋係数×独立変数）の形式で提供される、項目１２に記載の方法。
（項目１４）
前記係数は、ルックアップテーブルにおいて提供される、項目１〜１３のいずれかに記載の方法。
（項目１５）
前記配列−活性モデルは、前記タンパク質バリアントの前記活性を表す前記従属変数と前記複数の項の前記積との間の関係性を含む、項目１〜１４のいずれかに記載の方法。
（項目１６）
定向進化のラウンドを実行することは、（ｃ）において選択される前記変異を含むかまたはコードする複数のオリゴヌクレオチドをシャッフリングすることを含む、項目１〜１５のいずれかに記載の方法。
（項目１７）
定向進化のラウンドを実行することは、タンパク質バリアントライブラリーを形成することを含む、項目１〜１６のいずれかに記載の方法。
（項目１８）
活性をアッセイすることと、前記タンパク質バリアントライブラリーのメンバーをシーケンシングすることとをさらに含む、項目１７に記載の方法。
（項目１９）
前記タンパク質バリアントライブラリーに対する活性および配列情報に基づいて作業（ｂ）〜（ｅ）を実行することによって、前記タンパク質バリアントライブラリーに対する前記活性および配列情報を使用して、新たな配列−活性モデルを作製し使用することをさらに含む、項目１８に記載の方法。
（項目２０）
前記配列−活性モデルの前記複数の項のうち少なくとも１つは、（ｉ）前記配列における第１の位置における第１のアミノ酸またはヌクレオチドと、（ｉｉ）前記配列における第２の位置における第２のアミノ酸またはヌクレオチドとの定義された組合せの活性に対する寄与を表す相互作用係数を含み、
前記相互作用係数は、前記活性に対する前記定義された組合せの寄与を表す、項目１〜１９のいずれかに記載の方法。
（項目２１）
前記配列−活性モデルを生成することは、相互作用係数を含む項の段階的加算または減算を実行することを含む、項目２０に記載の方法。
（項目２２）
前記配列−活性モデルを生成することは、遺伝的アルゴリズムを使用して、相互作用係数を含む１つ以上の項を選択することを含む、項目２０に記載の方法。
（項目２３）
前記配列−活性モデルを生成することは、遺伝的アルゴリズムを使用して、前記係数の値を精密化することを含む、項目１〜２２のいずれかに記載の方法。
（項目２４）
配列−活性モデルを生成することは、
（ｉ）各々が（ｂ）に規定される複数の項の積および従属変数を含むある世代のモデルを調製することと、
（ｉｉ）前記タンパク質バリアントの前記配列を使用して、前記複数のタンパク質バリアントのうち少なくとも一部の活性を予測するために、前記世代のモデルにおける前記モデルの各々を使用することと、
（ｉｉｉ）前記複数のタンパク質バリアントの活性を正確に予測する前記モデルの能力に基づいて、前記世代のモデルから１つ以上のモデルを選択することと、
（ｉｖ）前記選択された１つ以上のモデルを修正して、次世代のモデルを生成することと、
（ｖ）前記次世代のモデルを用いて（ｉｉ）〜（ｉｖ）を複数回反復して、（ｂ）の前記配列−活性モデルを生成することと
を含む、項目２２または２３に記載の方法。
（項目２５）
前記配列−活性モデルを生成することは、事前情報を使用して、前記モデルの事後確率分布を決定することを含む、項目１〜２４のいずれかに記載の方法。
（項目２６）
各々が（ｂ）に規定される形式を有する配列−活性モデルのアンサンブルを生成することをさらに含む、項目１〜２５のいずれかに記載の方法。
（項目２７）
２つ以上の配列−活性モデルからの項を含むアンサンブルモデルを生成することをさらに含み、前記アンサンブルモデルの前記項は、活性を予測する前記２つ以上のモデルの能力によって重み付けられる、項目２６に記載の方法。
（項目２８）
前記アンサンブルモデルを使用して、定向進化のラウンドのための変異を選択することをさらに含む、項目２６に記載の方法。
（項目２９）
生物分子の定向進化を行う方法であって、前記方法は、
（ａ）複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子は、様々な型および配列位置のサブユニットを有する配列を含む、ことと、
（ｂ）前記得られたデータから配列−活性モデルを構築することであって、前記配列−活性モデルは、サブユニットの前記型および配列位置の関数として活性を予測し、前記配列−活性モデルは、複数のベース乗法項の積を含み、前記ベース乗法項の各々は、
（１）特定の配列位置における特定の型の定義されたサブユニットの存在／非存在を表すダミー変数、および（２）活性に対する前記定義されたサブユニットの寄与を表す係数を含む、ことと、
（ｃ）前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるバリエーションに対して、特定の位置における特定の型の１つ以上のサブユニットを同定することと
を含む、方法。
（項目３０）
前記配列は、全ゲノム、染色体全体、染色体セグメント、相互作用する遺伝子の遺伝子配列のコレクション、遺伝子、タンパク質もしくは多糖またはこれらの任意の組合せである、項目２９に記載の方法。
（項目３１）
前記サブユニットは、染色体、染色体セグメント、ハプロタイプ、遺伝子、コドン、変異、ヌクレオチド、アミノ酸、単糖、脂質またはこれらの任意の組合せである、項目２９に記載の方法。
（項目３２）
コンピュータシステムであって、
１つ以上のプロセッサと、
システムメモリと、
コンピュータ実行可能命令を記憶した１つ以上のコンピュータ読み取り可能な記憶媒体と
を含み、
前記命令は、前記１つ以上のプロセッサによって実行されると、前記コンピュータシステムに生物分子の定向進化を行う方法を実装させ、前記方法は、
（ａ）複数の生物分子に対する配列データおよび活性データを得ることであって、各生物分子は、様々な型および配列位置のサブユニットを有する配列を含む、ことと、
（ｂ）前記得られたデータから配列−活性モデルを構築することであって、前記配列−活性モデルは、サブユニットの前記型および配列位置の関数として活性を予測し、前記配列−活性モデルは、複数のベース乗法項の積を含み、前記ベース乗法項の各々は、
（１）特定の配列位置における特定の型の定義されたサブユニットの存在／非存在を表すダミー変数、および（２）活性に対する前記定義されたサブユニットの寄与を表す係数を含む、ことと、
（ｃ）前記配列−活性モデルを使用して、前記生物分子の所望の活性に影響を与えるバリエーションに対して、特定の位置における特定の型の１つ以上のサブユニットを同定することと
を含む、コンピュータシステム。

Claims

本明細書に記載の発明。