[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2009520278A - 科学情報知識管理のためのシステムおよび方法 - Google Patents

科学情報知識管理のためのシステムおよび方法 Download PDF

Info

Publication number
JP2009520278A
JP2009520278A JP2008545870A JP2008545870A JP2009520278A JP 2009520278 A JP2009520278 A JP 2009520278A JP 2008545870 A JP2008545870 A JP 2008545870A JP 2008545870 A JP2008545870 A JP 2008545870A JP 2009520278 A JP2009520278 A JP 2009520278A
Authority
JP
Japan
Prior art keywords
feature
features
feature set
data
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008545870A
Other languages
English (en)
Inventor
スー・キャオジュアン・ジェイン
クパーシュミッド・イーリヤ
アンドリー・フランソワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextBio Inc
Original Assignee
NextBio Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextBio Inc filed Critical NextBio Inc
Publication of JP2009520278A publication Critical patent/JP2009520278A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】科学情報知識管理のためのシステムおよび方法を提供する。
【解決手段】 本発明は、ハイスループットの生物学的および化学的分析プラットフォームから大規模なデータを収集、統合、編成、ナビゲート、および処理するための方法、システム、ならびに装置に関する。これは、様々な生物学的および化学的分析と、データタイプと、有機体とをもとにした多数の研究および実験に跨って調査処理を実施するための高効率のメタ解析インフラストラクチャ、ならびにこのようなインフラストラクチャを構築および追加するためのシステムを提供する。
【選択図】図12

Description

[関連出願]
本出願は、米国特許法第119条(e)に基づいて、2005年12月16日出願の米国仮特許出願第60/750,829号の優先権を主張する。
本発明は、概して、生物学情報、化学情報、医学情報を格納および検索するための方法、システム、ならびに装置に関するものである。これらの分野における研究は、実験ベンチからコンピュータベースの方法へと急速に移行してきた。例えば、NCBI(米国国立バイオテクノロジー情報センター)などの公共情報源は、遺伝子データおよび分子データのデータベースを提供する。研究者は、これらの情報源と民間情報源との間において、各種の分析プラットフォーム、有機体、データタイプなどから膨大な量のデータを入手することができる。生物医学情報の普及量が増すにつれ、研究者は、様々なプラットフォームおよび有機体などに跨って新しい情報を素早く取り入れそれらを既存の情報と統合させる、高速でかつ効率的なツールを必要とする。研究者は、また、様々な種類の情報の中を素早くナビゲートしてそれらを解析するためのツールを必要とする。
本発明は、ハイスループットの生物学的および化学的分析プラットフォームから大規模なデータを収集、統合、編成、ナビゲート、およびクエリ(処理要求を含む各種の処理)するための方法、システム、ならびに装置に関する。これは、様々な生物学的および化学的分析と、データタイプと、有機体とによる多数の研究および実験に跨って調査処理を実施するための高効率のメタ解析インフラストラクチャ、ならびにこのようなインフラストラクチャを構築および追加するためのシステムを提供する。
本発明の一態様は、様々な種類の生物学情報、化学情報、医学情報を格納および処理するために使用可能な知識ベースに関する。本発明の各種の実施形態によると、知識ベースは、特徴セットを含む。特徴セットは、1つもしくは複数のサンプルに対する1つまたは複数の実験から得られる「生データ」をもとにした縮小データセットである。特徴セットは、1つまたは複数の特徴(通常は複数の特徴)と、それらの特徴に実験が及ぼすインパクトに関する関連の情報とを含む。特定の実施形態では、特徴セットの特徴は、ランク付けされる。ランキングは、測定の実験に応じた特徴の相対的有意性を示すものである。知識ベースは、また、何らかのかたちで互いに関連しあった特徴を含有した特徴グループを含むことも可能である。一例として、特徴グループの構成要素は、全て同じシグナル伝達経路に属してもよいし、あるいは共通の構造的特徴を共有してもよい。各種の実施形態によると、知識ベースのその他の部分は、一特徴セットとその他の特徴セットまたは特徴グループとの間の相関に関する情報を含有したスコア表を含む。例えば、同じ遺伝子を多数含有する特徴セットどうしは、スコア表の情報に反映されるように、高度に相関していると考えられる。特定の実施形態では、相関情報は、特徴のランキングを考慮に入れる。知識ベースの別の一要素は、知識ベース内の「特徴」(例えば遺伝子、配列、たんぱく質、化合物など)の固有名称または固有識別子を含有した索引セットである。索引セットは、また、異名およびゲノム座標などのリストを含んでもよく、これは、ユーザによってインポートされた特徴を効率良くルックアップして、それらを索引セットに格納された固有識別子に関連付けるために使用可能である。やはり特定の実施形態では、知識ベースは、「タグ」のリストまたは階層構造を含む分類表を含む。タグとは、知識ベース内の特定の特徴に関連付け可能な標準的な生物学的、化学的、または医学的な重要な概念および用語である。
本発明の別の一態様は、知識ベースを作成すなわち生成する方法に関する。特定の実施形態では、方法は、ユーザによって実行可能な後の処理に使用するためにデータをインポートおよび前処理することをともなう。インポート動作および前処理動作の多くは、自動的に実施される。特定の実施形態では、インポートは、特徴セットをシステムにインポートすることと、インポートされた特徴を、関連の標準的な生物医学的または化学的用語でタグ付けすることと、特徴セット内の特徴をランク付けすることと、特徴をその特徴のためのグローバル一意識別子または名称にマッピングすることとを含む。前処理は、特徴セットを知識ベース内のその他の特徴セットおよび特徴グループ(一般にその他の全ての特徴セットおよび特徴グループ)と相関させることと、ユーザ処理に対して結果を提供する際に使用される相関スコアを生成することとをともなう。知識ベースの作成は、また、生データをもとに1つまたは複数の特徴セットを生成するキュレーション動作を含むことも可能である。
本発明の別の一態様は、処理に関する。特定の実施形態では、処理は、「検索分野」内のその他の内容(ii)に照らして比較および/または解析される具体的内容を指定し、その検索分野からの内容を比較に基づいて選択および/またはランク付けした処理結果(iii)を生成すること(i)をともなう。検索分野は、特徴セットおよび特徴グループなどの内容を格納した知識ベースの一部または全部を含むことが可能である。例として、指定された内容を検索分野内の内容に照らして比較される処理として、特徴セット処理、特徴グループ処理、および特徴固有の処理が挙げられる。
特定の実施形態では、本発明は、処理を入力および実施するための方法であり、処理結果を表示するための方法ならびにユーザインターフェースに関する。特定の実施形態では、ユーザインターフェースは、(1)処理用の内容の候補を見つけるために、(2)処理用の内容を入力または選択するために、および(3)関連の内容を含有したライブラリ内または知識ベース内の検索分野を限定するために、ユーザによって使用される領域を備えている。
本発明のこれらのおよびその他の特徴ならびに利点が、図面を参照にしつつ、以下において、より詳しく説明される。
1. 概論および関連用語
本発明は、ハイスループットの生物学的および化学的分析プラットフォームから大規模なデータを収集、統合、編成、ナビゲート、および処理するための方法、システム、ならびに装置に関する。これは、様々な生物学的および化学的分析と、データタイプと、有機体とによる多数の研究および実験に跨って調査処理を実施するための高効率のメタ解析インフラストラクチャ、ならびにこのようなインフラストラクチャを構築および追加するためのシステムを提供する。
以下の説明の大半は、生物学的な実験および研究から得られたデータの統合と探索とを可能にするシステム、方法、ならびに装置の観点から提示されるが、本発明は、決してそれらに限定されない。例えば、本発明は、化学データおよび臨床データを対象として網羅している。以下の説明では、本発明の完全な理解を可能にするために、多くの詳細が特定される。しかしながら、本発明は、本明細書において提示された一部の詳細に限定しなくても実施可能である。
以下の用語は、本明細書を通して使用される。以下の説明は、本明細書の理解を助けるために提供されるが、必ずしも本発明の範囲を限定するとは限らない。
生データ
これは、1つもしくは複数のサンプルに関する情報を提供する1つまたは複数の実験からのデータである。一般に、生データは、まだ、本発明のデータベースおよびシステムでの使用に適したレベルまで縮小されていない。これは、後続の操作によって、このようなデータベースおよびシステムでの使用に適した1つまたは複数の「特徴セット」の形態に縮小される。生データを特徴セットに変換するプロセスは、キュレーションと称されることがある。
本明細書において提示される例の大半は、組織または細胞培養などの生物学的サンプルに刺激を作用させる生物学的実験に関する。生物学的実験は、腫瘍の病期や患者の履歴などの関連の臨床パラメータを有することが多い。本発明は、しかしながら、生物学的サンプルに限定されず、例えば、化学化合物や、各種の合成および天然の物質などの非生物学的サンプルに対する実験、ならびにそれらが各種の分析に及ぼす影響(例えば癌細胞株の進行)をともなうことも可能である。
生物学的サンプルまたは非生物学的サンプルのいずれを扱うにしろ、サンプルには、試験サンプルを作成するために、1つまたは複数の刺激または処理を施すことができる。比較データもまた、作成することができる。刺激は、着手される特定の研究に適するように選択される。使用可能な刺激の例は、特定の物質または組成に対する暴露、放射(あらゆる形態の電磁放射および粒子放射を含む)、力(機械力(例えば重力)、電気力、磁気力、および核力を含む)、場、ならびに熱エネルギなどである。刺激として使用可能な物質の一般例には、有機および無機の化学化合物、核酸、炭水化物、たんぱく質、ペプチド、および脂質などの生物学的物質、各種の感染物質、ならびに前述のものの混合などが含まれる。刺激のその他の一般例には、非周囲温度、非周囲圧力、音響エネルギ、あらゆる周波数の電磁放射、特定の物質の欠乏(例えば虚血などにおける酸素の欠乏)、および一時的要因などが含まれる。示唆されるように、本発明の状況においてとりわけ重要なタイプの刺激は、治療薬(治療効果があると思われるが、まだこの性質を有するかどうかを証明されていない薬を含む)に対する暴露である。治療薬は、薬もしくは薬候補などの化学化合物、または環境下の化合物であることが多い。化学化合物の生物学的インパクトは、遺伝子発現のレベルまたは表現型の特性などの特徴の変化として顕在化する。
示唆されるように、生データは、実験をもとにして関連の情報を作成される「特徴」を含む。多くの例では、特徴は、特定の刺激に暴露された特定の組織もしくは細胞のサンプルからの遺伝子情報またはゲノム情報である。
典型的な生物学的実験は、遺伝子、または特定の種類の細胞もしくは組織に関連付けられたその他の特徴に関する、発現あるいはその他の情報を決定する。実験情報を生データとして収集可能なその他のタイプのゲノム特徴には、SNPパターン(例えばハロタイプブロック)、遺伝子の部分(例えばエクソン/イントロンまたは調節モチーフ)、および2つ以上の遺伝子に跨る染色体ゲノムの領域などが含まれる。その他のタイプの生物学的特徴には、細胞の形態などの表現型の特徴、ならびに細胞核およびゴルジなどの細胞器官が含まれる。化学的特徴のタイプには、化合物および代謝物などが含まれる。
生データは、各種のプラットフォーム(例えば遺伝子マイクロアレイ、SNPマイクロアレイ、およびたんぱく質マイクロアレイを含むいくつかのマイクロアレイシステムのいずれかや、細胞カウントシステム、ならびにハイスループットスクリーニング(「HTS」)プラットフォームなど)を使用した各種タイプの任意の実験から生成することができる。例えば、特定の有機体の特定の種類の細胞内における複数の遺伝子の発現を決定する実験では、オリゴヌクレオチドマイクロアレイも使用される。別の一例では、サンプル内におけるたんぱく質の存在度を決定するために、質量分析が使用される。
特徴セット:
これは、1つもしくは複数のサンプルに対する1つまたは複数の実験から得られる「生データ」をもとにした縮小データセットを意味する。特徴セットは、1つまたは複数の特徴(通常は複数の特徴)と、それらの特徴に対して実験が及ぼすインパクトに関する関連の情報とを含む。どこかの時点で、特徴セットの特徴は、実験における刺激または治療に対するそれらの反応の相対的レベルに基づいて、あるいは異なる表現型間におけるそれらの変化の大きさおよび方向、ならびに異なる表現型状態(例えば腫瘍の後期段階対腫瘍の初期段階)を区別するそれらの能力に基づいて、(少なくとも一時的に)ランク付けすることができる。
格納上および計算上の効率が理由で、例えば、特徴セットは、生データに含有される多くの特徴に関する情報を含まないことがある。上述のように、生データは、キュレーションなどのプロセスによって特徴セットに変換される。
一般に、特徴セットは、特定の質問または問題(例えば、特定の化学化合物が特定の経路においてたんぱく質と相互作用するかなど)に関連付けられた生データに関する。生データおよび研究に応じて、特徴セットは、単一有機体の単一タイプの細胞に限定することができる。「ディレクトリ」の観点からすると、一特徴セットは、一「研究」に属する。換言すると、単一の研究は、1つまたは複数の特徴セットを含むことができる。
多くの実施形態において、特徴セットは、「バイオセット」または「ケミセット」のいずれかである。バイオセットは、一般に、特定の刺激または治療が及ぼす生物学的インパクトに関する情報を提供するデータを含有している。バイオセットの特徴は、一般に、上述のように、ゲノム情報または表現型情報のまとまりである。これらは、刺激に対するそれらの反応のレベル(例えば発現の上昇または低下の度合い)に基づいて、あるいは異なる表現型間におけるそれらの変化の大きさおよび方向、ならびに異なる表現型状態(例えば腫瘍の後期対腫瘍の初期)を区別するそれらの能力に基づいて、ランク付けされる。ケミセットは、一般に、一団の化学化合物に関するデータと、それら化学化合物が生物学的サンプルなどのサンプルとどのように相互作用するかに関するデータとを含有している。ケミセットの特徴は、一般に、個々の化学化合物、または特定の化学化合物の濃度である。これらの特徴に関する関連の情報は、EC50値やIC50値などであることが可能である。
特徴セットは、一般に、1つまたは複数の特徴のIDに加えて、各特徴に関する統計情報、および場合によっては各特徴に関する共通名またはその他の情報を含む。特徴セットは、重要な特徴の関連説明およびユーザによる注釈など、各特徴についてのさらに他の情報を含むことができる。統計情報は、(データキュレーション段階からの)特徴に関するデータのp値、および「倍変化」データなどを含むことができる。倍変化は、試験実験または比較実験において発現が増減した倍率(倍)を示す(例えば、特定の遺伝子の発現が治療に反応して「4倍」増大したなど)。特徴セットは、また、変化の表示ではなく「正常状態」を表す特徴を含有することも可能である。例えば、特徴セットは、大多数のヒト組織全体を通して「正常でなおかつ均一な」発現レベルを有する遺伝子のセットを含有することができる。この場合の特徴セットは、必ずしも変化を示すとは限らず、むしろ、変化の欠乏を示すと考えられる。
特定の実施形態では、少なくとも一時的に、各特徴にランクが帰せられる。これは、単純に、特徴セット内の特徴グループ内における相対的反応の測定値であることが可能である。一例として、ランクは、比較実験の特徴と試験実験の特徴との間における発現の相対的差異(上昇または低下)の測定値であることが可能である。特定の実施形態では、ランクは、特徴の反応の絶対値と無関係である。このため、例えば、1つの特徴セットにおいて、1.5倍増の反応を有する特徴が2位にランキングされる一方で、別の特徴セットでは、異なる刺激に対して5倍増の反応を有する同じ特徴がやはり2位にランキングされる。
特徴グループ:
これは、互いに関連しあった特徴(例えば遺伝子)のグループを意味する。一例として、特徴グループの構成要素は、特定の細胞内において全て同じたんぱく質経路に属してもよいし、あるいは共通の機能または構造的特徴を共有してもよい。特徴グループは、また、作用メカニズムまたは構造的特徴/結合特徴に基づく化合物のグループ分けであることも可能である。
インデックスセット
インデックスセットは、特徴識別子およびマッピング識別子を含有した知識ベース内の一セットであり、インポートされた特徴セットの全ての特徴を、知識ベース内に既にある特徴セットおよび特徴グループにマッピングするために使用される。例えば、インデックスセットは、数十万のマッピング識別子を指し示す数百万の特徴識別子を含有することが可能である。各マッピング識別子(アドレスと称されることもある)は、例えばマウスのゲノム中の固有遺伝子などの固有な特徴を表す。特定の実施形態では、インデックスセットは、固有の識別子へのポインタ、すなわちアドレスを各自有する様々な種類の特徴識別子(例えば遺伝子およびゲノム領域など)を含有することが可能である。インデックスセットは、新しい知識の取得とともに追加または変更することが可能である。
知識ベース:
これは、処理の解析および処理への応答に使用されるデータの集合を意味する。特定の実施形態では、これは、1つまたは複数の特徴セット、特徴グループ、ならびに特徴セットを特定の階層またはディレクトリ(例えば研究およびプロジェクトの階層)に編成するためのメタデータを含む。また、知識ベースは、特徴セットを互いに相関させるまたは特徴セットを特徴グループと相関させる情報と、異なるプラットフォーム(例えばアフィメトリクスヒトHG_U133Aチップ)上で測定された特徴のリストなど、遺伝子もしくはその他の特徴についてのグローバル一意の用語または識別子のリストと、異なる有機体中の特徴の総数と、対応する転写と、たんぱく質産物と、それらの関係とを含むことが可能である。知識ベースは、一般に、異なる組織、病状、化合物の種類、表現型、細胞、およびそれらの間の関係についての全てのタグ(キーワード)のリストを含有した分類表も含有している。例えば、分類表は、癌と肝臓癌との間の関係を定め、さらに、これらの各グループに関連付けられたキーワードも含有している(例えば、「ネオプラズム」というキーワードが「癌」と同じ意味を持つなど)。必ずしも必要ではないが、一般に、知識ベース内のデータの少なくとも一部は、データベースの形に編成される。
キュレーション:
キュレーションは、生データを1つもしくは複数の特徴セット(または特徴グループ)に変換するプロセスである。これは、場合によっては、実験からの生データに含有されるデータの量を大幅に減少させる。これは、有意性を持たない特徴についてのデータを排除する。特定の実施形態では、これは、比較実験と試験実験との間で発現を大きく増減させない特徴が特徴セットに含まれないことを意味する。キュレーションのプロセスは、このような特徴を特定して生データから排除する。キュレーションプロセスは、また、特徴セットを定めるために使用される関連の臨床質問を、生データの中から特定する。キュレーションは、また、知識ベースでの使用に適した標準フォーマットで特徴セットを提供する。
データのインポート:
データのインポートは、特徴セットおよび特徴グループを、知識ベースへとまたはシステム内のその他のリポジトリへと持ち込むプロセスであり、知識ベースを構築する際に重要な動作である。ユーザインターフェースは、実験、その実験と特定の研究および/またはプロジェクトとの関連、ならびに実験プラットフォーム(例えばアフィメトリクスジーンチップ)をユーザが指定することと、データにタグ付けするための重要な概念をユーザが特定することとを可能にすることによって、データの入力を促進することができる。特定の実施形態では、データのインポートは、また、データにタグ付けする自動動作と、インポートされたデータを既にシステム内にあるデータにマッピングする自動動作とを含む。(インポート後の)後続の「前処理」は、インポートされたデータ(例えばインポートされた特徴セットおよび/または特徴グループ)を、その他の特徴セットおよび特徴グループと相関させる。
前処理:
前処理は、知識ベース内の特徴セットペア間の統計的関係を特定および格納するように特徴セットを操作することをともなう。前処理は、また、知識ベース内の特徴セット間および特徴グループ間の統計的関係を特定および格納することもともなう。特定の実施形態では、前処理は、新しくインポートされた特徴セットを、知識ベース内のその他の特徴セットおよび特徴グループと相関させることをともなう。一般に、統計的関係は、異なる全ての特徴セットペアおよび特徴セットと特徴グループとの全ての組み合わせについて予め計算され格納されるが、本発明は、この完全相関レベルに限定されない。一実施形態では、統計的相関は、ランクベースの集中統計を使用してなされる。例えば、特定の実施形態では、厳密な検定を用いたランクベースの反復アルゴリズムが使用されるが、特徴セット間の重複の大きさなどその他のタイプの関係を用いることも可能である。当該分野において知られたその他の相関方法もまた、使用可能である。
一例として、知識ベースに入力された新しい特徴セットは、既に知識ベース内にあるその他のあらゆる(または少なくとも多くの)特徴セットと相関される。相関は、突き合わされた遺伝子のランクまたはその他の情報を比較することによって、新しい特徴セットと検討中の特徴セットとを特徴単位で比較する。一実施形態では、特徴セットを相関させるために、ランクベースの反復アルゴリズムが使用される。2つの特徴セットを相関させた結果が「スコア」である。スコアは、知識ベースに格納され、処理への応答に使用される。
研究/プロジェクト/ライブラリ:
これは、特定の実施形態で用いることができる階層状のデータのうつわ(ディレクトリのようなもの)である。一研究は、集中的実験セット(例えば特定の心血管系ターゲットに関わる実験)で得られた1つまたは複数の特徴セットを含むことができる。プロジェクトは、1つまたは複数の研究を含む(例えば一企業における心血管系への影響全体)。ライブラリは、知識ベース内の全てのプロジェクトの集合である。エンドユーザは、様々な階層レベル間の境界を定めるにあたって柔軟性を有する。
タグ:
タグは、一特徴セットに関する記述的情報を、その特徴セットに関連付ける。これは、処理が特定のタグを指定または暗示する場合に、その特徴セットを結果として特定することを可能にする。タグとしては、臨床パラメータがしばしば使用される。タグの例として、腫瘍の病期、患者の年齢、サンプルの表現型の特性、および組織の種類が挙げられる。
マッピング:
マッピングは、特徴セット内の特徴(例えば遺伝子)をとり、それを知識ベース内のグローバル一意マッピング識別子にマッピングする。例えば、2つの異なる特徴セットの作成に使用された2つの実験データセットは、同じ遺伝子に異なる名称を使用していることがある。本明細書において、知識ベースは、インデックスセット内に、グローバル一意マッピング識別子の包括的リストをしばしば含んでいる。マッピングは、異なる名称間につながりを確立するために、その遺伝子用の知識ベースのグローバル一意マッピング識別子を使用する。特定の実施形態では、一特徴を、複数のグローバル一意マッピング識別子にマッピングすることができる。また、一例では、一遺伝子を、特定のゲノム領域についての一グローバル一意マッピング識別子にマッピングすることもできる。マッピングは、様々なタイプの情報(すなわち異なるプラットフォーム、データタイプ、および有機体からの異なる特徴)を互いに関連付けることを可能にする。マッピングには多くの方法があり、そのうちのいくつかが、以下において詳細に述べられる。1つは、遺伝子のグローバル一意の名称の異名を探すことをともなう。もう1つは、遺伝子配列の空間的な重複をともなう。例えば、特徴セット内の特徴のゲノム座標または染色体座標は、知識ベースのインデックスセット内のマッピング特徴の座標と重複することがある。もう1つのタイプのマッピングは、特徴セット内の遺伝子を、インデックスセット内の遺伝子に間接的にマッピングすることをともなう。例えば、とある実験での遺伝子は、知識ベース内の調節配列と座標が重複することがある。その調節配列は、特定の遺伝子を調節するものである。したがって、実験の配列は、間接的マッピングによって、知識ベース内のその遺伝子に間接的にマッピングされる。さらに別の形態の間接的マッピングは、インデックスセット内の遺伝子と、特徴セット内の検討中の実験遺伝子との近接性を決定することをともなう。例えば、実験特徴の座標は、知識ベースの遺伝子の100塩基対の範囲内である場合にその遺伝子にマッピングすることができる。
相関:
一例として、知識ベースに入力された新しい特徴セットは、既に知識ベース内にあるその他のあらゆる(または少なくとも多くの)特徴セットと相関される。相関は、突き合わされた遺伝子のランクまたはその他の情報を比較することによって、新しい特徴セットと検討中の特徴セットとを特徴単位で比較する。一実施形態では、(特徴セットを相関させるために、)ランクベースの実行アルゴリズムが使用される。2つの特徴セットを相関させた結果が「スコア」である。スコアは、知識ベースに格納され、遺伝子、臨床パラメータ、薬物療法などに関する処理への応答に使用される。
相関は、また、新しい特徴セットを知識ベース内の全ての特徴グループと相関させるためにも用いられる。例えば、「成長」遺伝子を表す特徴グループは、薬物反応を表す特徴セットと相関されてよく、これは、薬物効果と成長遺伝子との間に相関をなすことを可能にする。
2. 知識ベースを作成する
本発明の態様は、知識ベース、すなわち生物学情報および/または化学情報などの様々なタイプの情報のデータベースを作成ならびにナビゲートすることに関する。以下の説明は、本発明にしたがって知識ベース用のデータを得るための好ましい一プロセスを提起する。図1は、知識ベースを作成するプロセスの概要を示しており、図2〜11Cは、プロセスの態様をより詳細に説明している。
一実施形態において、知識ベースは、米国国立バイオテクノロジー情報センター(NCBI)を含む公共データベースなどの外部情報源からのデータを含むいくつかの情報源から得られた特徴セットおよび特徴グループを含有している。加えて、データベースの開発者または使用者によって取得および処理された独自のデータもまた、一般に使用される。
図1は、知識ベースを作成するプロセスの概要を示している。プロセスは、特定の実験または研究からの生データを受信することから開始する(102)。生データは、公共データベース、民間情報源、実験室で行われる個別の実験などから得ることができる。生データは、一般に、比較サンプルおよび試験サンプルについての情報を含有している。例えば、肺癌の遺伝子発現研究において、生データは、正常な(比較)肺細胞および腫瘍(試験)肺細胞についての発現プロフィールを含む。研究または実験からの生データは、さらに追加の情報を含有してよく、例えば、遺伝子発現のプロフィールは、特定の病状に、または異なる臨床パラメータ(年齢、性別、喫煙者/非喫煙者など)を有する患者に関連付けることも可能である。ひとたび生データが受信されると、生データは、次に、1つまたは複数の特徴セットを作成するために、キュレーションを施される(104)。特徴セットは、所定の実験設定において有意であるとして特定された特徴と、関連の統計的情報とからなるセットである。例えば、肺癌遺伝子発現の研究からの1つの特徴セットの特徴は、腫瘍細胞と正常細胞との間で異なる発現を示す遺伝子のセットであると考えられる。関連の統計的情報は、各特徴に関連付けられた倍変化またはp値を示してよく、これは、実験条件と比較条件との間での特徴の変化を表す。特徴セットは、特定の研究または実験から生成され、知識ベースにインポートされる(106)。後述されるように、データのインポートは、一般に、特徴セットを適切な生物医学的または化学的用語でタグ付けすることと、特徴セット内の各特徴を自動的にマッピングする、すなわちインポートされた各特徴と知識ベース内のその他の適切な特徴との間に適宜つながりを確立することとをともなう。知識ベースを作成する次の主要動作は、インポートされた各特徴セットと、知識ベース内のその他の全ての特徴セットおよび特徴グループとの相関スコアリングである(108)。相関スコアリング後は、例えばp値の形態をとる、一特徴セットとその他の全ての特徴セットおよび全ての特徴グループとの相関が既知となり、格納される。
ひとたび図1のプロセスが実施されると、ユーザは、処理およびナビゲートを行うことによって、知識ベースに含有された生物学情報を効率良く調査してつなぎあわせることができる。図1に示されたプロセスは、ユーザが知識ベースに実験データを追加しようと望むときにいつでも実施可能である。
A. キュレーション:
上述のように、キュレーションは、生データから特徴セットを生成するプロセスである。図2Aは、生データおよびその結果得られた特徴セットを図で表わしている。生データは、比較サンプルおよび試験サンプルについてのデータを含む。図2Aに示された例では、データ252は、特徴A〜Fについての測定値(例えばマイクロアレイからの強度測定値)を含む。一般に、データは、複製データを含み、ここでは、複製された比較サンプルが、データ252’,252’’として示されている。1つの実験は、一般に、複数の試験サンプルを含有する。図において、試験サンプルデータは、サンプル(試験1)データ(254およびその複製254’,254’’)、試験2データ、……試験N(256およびその複製256’,256’’)として示されており、各自、特定された特徴および関連の統計値をともなう。最も単純なケースでは、試験サンプルが1つ、比較サンプルが1つのみである(それぞれ一般に1つまたは複数の複製を有する)。試験サンプルは、複数あるほうが一般的である。一例では、各試験サンプルは、異なる濃度のとある治療化合物候補を表す。別の一例では、各試験サンプルは、臨床的適応の異なる患者から採取された組織サンプル(例えば、非喫煙者、各種レベルの喫煙者、ディーゼル車の運転手、治療投与前および治療投与後の患者などから採取された肺組織サンプル)を表す。
生データを生成するもととなるサンプルは、通常、とりわけそれが臨床サンプルに由来する場合に多くの異なるタイプの情報を含有する。例えば、腫瘍の病期1の細胞と腫瘍の病期2の細胞など、異なる患者の腫瘍間での遺伝子発現の差を測定する実験からの生データは、例えば患者が喫煙者であるかどうかや、患者の年齢、患者の前治療、診断の年度など、腫瘍の病期1にあるか腫瘍の病期2にあるかを超えたこれらの患者のその他の属性についての情報も含有することができる。
キュレーションプロセスは、1つまたは複数の特徴セットを生成する。これらは、図に示された例では、特徴セット1(258)から特徴セットM(260)までとして示されている。特徴セットは、生データ内の測定値から導かれた統計値を含有している。図中、これらは、例えばp値および倍変化など、統計値1および統計値2としてラベル付けされている。p値は、一般に、得られたものと少なくとも同程度に極端な結果を得る確率を意味しており、生データ内に存在しうるデータの一種である。倍変化は、一般に、比較サンプルおよび試験サンプルにおける一部の測定値の変化の倍率(2倍、3倍など)を意味する。各特徴セットは、異なる生物学的質問、臨床質問、または化学的質問(例えば化合物治療に反応した発現上昇や、特定の組織における発現上昇など)に関する。したがって、特定の特徴セットには、所定の質問に統計的に関連するものとしてキュレーション中に特定された特徴のみが含まれるので、各特徴セットは、それぞれ異なる特徴集合を有することができる。例えば、図2Aの特徴セット1は、特徴A〜Eを含有するのに対し、特徴セットMは、特徴D、E、およびFを含有する。同様に、各特徴セットは、そのセットに適したそれぞれ異なる関連の統計的測定値を含有することができる。図2Aにおける生データの表示は、生データをどのように表示可能であるかについての一例に過ぎない。
図2Bは、キュレーションプロセスの概要を示したプロセスフローシートである。プロセスは、データ品質制御(202)からスタートする。データ品質制御は、データを正規化すること、外れデータを排除すること、および全ての有効臨床質問を特定する(すなわち、全ての特徴セット候補を特定する)ことを含む。図2Cは、データ品質制御プロセスの一実施形態における動作を示したプロセスフローシートを示している。プロセスは、データの正規化(208)からスタートする。様々なデータタイプに対応した正規化戦略が、当該分野においてよく知られている。任意の適切な正規化戦略が使用可能である。次いで、アウトライヤ(外れ値)が特定され排除される(210)。これは、一般に、サンプル単位で実施される(すなわち、外れサンプルが排除される)。アウトライヤを特定するための標準的なプロセスもまた、よく知られている。ひとたびデータが正規化され、アウトライヤが排除されると、実験に関連した有効臨床質問が特定される(212)。特定の実施形態において、これは、特徴セット候補を特定することと同等である。一例では、とある経路にあるたんぱく質の遺伝子が、第1の特徴セット用の特徴を含み、異なる経路にあるたんぱく質の遺伝子が、異なる特徴セット用の特徴を含む。この場合、特徴セットを定める臨床質問は、特定の刺激または治療が2つの異なる細胞経路に及ぼすインパクトに関する。多くの場合、臨床質問は、その実験が答えようと意図したまたは測定しようと意図した質問である。これは、有効臨床質問として指定されてよく、関連の特徴セットは、比較サンプルと試験サンプルとの間に統計的に有意な差異があるような特徴を含有すると考えられる。(各特徴セット内の特徴は、一般に、後述される後続の統計的解析動作において決定される。)有効臨床質問は、必ずしも実験が意図していた質問である必要はなく、集められた生データがサポートしている質問であればよい。例えば、とある実験は、腫瘍の病期1のサンプルと腫瘍の病期2のサンプルとの比較を意図することができ、そのデータは、HER2陽性患者およびHER2陰性患者を示す関連の臨床的注釈とともに公開される。1つの特徴セットは、腫瘍の病期2のサンプル対腫瘍の病期1のサンプルにおける遺伝子の発現上昇であってよく(すなわち、腫瘍の病期2のサンプルにおいて発現が上昇した遺伝子を含有する特徴セット)、これに対して、もう1つの特徴セットは、HER2陽性患者対HER2陰性患者における遺伝子の発現上昇であってよい(すなわち、HER2陽性患者において発現が上昇した遺伝子を含有する特徴セット)。もし、臨床比較をサポートするのに十分な量の統計的に有意なデータが存在する場合は、その臨床質問は、有効であると見なすことができる。
多くの場合、生データは、例えば喫煙者/非喫煙者、服用している薬、年齢、腫瘍の病期など、患者に関する多くの異なる臨床パラメータまたは属性に関連付け可能な特徴を含有している。有効臨床質問の特定は、2つのデータグループ間(例えば喫煙者対非喫煙者)に、統計的に有意な特徴差があるかどうかを決定することをともなう。有効臨床質問の特定は、強引な方法や、より洗練された方法を含む、任意の適切な方法によって実施可能である。例えば、遺伝子発現の差異(または測定された特徴におけるその他の変化)に対して統計的に有意な影響を及ぼすパラメータを探すために、異なる臨床パラメータを含有する生データセット全体にマルチANOVAタイプの解析を実施することが可能である。特定の実施形態では、例えばデータにクラスタ化を施すことによって、データグループのクラスタ(集まり)のサンプルを比較して、特徴セットの生成に使用可能な統計的に有意なグループ比較が存在するかどうかを調べることが可能である。
図2Bに戻り、ひとたび有効臨床質問が特定されると、次は、p値、倍変化、およびその他の関連の統計/測定情報などの統計的測定を得るために、統計的解析が実施される。図2Dは、統計的解析プロセスの概要を示している。プロセスは、信号フィルタリング(214)、すなわち、対応する信号が強度(またはその他の測定値)の閾値を下回るような特徴をフィルタリング除去する動作からスタートする。例えば、マイクロアレイからの蛍光信号が遺伝子単位で解析され、閾値を下回る信号がフィルタリング除去される。こうして、遺伝子の縮小セットが生成される。次いで、特徴を特徴セットに含めるのに十分な測定差異を比較と試験との間で示すような特徴を決定するために、1つまたは複数の統計的検定が特徴単位で実施される。
図2Bに戻り、臨床質問/特徴セット候補が特定され(データQC動作202)、各特徴セットを構成する特徴および関連の統計値が特定された(統計的解析動作204)後は、特徴セットが生成される(206)。この時点(キュレーション後なおかつインポート前)で、特徴セットは、一般に、名称および特徴表を含有している。特徴表は、特徴識別子(例えば遺伝子の名称)および関連の統計値のリストである。特徴セットの生成は、その特徴セットを知識ベースへのインポートに適した標準フォーマットにすることをともなう。図4は、インポートの準備が整った特徴セットファイルの一例を示している。この例では、特徴セットファイルはExcelファイルである。特徴セットの名称(すなわち臨床質問)が、402に明記されている。この例では、それは、「海馬:神経作動性化合物B2104に冒された遺伝子」である。特徴セットに関するその他の記述的情報が、404に含まれ、この場合は脳(前頭葉)である。後述されるように、この記述的情報は、特徴セットをシステムの中のディレクトリ構造内に配置するために使用される、なおかつ/あるいは(特徴セットを知識ベースの中の生物医学的分類構造に関連付けるために)特徴セットを「タグ付け」するために使用されることが可能である。特徴(海馬組織内における発現を特定の化合物によって大きく影響されるような遺伝子)は、欄406に示され、それらの共通名は欄410に、ジェンバンク識別子は欄412に示されている。関連の統計値は、この場合はp値であり、欄408にある。図4に示された表は、特徴セットに適したフォーマットの一例に過ぎない。
i. 組織固有の特徴セット:
上述のように、キュレーションプロセスの統計的解析部分の最中に、生データは、特徴を問題の特徴セットに含められるような統計的に有意な差異が比較と試験との間にあるかどうかを決定するために、特徴単位で検査される。また、特定の実施形態では、組織固有の特徴セットを生成することができる。組織固有の特徴セットとは、複数の組織を対象とした実験から生成された特徴セットであって、特定の1つまたは複数の組織について特異性を示すような特徴を含有した特徴セットである。例えば、12の組織を対象として遺伝子発現を測定する実験の場合、生成された1つの特徴セットは、肝臓に固有の発現上昇遺伝子であることが可能である。このプロセスは、一般に、発現中央値が統計的に妥当であるような数の組織を用いた研究において使用される。特定の実施形態では、組織固有の特徴セットは、少なくとも12の組織を対象とした研究において生成される。より高度に関連しあった組織を対象とした実験の場合は、より少ない組織数(例えば4つ)であることが可能である。
図3Aは、組織固有の特徴セットを生成するプロセスを示したフローシートである。図3Aに示されたプロセスは、データセット内の各特徴候補(例えば、信号フィルタリング後にデータセット内に残っている各特徴)について実施される。プロセスは、全組織にわたる特徴の発現(またはその他の測定値の)中央値を特定することからスタートする。全組織の全サンプルにわたる発現中央値は、一組織内におけるその特徴の合成的比較発現、すなわち正常発現として使用される。複数の特徴にわたる一特徴の発現中央値をグラフ表示した一例が、図3Bに示されている。図3Bにおいて、垂直の棒は、各組織における発現を示しており、水平の線は、全組織にわたる発現中央値を示している。次いで、各組織における、中央値に対する発現上昇/低下の量または程度が決定される(304)。次いで、その特徴が組織固有であるか否かが決定される(306)。特徴は、もしそれが、n以下の組織において閾値を越えて発現を上昇または低下させた場合に組織固有であると決定される。例えば、閾値は、2倍の倍変化と、0.05のt検定p値との組み合わせであることが可能である。もしとある特徴が、n=3以下の組織(例えば肝臓と肺のみ)において少なくとも2倍の倍変化で発現を上昇させ、t検定p値の最大値が0.05であったならば、それは、組織固有であると見なされる。図3に示されたプロセスでは、発現の上昇と低下とが別々に検討される。しかしながら、特定の実施形態では、これらを合わせて検討することが可能である(例えば、とある特徴は、その特徴が、n以下の組織において発現を上昇または低下させた場合に組織固有であると決定される)。もし特徴が組織固有であるならば、その特徴が特に発現を上昇/低下させた組織が特定される(308)。特徴は、次いで、特定された組織固有の特徴セットに追加される(310)。図3Bに示された例において、特徴Aの発現低下は、(星印によって示されるように)胃組織について組織固有であるので、この特徴は、胃に固有の発現低下特徴セットに追加されると考えられる。
組織固有の特徴セットは、一般に、複数の組織を対象とした研究のために、上述のように比較と試験との間で発現を比較することによって生成された特徴セットに追加で生成されることに留意するべきである。したがって、もしとある遺伝子が、肝臓組織において発現を上昇させた場合は、その発現上昇が組織固有であるか否かにかかわらず、その遺伝子は、肝臓において発現を上昇させる遺伝子を含む個別の特徴セットに含まれる。
ii. 特徴グループ:
上述のように、データは、特徴セットおよび特徴グループの形に配される。特徴グループは、対象となる任意の特徴セットを、通常は関連の統計値をともなわずに含有している。特徴グループの例として、研究者が関心を持っている任意の特徴のセット、生物学的経路を定める特徴のセット、またはたんぱく質ファミリーを定める特徴のセットが挙げられる。特徴グループのキュレーションは、任意の適切な方法によって実施することができる。特定の経路にかかわる特徴、または共通の機能もしくは構造的特徴を共有する特徴を、公共もしくは民間のデータベースから受信する、または研究者もしくはユーザによって生成することが可能である。キュレーション後の特徴グループは、一般に、名称、その他の記述的情報、および構成要素である特徴を列挙したリストを含有している。
B. データのインポート:
ひとたびデータがキュレーションを施され、特徴および関連の統計値のリストを含有する(図4に示されるような)特徴セットまたは特徴のリストを含有する特徴グループの形に編成されると、インポートの準備が整う。インポートプロセスは、データをシステムにインポートすることと、特徴セットまたは特徴グループに関連した重要な概念を記述する標準的用語をデータにタグ付けすることと、インポートされたデータとシステム内のその他の全てのデータとの間につながりを確立することとをともなう。図5は、データインポートプロセスの概要を示したプロセスフローシートである。
プロセスは、全ての関連ファイル(全ての特徴セットファイルおよび/または特徴グループファイル)、ならびに例えばマイクロアレイまたはデータおよび任意の関連の情報の生成に使用されるその他のプラットフォームなどの技術を、ユーザがユーザインターフェースを通じて定める動作502からスタートする。特徴グループは、一般に、実験的にではなく生物学的に関連しあった特徴のグループを含有しているので、プラットフォーム技術は、ほとんどの場合は特徴グループに適用されないことに留意するべきである。関連の情報は、特徴セットもしくは特徴グループの重要概念の記述またはリストを含有したテキストファイルを含むことができる。ディレクトリシステム内における特徴セットの位置もまた、指定されるのが一般的である。例えば、ユーザは、プロジェクトディレクトリまたは研究サブディレクトリを指定することができる。
データインポートプロセスの次の動作は、インポートされた特徴のマッピング(504)である。マッピングは、(例えば異なるプラットフォーム、データタイプ、および有機体からの)様々な特徴を互いに関連付けるプロセスである。例えば、遺伝子は、SNP、たんぱく質、または対象の配列領域に関連付けることが可能である。データインポート中に、どの特徴も自動的にマッピングされる。特定の実施形態では、マッピングは、各特徴を、知識ベース内のグローバル一意マッピング識別子セット(例えばインデックスセット)の中の1つもしくは複数の基準特徴またはアドレスにマッピングすることをともなう。マッピングは、全ての特徴セットと特徴グループとの間の相関を促進し、様々な情報源、分析タイプ、およびプラットフォームからの独立したデータ/情報のセットを相関させることを可能にする。
特定の実施形態では、マッピングは、各自固有の特徴を表すアドレスまたは識別子を含有したインデックスセットの使用をともなう(例えば、インデックスセットは、ヒトゲノムもしくはヒト以外のゲノムの単一遺伝子を表すアドレスまたはマッピング識別子を含有することが可能である)。やはり特定の実施形態では、マッピングは、インポートされた識別子(例えば一般名やジェンバンク番号など)をインデックスセット内の特徴識別子と突き合わせることをともなう。これらの特徴識別子は、各種の異名およびゲノム座標などであり、それぞれ1つまたは複数の固有マッピング識別子を指し示す。マッピングプロセスは、インポートされた識別子と一致する特徴識別子を検索すること、次いで、その特徴識別子が指し示すマッピング識別子を見つけることをともなうことができる。場合によっては、複数のマッピング識別子のなかからマッピングに最も適したものが選択される。
マッピングプロセスは、比較的単純なもの(例えば遺伝子とそのたんぱく質産物との間のつながりを作る)から、より複雑なもの(例えば染色体の所定領域上において、配列因子とその近くの遺伝子との間につながりをマッピングする)に及ぶ。各種の実施形態にしたがうと、特徴は、1対1のマッピングを有することが可能である、すなわち、各特徴は、単一の基準またはマッピング識別子にマッピングされる。その他の実施形態では、特徴は、必要に応じて、複数の基準またはマッピング識別子にマッピングされる。使用可能な3種類のマッピングは、
1) 特徴を中心としたマッピング
2) 配列を中心としたマッピング
3) 間接的関連付け
である。インポートされるデータのタイプに応じて、これらの1つまたは複数を使用することができる。
i) 特徴を中心としたマッピング:
特徴を中心としたマッピングは、各種の特徴とそれらの識別子との間に確立された関係に依存したものであり、一般に、特徴および識別子に標準的な学名がある場合に用いられる。例えば、いくつかの異なるアクセッション番号を、全て、単一遺伝子にマッピングすることができる。とある遺伝子のたんぱく質産物は、関係が既に確立されているゆえに、その遺伝子にマッピングされる。同じ物質を表す2つの異なる化合物IDは、共通の薬基準にマッピングされる。遺伝子A用の異なるアクセッション番号、遺伝子A用の異なる名称、遺伝子Aのたんぱく質産物などは、全て、その遺伝子に固有な基準にマッピングされる。
異なる有機体どうしの場合は、利用可能な全ての有機体間において全てのデータをマッピングするために、オルソログ情報を使用することができる。これは、特徴を中心としたデータマッピングプロセスの「第2の」ステップである。先ず、同一有機体内の特徴が、(インポートされている特徴セットの有機体用のインデックスセット内の)中央の特徴基準にマッピングされる。次に、例えば、ヒト遺伝子の特徴が、マウス、ラット、ショウジョウバエなどのオルソログにマッピングされるように、インポートされたデータの種以外の異なる種からのあらゆるデータについてマッピングを作成するために、オルソログ情報が使用される。
ii. 配列を中心としたマッピング:
配列を中心としたマッピングは、各種の特徴間において、それらのゲノム座標に基づく関連付けを行う。配列を中心としたマッピングは、各種の識別子および/または特徴の間に確立された関係が未知である、あるいは存在しないような状況において有用である。図6は、各種の特徴関係を示した概略図である。先ず、(a)では、特徴1のゲノム座標と特徴2のゲノム座標とが重複している。各特徴は、遺伝子、ゲノム領域、遺伝子のたんぱく質産物などであることが可能である。配列を中心としたマッピングは、これらの特徴を、座標の重複に基づいて互いにマッピングする。(b)では、特徴1の座標は、特徴2の座標を含んでいる。例えば、特徴は、ハロタイプブロック(特徴2)とSNP(特徴1)、あるいはゲノム領域(特徴2)と遺伝子(特徴1)であることが可能である。配列を中心としたマッピングは、これらの特徴を、座標の包含に基づいて互いにマッピングする。配列を中心としたマッピングは、また、接近してはいるが重複はしていないような特徴を、既定の近接値に基づいてマッピングすることも含むことができる。
iii. 間接的関連付けマッピング:
間接的関連付けは、異なる特徴どうしの関係または(遺伝子、SNP、もしくはその他の配列因子の場合は)ゲノム内におけるそれらの物理的近接性に関する従来の何らかの研究知識を使用して、特徴間において、間接的関係に基づくつながりの確立を行う。関連付けの関係は、一定である必要はなく、新たに発生する知識に応じて可変である。関連付けマッピングは、一特徴が1対1のマッピングを有すること、すなわち単一の基準特徴またはIDを指し示すことを必要とせず、特徴は、いくつかの特徴に同時に関連付けることが可能である。例えば、もし、インポートされた配列領域が所定のハロタイプブロック内に含まれるならば、関連付けマッピングは、その配列領域と、所定のハロタイプブロック内の全ての遺伝子との間でなすことができる。別の一例は、とある遺伝子の既知の結合部位内に位置する一領域である。対象の特徴は、その遺伝子に直接的にはマッピングされないが、上記領域は、その遺伝子を調節する結合部位を通じてその遺伝子に関連している可能性があるゆえに、その遺伝子にマッピングすることができる。間接的マッピングの別の一例が、図6に示されている。(c)では、SNP Xが、遺伝子Aの調節モチーフ内に含有されている。SNP Xを遺伝子Aにマッピングするために、間接的関連付けマッピングが使用される。同様に、とある遺伝子の活性に影響する配列領域と重複する、同配列領域内にある、または同配列領域に近接している特徴もまた、関連付けマッピングによってその遺伝子にマッピングすることができる。
図5に戻る。特徴が、動作506においてランク付けされる。ランク付けは、各特徴セット内の特徴を、実験における刺激または治療に対するそれらの反応の相対的レベルに基づいて、あるいは異なる表現型間におけるそれらの変化の大きさおよび方向、ならびに異なる表現型状態(例えば腫瘍の後期段階対腫瘍の初期段階)を区別するそれらの能力に基づいて、順序付けすることをともなう。ランク付けは、一般に、インポートされた特徴セット内の1つまたは複数の関連の統計値に基づく。例えば、特徴は、倍変化が大きいものから順に、またはp値が小さいものから順にランク付けすることができる。特定の実施形態では、特徴のランク付けにどの統計値を使用するかをユーザが指定する。
データのタグ付けが、動作508において実施される(動作504〜508は、同時並行的にまたは任意の順序で実施することができる)。タグは、所定の研究、特徴セット、または特徴グループに関連した生物学、化学、または医学からの重要概念を記述する標準的用語である。タグ付けは、ユーザがこれらの関連性および知識をデータとともにシステムに移すことを可能にする。例えば、もしとある研究が、筋肉組織内においてβブロッカーを確認した場合は、2つのタグは、「βブロッカー」および「筋肉」であることが可能である。また、もしとある研究者が、所定の研究が心血管の研究に関連していることを知っている場合は、その研究者は、「心血管疾患」というタグを追加することができる。タグ付けは、自動的にまたは手動で実施することができる。自動的なタグ付けは、インポートされたデータについての重要概念を自動的に抽出する。システムは、所定の研究に関わりがあるあらゆるテキストおよび文書を構文解析し、タグのデータベースに一致する重要概念、すなわち「標準的な」生物医学的、化学的、またはその他のキーワードを、(例えば頻度および特異性の基準に基づいて)自動的に取得して記録する。上述のように、データインポートプロセスのUI部分の最中に、ユーザは、例えば実験または研究のテキスト記述などのデータとともにインポートされるべき追加のファイルを指定することができる。自動的なタグ付けは、データベース内のタグに一致する用語を求めてこれらの文書を構文解析する。自動的なタグ付けに加えて、ユーザは、「手動で」または「半自動的に」、特徴セットおよび特徴グループにタグを追加することができる。ユーザは、特徴セットおよび特徴グループに関連付けるために、データベース内のタグの中から選択を行う。特定の実施形態では、ユーザは、キーワードを入力してデータベースを検索することができる。検索は、関連のタグを抽出し、ユーザは、それらのタグを、インポートされたデータに追加することができる。図7は、タグナビゲータ領域702、自動タグ領域704、および手動タグ領域706をともなうタグ付けユーザインターフェース画面の一例である。神経原線維変化に関連した2つのインポートされた特徴セットの名称(図ではバイオセット名として言及されている)が、特徴セットに自動的に関連付けられたタグとともに、704に示されている。この例では、特徴セットは、アルツハイマー病、内嗅皮質、神経原線維変化、および疾病を自動的にタグ付けされている。手動によるタグ付けは、タグナビゲータの検索ボックス708に検索用語を入力することをともなう。この例では、検索用語として「脳」が入力される。すると、検索用語に関連したタグが抽出され、結果リスト710に表示される。ユーザは、次いで、結果のなかから、特徴セットに手動でタグ付けする用のタグを選択する。この例では、706に示されるように、脳というタグが選択されている。
C. 前処理:
前処理は、相関スコアリングとも称され、データがインポートされた後に実施される。システムにインポートされた新しいデータは、全て、前処理を施される。すなわち、情報空間全体にわたって相関を前計算される。前項において定義されたマッピング方法は、様々な分析タイプ、有機体、およびプラットフォームに跨ってデータをつなぐことを可能にする。ひとたびマッピングが決定されると、所定のデータセットと、知識ベース内のその他の任意の生物学的、化学的、または臨床的実体との間の相関スコア(例えばp値および/またはそこから導びかれたランクスコア)を前計算するために、自動的になおかつ体系的に相関アルゴリズムが適用される。
新しくインポートされたデータデータセットと相関される2つの主要なデータ/情報タイプは、システム内に既にある(例えばシステムの任意のユーザによって事前にインポートされている)特徴セットおよび特徴グループである。新しい情報のセットと相関されることを望まれるあらゆるオブジェクトおよび特徴セットを定めるために、グローバル相関マトリックス(GCM)を使用することができる。次いで、GCMにしたがって、前計算がなされる。前計算された空間より外の任意の新しい処理は、前計算されたGCMスコアを基礎として使用して、より複雑な処理を形成および算出することができる。例えば、もしユーザが、2つの異なる治療ベースの実験から導かれた2つの特徴セットに共通するシグナル通知経路を特定することに関心がある場合、システムは、各特徴セットについて、前計算されたあらゆる経路関連性を(GCMから)検索し、次いで、特徴セット間において最も高度に相関している経路を(前計算された個々のシグナル経路スコアに基づいて)決定する。
データのインポート後、なおかつ相関スコアリング前の段階で、特徴セットは、一般に、名称と、関連の研究名と、特徴識別子、マッピング識別子、統計情報、およびタグを含有する特徴表とを含有している。多くの実施形態において、前処理は、特徴のランキングを使用して特徴セットを相関させる。したがって、相関スコアの計算に先立って、特徴セット内の特徴は、特徴表内に含有されるp値、倍変化、またはその他の任意の有意な測定値もしくは統計値に基づいてランク付けされる。ランクは、特徴の反応の絶対値と無関係である。このため、例えば、1つの特徴セットにおいて、1.5倍増の反応を有する特徴が2位にランキングされる一方で、別の特徴セットでは、異なる刺激に対して5倍増の反応を有する同じ特徴がやはり2位にランキングされることが可能である。上述のように、上記のランク付けは、一般に、データのインポート中に実施される。
一実施形態において、統計的相関は、例えばフィッシャーの直接確率検定などの統計的検定を使用してなされる。フィッシャーの直接確率検定は、特定の分布(超幾何学的分布)からの厳密な確率に基づいており、2×2分割表の2つの変数間における関連性の有意性を検討するために使用される。特定の実施形態では、特徴セット内および特徴グループ内の重複した特徴のランキングを考慮に入れるように設計されなおかつフィッシャーの直接確率検定を用いるようなアルゴリズムが、相関スコアを効率良く生成するために使用される。
上述のように、本発明の方法において対象とされる相関は、一般に、特徴セット対特徴セットの相関、および特徴セット対特徴グループである。特定の実施形態では、特徴グループ対特徴グループの相関スコアを決定することも可能である。本発明の特定の実施形態にしたがった相関スコアリングが、以下において説明される。先ず、特徴セットとその他の特徴セット/特徴グループとの関連性または重複の有意性を測定するために、フィッシャーの直接確率検定を適用することについて述べられ、次いで、スコア表に格納するための相関スコアを生成するために、本発明の実施形態にしたがってそれらを「実行」アルゴリズムにおいて使用することについて述べられる。上述のように、実行アルゴリズムは、特徴のランキングを考慮に入れる。
i. 特徴セット対特徴グループの相関スコアリング:
相関スコアリングは、任意の適切な方法によって実施することができる。本発明の特定の実施形態では、特徴のランキングを考慮に入れたランクベースの強化アルゴリズムが使用される。やはり上述のように、2つの変数の関連性の有意性を測定するために、フィッシャーの直接確率検定を使用することができる。(引用によって本明細書に全体を組み込まれた、Fisher, R.A. (1922) "On the interpretation of χ2 from contingency tables, and the calculation of P(分割表からのχ2の解釈およびPの計算について)", Journal of the Royal Statistical Society 85(1):87-94を参照せよ。)本発明の実施形態では、フィッシャーの直接確率検定は、所定の特徴セットB内の特徴と所定の特徴グループC内の特徴との重複の有意性を測定するために使用される。
図8は、特徴セット対特徴グループのセット図である。Pは、実験プラットフォーム内の全ての特徴(例えばマイクロアレイ検査によって発現を測定される全ての遺伝子または生データ内の全ての特徴)を表し、Bは、特徴セット内の特徴を表し、Cは、特徴グループ内の特徴を表している。セット図の下方の表は、図に示されたセットを示している。フィッシャーの直接確率検定をどの状況に適用する場合であれ、分割表の有意な結果を与える4つのパラメータすなわち要素を定めることが必要とされる。本発明の実施形態にしたがってフィッシャーの直接確率検定に使用される分割表の要素は、図8において強調表示されている。これらの要素は、以下のとおりである。
B∩Cは、特徴セットBと特徴グループCとの共通集合であり、図中、縞模様のサブセットとして示されている。これは、C内の特徴にマッピングされているB内の特徴を表している。
P∩C−B∩Cは、P内の特徴のうちCにマッピングされているがB内にはない特徴を表しており、図に示されている。
B−B∩Cは、C内の特徴にマッピングされていないB内の特徴を表しており、図に示されている。
P−B−P∩C+P∩Cは、P内の特徴のうちB内にもなくC内の特徴にもマッピングされていない特徴を表している。このサブセットもまた、図に示されている。
フィッシャーの直接確率検定を適用することによって、p値が得られる。フィッシャーの直接確率検定の実施は、引用によって本明細書に組み込まれるAgresti A, (1992), A Survey of Exact Inference for Contingency Tables(分割表についての厳密な推定の調査), Statistical Science, 7, 131-153に基づく。
図9Aは、特徴セットBと特徴グループCとの間の相関を示す相関スコアを生成する際の重要な動作を示したプロセスフロー図である。この「実行」アルゴリズムは、動的チェックポイントにおけるフィッシャーの直接確率検定の反復として説明することができる。このプロセスは、特徴セットBおよび特徴グループCを受信することからスタートする(902)。特徴セット内の特徴は、上述されたように、ランクによって順序付けされている。ランキングをともなう特徴セットの特徴表の一例が、図9Bに示されている。ランクは、欄952に示されている。ファイルは、また、欄956にマッピング識別子も含む。図9Bに示された例では、特徴表は、また、データインポート中に受信された特徴識別子を表示するインポートID欄(954)、特徴に関連付けられたシンボルを表示するシンボル欄(958)、実験で測定されたp値を表示するp値欄(960)、および実験で測定された倍変化を表示する倍変化欄(962)も含む。欄952に示されたランキングは、倍変化に基づくものである。しかしながら、これらのランキングは、p値、またはその他の適切な統計値、またはそれらの組み合わせに基づくことも可能である。特徴グループCは、やはり特徴識別子およびマッピング識別子のリストを含有しているが、ランクまたはその他の統計値は含有していないのが一般的である。図9Aに示された動作904では、共通のマッピング識別子が、B∩Cサブセットの構成要素の決定を可能にする。図9Bにおいて強調表示された行は、B∩Cサブセットの構成要素である特徴を示している。特徴セットBおよび特徴グループCの受信後は、特徴Xが決定される(906)。特徴Xは、B∩C内において次のランク順の特徴である。したがって、図9Bに示された特徴セットに適用されるプロセスの第1の反復では、特徴Xは、11にランクした特徴であり、欄964においてストップ1として記されている。これが、第1のチェックポイントである。図9Aに戻り、サブ特徴セットBxが決定される(908)。(決定ダイヤモンド920は、後ほど詳述される最適化のステップを示している。)サブ特徴セットBxは、Xに等しいまたはXより高いランクを有する全ての特徴からなるセットである。したがって、第1の反復では、サブ特徴セットBxは、ランクが1から11までの特徴を含有している。次いで、動作910では、上述されたパラメータ(すなわちBx∩CやP∩C−Bx∩Cなど)を使用して、サブ特徴セットBxおよび特徴グループCに対してフィッシャーの直接確率検定が実施される。結果得られたp値、すなわちpxは、次いで、グローバルp値と比較され、もしそれがグローバルp値未満である場合は、(新しい)グローバルp値として保存される。第1の反復について、もし既存のグローバルp値が存在しない場合は、pxは、後続の反復において比較の対象とされるグローバルp値として保存される。なお、第1の反復では、Bx∩Cは、1つの構成要素を有しており、後続の反復ごとに一構成要素を追加されることに留意せよ。決定914は、次いで、B∩C内にその他に特徴が残っているかどうかを決定する。もし残っている場合は、プロセスは、動作906に戻り、ここで、特徴Xが特定される。例えば、図9Bに示された特徴セットの第2のプロセス反復では、特徴Xは、13にランクした特徴であり、サブ特徴セットBxは、ランクが1から13までの特徴を含有している。
基本的に、プロセスは、サブ特徴セットBxについて全てのp値候補を考察し、最も小さいp値を選択する。なお、記された「ストップ」ポイントのみでのフィッシャーの直接確率検定の実施は、ランク付けされた各特徴にそれを実施する場合と同じ結果を返す。これは、どの非ストップポイントで実施された場合でも、フィッシャーの直接確率検定からのp値は、グローバルp値より高くなるからである(PおよびCが一定に留まるとき、B=yなおかつB∩C=zの場合のp値は、B=y+1なおかつB∩C=zの場合のp値を下回る)。
B∩C内にその他に残りの特徴がなくなると、特徴セットBおよび特徴グループCについての最終p値を得るために、グローバルp値に多重仮説検定補正が適用される(916)。p値は、特徴セットの大きさで乗算される。この補正は、特徴セットが大きいほど小さいp値が返される、という事実を考慮に入れる。なぜならば、特徴セットが大きいほど小さいp値を受信する機会が増えるからである。多重仮説検定補正は、当該分野において既知である。この最終p値は、次いで、例えばスコア表などに格納される。特定の実施形態では、最終p値に加えて、あるいは最終p値の代わりに、「ランクスコア」がスコア表に格納される。簡単に言うと、ランクスコアは、最終p値の導関数であり、p値の負の対数である。
a. 最適化:
計算効率を向上させるために、各種の最適化を実施することができる。1つの最適化は、上述されており、「ストップ」ポイントのサブ特徴セットにのみフィッシャーの直接確率検定を実施することである。なぜならば、その他のサブ特徴セットを使用して計算されたp値が、より小さいp値を返すことはないからである。もう1つの最適化は、B∩C内の次の特徴が隣接しているかどうかをチェックすることによって実施可能である。これは、図9Aの決定920に示されている。隣接した特徴とは、ランク順が隣りどうしの特徴である。もし次の重複特徴が隣接しているならば、特徴Xにおける計算は省略されてよく、プロセスは、動作904に戻り、この場合は単に次の特徴である特徴Xが決定される。例えば、図9Bに示されるように、プロセスが、ランク17の特徴におけるチェックポイント「ストップ3」にあるときは、B∩C内の次の特徴(ランク18の特徴)は、隣接している。すると、「ストップ3」における計算は省略され、「ストップ4」においてフィッシャーの直接確率検定が実施される。なぜならば、(次のストップが隣接している)これらの条件下では、高いランクの特徴ほど返されるp値が小さいからである。
ii. 特徴セット対特徴セットの相関スコアリング:
図9Aおよび図9Bに関連して上述されたアルゴリズムは、特徴セットAと特徴グループBとの間の相関を示すp値を計算する際に、重複した特徴の特徴セットランキングを考慮に入れている。同様に、2つの特徴セットF1とF2との間の相関を示すp値を計算するにも、フィッシャーの直接確率検定を反復的に用いる「実行」アルゴリズムが使用される。しかしながら、特徴セット対特徴セットのケースは、特徴セットF1におけるランキングと特徴セットF2におけるランキングという2つのランキングセットを考慮に入れるので、さらに大幅に複雑である。
図10は、特徴セット(FS1)対特徴セット(FS2)のセット図、ならびにフィッシャーの直接確率検定においてこれらの特徴セットの重複の有意性を測定するために使用される要素すなわちパラメータを示した表である。これらの要素は、以下の通りである。
F1∩F2は、特徴セットF1と特徴セットF2との共通集合であり、図に示されている。これは、F2内の特徴にマッピングされているF1内の特徴を表している。
F1∩P2−F1∩F2は、P1とP2との共通集合内の特徴のうち、F1内にはあるがF2内にはない特徴を表している。
F2∩P1−F1∩F2は、P1とP2との共通集合内の特徴のうち、F2内にはあるがF1内にはない特徴を表している。
P1∩P2−F1∩P2−F2∩P1+F1∩F2は、P1とP2との共通集合内の特徴のうち、F1内にもF2内にもない特徴を表している。
図11Aは、特徴セットF1と特徴セットF2との間の相関を示す相関スコアを生成する際の重要な動作を示したプロセスフロー図である。先ず、動作1102において、特徴セットF1,F2が受信される。各特徴セットは、例えば1つの特徴セットについて図9Bに示されたような、マッピングされた特徴のランキングリストをともなう。共通集合F1∩F2が、マッピング識別子を使用して決定される。F1∩F2をもとに、特徴F1(i)およびF2(j)のランキングリストが生成される。変数「i」および変数「j」は、F1およびF2のストップすなわちチェックポイントを指定するためにそれぞれ使用される。上述された特徴セット対特徴グループの実行アルゴリズムと同様に、ストップは、最小のものがこの特徴セット対特徴セットの比較についての最終p値となるp値の生成対象となるようなサブ特徴セットを定めるために使用される。強引な方法では、サブF1(i)セットと全てのサブF2(j)セット候補とのあらゆる組み合わせに対してフィッシャーの直接確率検定が実施されると考えられる。しかしながら、これは、以下のアルゴリズムに反映されるように、必ずしも必要ではない。F1(i)におけるi=1からi=imaxまでの全てのストップが、外側ループにおいてインデックス付けされる。内側ループは、しかしながら、jとしての全候補値についてインデックス付けされるのではなく、どのサブF2セットを使用するかをソートベクトルに基づいて決定する。この意味では、「j」は、p値pi,jを計算するもととなるサブF2セットを定めるために使用される現行のF2ストップを示している。
なお、たとえF1(i)およびF2(j)の中の特徴が同じである(すなわち、F1およびF2からの特徴が全て重複する)としても、F1とF2とは異なるランキングを有するので、ランキングリストは、F1とF2とで異なる。図11Bは、F1およびF2のランキングリストの一例を示している(説明を容易にするため、ランキングのみが示されてるが、図9Bにあるように、これらの表は、特徴識別子、マッピングアドレス、統計値などを含むことも可能である)。各特徴セット内の強調表示されたランクは、F1∩F2の構成要素を示している。したがって、F1(1)=1位にランクされたF1特徴、F1(2)=5位にランクされたF1特徴、F2(1)=2位にランクされたF2特徴、F2(2)=7位にランクされたF2特徴、などである。
F1(i)およびF2(j)は、次いで、「アラインされる」、すなわち、各特徴F1(i)が、対応する特徴F2(j)につながれるすなわち関連付けされる(1106)。これは、図11Cに図示されており、図中、F1(1)はF2(3)とアラインされ、F1(2)はF2(1)とアラインされ、F1(3)はF2(4)とアラインされる、などである。フローシートおよび以下の説明では、F1(i)をアラインされるF2(j)内の特徴を表すために、アライン(F1(i))という命名法が使用される。例えば、アライン(F1(3))は、F2(4)を意味する。同様に、アライン(F2(3))は、F1(1)を意味する。カウント値iは、ゼロに設定される(1108)。動作1108は、また、この時点では、サブF2セットを決定するためにアルゴリズム内において後ほど使用されるソートベクトルが空であることも示している。カウント値iは、動作1110において、インデックス付けされる(i=i+1)。カウント値iは、F1(i)内の特徴の数であるimaxと比較される(1112)。もしそれがimax以下であるならば、プロセスは、動作1114に進み、ここで、サブ特徴セット:サブF1(i)が定められる。(動作1130は、後ほど詳述される最適化のステップである。)サブF1(i)は、F1(i)と、F1内のより高位にランクされた全ての特徴とを含有している。このため、例えば図11Cに示された例では、最も高位にランクされた特徴がF1(1)であるので、サブF1(1)はF1(1)のみを含有している。F1(2)のランクは5であるので、サブF1(2)は、F1内の1〜5にランクされた特徴を含有している。次いで、アライン(F1(i))のランクが、ベクトルに挿入される(1116)。F1(1)の場合、ベクトルは[13]、F1(2)の場合、ベクトルは[2,13]、などである。プロセスは、次いで、動作1118において、サブ特徴セット:サブF2(j)を定める。サブF2(j)は、アライン(F1(i))と、F2内のより高位にランクされた全ての特徴とを含有している。i=1の場合、アライン(F1(1))=F2(3)である。F2(3)のランクは13であるので、サブF2(j)は、F2内の1〜13にランクされた特徴を含有している。次いで、p値pi,jを生成するために、図10に関連して上で説明されたパラメータを使用して、サブF1(i)およびサブF2(j)に対してフィッシャーの直接確率検定が実施される(1120)。p値pi,jは、次いで、グローバルp値と比較され、もしグローバルp値より小さい場合は、グローバルp値として保存される(1122)。現行のF1(i)をその他のサブF2セットと比較するべきであるかは、現行のF2(j)のランクよりも大きい(すなわちランクが低い)ランク値がソートベクトルに含有されるどうかをチェックすることをともなう。もし含有される場合は、jは、ベクトル内の次のランク値に対応するストップに設定され、F2(j)と、F2内のより高位にランクされた全ての特徴とを含有する新しいサブF2(j)が定められる(1126)。例えば、図11Cに示された例における、i=2の場合の内側ループの第1の反復では、j=1(アライン(F1(2))=F2(1))である。F2(1)のランクは2であるので、ベクトルは[2,13]を含有している。先ず、p値p2,1が計算される、次いで、ベクトルは、ランク2よりも大きい(すなわちランクが低い)ランク値を含有するかどうかを調べるために、チェックされる。13は2よりも大きい(13は2よりもランクが低い、とも記述される)ので、ベクトルは、そのようなランク値を含有している。次いで、新しいjとして、ランク13に対応するF2ストップを使用して、新しいサブF2(3)が形成される。この場合は、1〜13にランクされたF2特徴を含有するサブF2(3)が形成される。プロセスは、次いで、動作1120に戻り、F1(i)および新しいF2(j)に対してフィッシャーの直接確率検定が実施される。動作1124に戻り、もし現行のF2(j)のランクより大きいランク値がない場合は、プロセスは、次のF1ストップについてのp値を計算するために、動作1110に戻る。ひとたび全てのF1ストップが実行されつくされ、i>imaxとなると、今度は、多重仮説検定補正が適用される(1128)。この補正は、仮説検定の候補総数、すなわちF1サブ特徴セットとF2サブ特徴セットとのあらゆる組み合わせ候補の総数に基づく。
図11Cに示されたF1およびF2に基づくいくつかの反復例が、以下に示される。
ランク1,5,11、18,19,34におけるF1ストップを通して反復する。
imax=6

i=1 ストップ1
F1(1)のランク=1
アライン(F1(1))=F2(3);j=3
F2(3)のランク=13
ソートベクトル[13]
1,3=0.0274(グローバルとして設定)
ベクトル中に、13より大きいその他の値があるか? いいえ

i=2 ストップ2
F1(2)のランク=5
アライン(F1(2))=F2(1);j=1
F2(1)のランク=2
ソートベクトル[2,13]
2,1=0.00269(グローバルとして設定)
ベクトル中に、2より大きいその他の値があるか? はい
j=3(ランク13に対応する)
2,3=0.00157(グローバルとして設定)

i=3 ストップ3
F1(3)のランク=11
アライン(F1(3))=F2(4);j=4
F2(4)のランク=27
ソートベクトル[2,13,27]
3,4=0.00129(グローバルとして設定)
ベクトル中に、27より大きいその他の値があるか? いいえ

プロセスは、F1のストップ4〜6について続行される。
a.最適化:
計算効率を向上させるために、各種の最適化を実施可能である。1つの最適化は、図11Aの動作1130に示され、この場合、もし次のストップが隣接していてなおかつより高いランクにリンクしているならば、ストップiは、省略することができる。図のフローチャートでは、サブF1(i)セットを定める前に、F1(i+1)のランクが(F1(i))のランク+1と比較される。もし両者が等しいならば、F1(i)とF1(i+1)とは隣接している。もしこれらが隣接していてなおかつアライン(F1(i+1))のランク<アライン(F1(i))のランクであるならば、そのストップは、省略することができる。
例えば、図11Cに戻り、i=4について、

F1(i+1)のランク=F1(4+1)のランク=F1(5)のランク=19
F1(4)のランク+1=18+1=19

アライン(F1(i+1))=アライン(F1(5))=F2(2)
F2(2)のランク=7

アライン(F1(i))=アライン(F1(4))=F2(6)
F2(6)のランク=40
F1(4)のストップおよびF1(5)のストップは、18番目および19番目にランクするので、隣接しており、F1(5)は、F1(4)よりも高いF2ランク(7)にリンクしているので、ストップ4は、省略することができる。なぜならば、ストップ5では、より優れたp値を得られるからである。
内側ループに対して第2の最適化を実施可能である。この最適化では、もし次のj値が連続しているならば、すなわちもしj+1がベクトルの要素であるならば、「j」における計算を省略することができる。これは、基本的に、特徴セット対特徴グループの相関について上述されたのと同じ最適化である。
D. 知識ベースの要素
図12は、本発明の各種の実施形態にしたがった、知識ベース内の各種要素を表している。これらの要素(例えば特徴セットやスコア表)の生成およびこれらの要素への追加は、図1〜11Cを参照にして上で説明されている。上記の説明は、後述される知識ベースの各種の要素(例えばインデックスセットやタグ定義)を、システム内に既に存在するものと仮定している場合もある。
要素1202は、データインポートプロセス中に特徴をマッピングするために使用されるインデックスセットである。インデックスセットは、一般に、特徴識別子(ポインタとも称される)とマッピング識別子とを含有している。特徴識別子は、特徴を特定するために使用可能なあらゆる異名および配列座標などのセットを含有している。したがって、複数の特徴識別子は、全て、単一のマッピング識別子を指すことが可能である。各マッピング識別子は、固有の特徴を表している。例えば、インデックスセットは、何百万もの特徴識別子と、何十万ものマッピング識別子とを含有することができる。インデックスセットの特徴識別子およびマッピング識別子は、新しい情報もしくは知識が取得されたときに、追加または更新することができる。特徴識別子およびマッピング識別子は、データインポートのマッピングプロセス中にも更新することができる。例えば、インポートされた特徴に対してマッピングを確立できない場合は、その特徴は、自身のマッピング識別子として機能する。
要素1204は、知識ベース内の全ての特徴セットを示している。上述されたように、インポート後、特徴セットは、一般に、少なくとも特徴セット名と特徴表とを含有している。特徴表は、特徴のリストを含有し、各特徴は、一般に、インポートIDおよび/または特徴識別子によって特定される。各特徴は、1つまたは複数のマッピング識別子と、1つのランクとを有する。マッピング識別子およびランクは、上述のように、インポートプロセス中に決定され、次いで、相関スコアを生成するために前処理において使用される。特徴表は、また、例えばp値および/または倍変化など、各特徴に関連付けられた統計値も含有している。これらの統計値の1つまたは複数は、各特徴のランクを計算するために使用される。特徴セットは、また、タグのリストおよび/または関連の研究名を含有することもできる。上述のように、特徴セットは、公共情報源または内部情報源から得られたデータをもとに生成することができる。
要素1206は、知識ベース内の全ての特徴グループを示している。特徴グループは、特徴グループ名と、互いに関連しあった特徴(例えば遺伝子)のリストとを含有している。特徴グループは、一般に、例えば標準シグナル伝達経路やたんぱく質ファミリーなど、公共情報源に通常由来する明確に定義された特徴セットを表している。特徴グループは、関連の統計値またはランクを有さないのが一般的である。特徴セットは、また、タグのリストおよび/または関連の研究名を含有することもできる。
要素1208は、各特徴セットとその他の全ての特徴セットとの間、および各特徴セットと全ての特徴グループとの間の相関の測定値を含有したスコア表を示している。図中、FS1−FS2は、特徴セット1と特徴セット2との間の相関の測定値、FS1−FG1は、特徴セット1と特徴グループ1との間の相関の測定値、などである。特定の実施形態では、測定値は、p値、またはp値から導かれたランクスコアである。
要素1210は、異なる組織、病状、化合物の種類、表現型、細胞、およびそれらの間の関係についての全てのタグ(キーワード)のリストを含有した分類表である。これらは、階層構造(例えば疾病/疾病の種類/各種類中の特定の疾病)に編成することができる。このリストは、分類表内において、タグ定義1212として示されている。分類表は、また、各タグに関連付けられた全ての特徴セットおよび特徴グループのリストを含有することもできる。これは、領域1214に示されている(タグ1は、FS3、FS4、FG1などに関連付けられている)。図12は、これらの要素およびこれらの各要素の構成要素の編成ならびに格納の一例を示したものであり、当業者ならば、これらを編成および格納するのに多くの方法が可能であることがわかる。
3.処理:
知識ベースを作成および定義するための方法、計算システム、ならびにユーザインターフェースに関する上記の説明は、本発明において用いることができる処理の手順を説明するための枠組みを提供する。本明細書において説明される処理の手順は、しかしながら、上で提起された知識ベースの具体的なアーキテクチャまたは内容に限定されない。
一般に、処理は、「検索分野」内のその他の内容(ii)に照らして比較および/または解析される具体的内容を指定し、その検索分野からの内容を比較に基づいて選択および/またはランク付けした処理結果(iii)を生成すること(i)をともなう。例として、以下の説明は、3つの一般的タイプの処理、すなわち特徴セット処理、特徴グループ処理、および特徴固有の処理に焦点を当てる。これら一般的タイプの処理は、図13〜17に関連して示される。
先ず、図13〜15は、本発明の実施形態にしたがった特徴セット固有の処理に用いることができる動作を示したフローチャートを示している。図13Aは、ユーザが処理用の単一特徴セットを特定する際(ユーザが処理用に複数の特徴セットを提示する場合と区別される)に用いることができる一連の動作を示している。単一特徴セットの処理では、ユーザは、その処理を実行するための入力として、1つの特徴セットを特定する。ユーザは、研究別およびプロジェクト別に編成された特徴セットのリスト、または分類キーワード(タグ)階層などのその他の何らかのオントロジーをブラウズすることによって、これを行うことができる。あるいは、ユーザは、自身になじみのある特徴セットのIDを手動で入力することができる。処理特徴セットがどのように入力されたかにかからわず、システムは、図13Aのブロック1301に示されるように、その特徴セットのIDを処理の入力として受信する。図18に示されたユーザインターフェースを用いるような特定の実施形態では、システムは、特定された特徴セットに基づく処理を、適切なコマンドが受信されるまで実際には実行しない。図13Aのフローチャートの状況では、このコマンドは、ブロック1303に明記されたような「処理実行」コマンドである。
なお、処理は、知識ベースの特徴内、特徴セット内、および特徴グループ内の特定の検索分野に限定可能であることに留意せよ。もちろん、検索は、知識ベース全体を含んでもよく、これをデフォルトにすることも可能である。ユーザが、検索分野を定めてもよいし、あるいはシステムが、特徴セットの具体的タイプに応じて検索分野を自動的に定めてもよい。図18のユーザインターフェースに示されるような一実施形態では、検索分野は、処理入力窓内の「S」と表示された領域において定められ、一方で、特徴セットまたはその他の処理入力は、処理入力窓内の「Q」と表示された領域に提供される。
処理についての結果を実際に生成するために、システムは、処理特徴セットを検索分野のその他の全ての特徴セットと比較する。システムは、これを、例えば図12に示されたような、前計算された知識ベースのスコア表を用いてなすことができる。上述のように、このようなスコア表は、知識ベース内のその他の全ての特徴セットに対する各特徴セットの相関、および知識ベース内の全ての特徴グループに対する各特徴セットの相関をもとに生成することができる。相関スコア(p値またはそれ以外)は、処理に使用される特徴セットに照らして検索分野内のその他の全ての特徴セットをランク付けするための便利な方法を提供する。したがって、図13Aのブロック1305に示されるように、処理特徴セットを検索分野内のその他の全ての特徴セットと比較することによって、これらのその他の特徴セットのランキングリストが作成される。このランキングリストは、検索分野からのこれらのその他の特徴セットを降順に表示し、最も高度に相関された(あるいは最も関連している)その他の特徴セットをリストのトップの一番目にリストアップするために使用することができる。図13Aのブロック1307に示されるように、結果得られたランキングリストは、ユーザインターフェースを介して処理の結果として表示することができる。
特定の実施形態において、動作1305において特定されたその他の特徴セットは、動作1307において、単純に、個々の特徴セットのリストとして表示される。他の実施形態では、便宜上、その他の特徴セットは処理結果画面には直接示されず、例えば、処理結果の特徴セットを含有する研究がリストアップされる。図13Bのユーザインターフェースを参照せよ。他の実施形態では、特徴セットのランキングリストの代わりとして、分類グループがリストアップされる。このような分類グループは、「癌」または「病期2のリンパ腫」などのタグに基づくことが可能である。
図13Bは、図13Aのブロック1307に示されるような、一特徴セット対特徴セットの処理の結果画面1351の例を示している。この例では、ユーザは、下垂体に固有の遺伝子のバイオセットを取り上げ、それを、知識ベース内のその他の全ての特徴セットに照らして処理している。図に示されるように、処理の結果得られたランク付けされた特徴セット(バイオセット)を含有する研究が、行1353として表示される。これらの研究の1つが拡大され、その個々の特徴セットが行1355として示されている。なお、全ての特徴セットは、(特徴セットとして表示されるにしろ、あるいはそれらを含有する研究として表示されるにしろ)特徴セットの相対的ランクを図示した「ランクスコア」1357とともに示されていることに留意せよ。その他の列は、共通遺伝子、共通特徴、p値、Q値、および起源となる種を表示している。
処理の結果としての特徴セットのランキングリストを表示した後、プロセスは、完了することができる。しかしながら、いくつかの実施形態では、ユーザインターフェース内の結果窓によって、ユーザは、処理入力として提供された特徴セットを使用したさらなる処理を行うことが可能である。例えば、決定動作1309に示されるように、システムは、ユーザによる特徴グループの処理を可能にすることができる。このため、もし決定1309が肯定応答された(すなわち、ユーザが特徴グループに対する処理コマンドを提供した)ならば、システムは、次に、動作1305においてその他の特徴セットのランキングリストを生成するのと同様に、処理特徴セットを検索分野からの全ての特徴グループと比較して、特徴グループのランキングリストを作成する。ブロック1311を参照せよ。特徴グループのランキングリストが作成されると、システムは、次に、ブロック1313に示されるように、その特徴グループのランキングリストをユーザインターフェースを介して処理の結果として表示する。
図13Cは、動作1313中に表示される(すなわち一特徴セット対特徴グループの処理の結果を表示する)タイプの結果窓の画面ショット1361を示している。図13Cの具体例では、下垂体に固有の遺伝子のバイオセットが、全ての特徴グループ(この例ではバイオグループ)に照らして処理された。図に示されるように、結果は、バイオグループのランキングリストとして表示され、行1363に示された。各バイオグループは、バイオグループ名、ランクスコア、p値、Q値などを提供されている。
図13Aに示された実施形態は、入力特徴セットに基づく処理を拡大するためであり、さらに別の手段も表示している。これは、決定ブロック1315におけるイベント検知を介してトリガされる。該イベントは、入力特徴セットの特徴に基づく処理を行うコマンドを、システムが受信したか否かを決定する。もし受信したならば、システムは、入力特徴セット内の個々の各特徴に基づく処理を実行し、その結果を表示する。ブロック1317を参照せよ。この動作は、図14に、より詳細に示されている。特徴に基づく処理の結果を表示した後、プロセスは完了する。特徴グループに対する処理および/または入力特徴セット内の個々の特徴に基づく処理を実施することを、ユーザが選択しないような特定の実施形態では、プロセスは、決定動作1309,1315からのプロセス制御経路によって示されるように、早めに終了する。
図14は、図13Aの動作1317を実施するために用いることができるプロセスフローを示している。具体的に言うと、フローチャートは、処理入力として使用される特徴セットの個々の特徴に基づいて処理を実行し、その結果を表示するために用いることができる、一連のステップを示している。図に示されるように、プロセスは、システムが処理特徴セット内の「次の」特徴を特定する動作1401からスタートする。一般に、プロセスは、入力特徴セットの各特徴を順に検討し、このような特徴について一致した特徴セットのランキングリストを生成する。
現行反復用の特徴を設定した後、プロセスは、次に、その現行の特徴を含有する検索分野内のその他の全ての特徴セットを特定する。ブロック1403を参照せよ。多くの場合、この特徴は、遺伝子であってよく、ブロック1403において特定される特徴セットは、このような遺伝子を含有する(検索分野内の)その他の全ての特徴セットである。
現行の特徴を含有するその他の各特徴セットを特定した後、システムは、特定されたそれらの特徴セットを、それらの特徴セット内における現行の特徴のランキングに基づいてランク付けする。ブロック1405を参照せよ。例えば、所定の特徴セットは、個々の遺伝子(特徴)を、それらの倍変化、p値、またはその他の基準に基づいてランク付けすることができる。特徴セット内における特徴のランク付けに使用されるのが、これらの基準のどれであるかによって、この特徴に基づく処理における、特定された特徴セットのランキングが決定される。
処理特徴セット内の複数の特徴についての反復は、決定ブロック1407に示されるように制御される。処理特徴セット内の全ての特徴が検討された後、システムは、特徴セットのランキングリストを(処理特徴セット内の特徴ごとに1つずつ)表示する。換言すると、ユーザは、処理入力として使用される特徴セットを、それに含有される個々の特徴(例えば遺伝子)の観点から視察し、これらの特徴/遺伝子の任意の1つを選択することによって、その選択された特徴を含有する検索分野内のその他の全ての特徴セットのランキングリストを閲覧することができる。
図15Aは、複数の特徴セットを入力として使用した処理を処理するために本発明の特定の実施形態において用いることができるプロセスフローを示している。ブロック1501に示されるように、システムは、処理入力として機能する複数の特徴セットのIDを受信する。一般に、検索分野は、1つまたは複数の特徴グループによって範囲を区切られる。定められた検索分野(1つまたは複数の特徴グループ)を対象とした「処理実行」コマンドを受信すると、システムは、処理内の各特徴セットを第1の特徴グループと突き合わせるプロセスをスタートする。ブロック1503,1505,1507を参照せよ。ブロック1505が、検索分野を定める個々の特徴グループについての反復を制御する一方で、ブロック1507は、処理への入力として提供された個々の特徴セットについての反復を制御する。
個々の特徴セットを処理している内側ループにおいて、システムは、現行の特徴グループと処理からの現行の特徴セットとの間の相関を決定する。ブロック1509を参照せよ。この特徴セットと特徴グループとのペアについての相関は、次いで、後の使用に備えて格納される。決定ブロック1511に示されるように、システムは、その後、処理内にその他に検討するべき特徴セットがあるか否かを決定する。複数特徴セットの処理では、当然ながら、少なくとも2つの特徴セットがあると考えられる。したがって、動作1511は、少なくとも一度は肯定応答される。そのたびに、プロセス制御はブロック1507に戻り、処理内の次の特徴セットが特定される。その後、ブロック1509において、現行の特徴グループとの間の相関が決定され、保存される。
所定の特徴グループについて処理の全ての特徴セットが検討された後は、決定ブロック1511は否定応答され、プロセス制御はブロック1513に向かい、ここで、システムは、現行の特徴グループに対する各種処理特徴セットの「略」ランクおよび「特異性」を決定する。特定の実施形態において、略ランクは、現行の特徴グループに対する各特徴セットの個々のランク(相関)をもとに決定される。1つのアプローチでは、略ランクは、現行の特徴グループに対する処理特徴セットのそれぞれの相関/スコアの平均または中央値として決定される。もう1つのアプローチでは、略ランクは、現行の特徴グループに対する各種特徴セットの最大スコア/相関として決定される。特異性は、検討中の特徴グループとの間に強い相関(例えば規定値を超える相関)を有する処理入力特徴セットの割合を示す。例えば、入力処理の5つの特徴セットのうちの3つがこの基準を満たす場合は、3/5が特異性の値である。
動作1513が完了した後、プロセスは、検索分野内にその他に検討すべき特徴グループがあるか否かを決定する。決定ブロック1515を参照せよ。もしあるならば、プロセス制御は、ブロック1505に戻り、ここで、検索分野内の次の特徴グループが検討される。アルゴリズムは、次いで、上述されたように繰り返され、処理内において特定された各種特徴セットについて反復される。この反復の終わりでは、現行の特徴グループについて、新しい略ランクおよび特異性が提供される。
最終的に、検索分野内において特定された各特徴グループが検討されると、決定1515は否定応答される。この時点で、プロセス制御は、ブロック1517に向かい、ここで、システムは、処理内の各特徴グループについての略ランクおよび特異性を表示する。プロセスは、次いで、完了する。
図15Bは、複数特徴セット対特徴グループの処理の結果(例えば動作1517の結果)を表示したユーザインターフェースの画面ショット1551を示している。この具体例は、免疫細胞型に固有の様々な遺伝子を表したバイオセットが知識ベース内の全ての特徴グループ(バイオグループ)に照らして処理された場合を示している。バイオグループは、行1553のかたちでランク順に表示される。各行は、バイオグループ名に加えて、略ランク1555、特異性1557、およびスコアマトリックス1559を示しており、処理入力内の各バイオセットと行内のバイオグループとの相関の強さを示すために、異なる色調または色の強さが使用されている。マトリックス内の各ブロックは、異なる処理バイオセットを表す。
いくつかの実施形態において、複数特徴セットの処理は、複数特徴セット内の全ての既知の特徴に照らした処理もともなう。これは、処理特徴セット内の各特徴のランキングリストを作成する。この特徴の一実施形態が、図15Cに示される。プロセスは、処理入力としての複数の特徴セットと、「実行処理」コマンドとを受信することからスタートする。ブロック1521,1523を参照せよ。
プロセスは、ブロック1525から1531に示されるように、処理特徴セット内の各種特徴について反復される。反復は、ブロック1525に示されるように、特徴セットから次の特徴を特定することによってスタートされる。反復は、次いで、処理からの各特徴セット内における現行特徴のランクを決定する動作に進む。ブロック1527を参照せよ。上述のように、このようなランキングは、特徴セット内において指定された各種の基準(例えばp値または倍変化)に基づくことが可能である。次に、プロセスは、処理内の全ての特徴セットにおける現行特徴の個々のランクをもとに、略ランクを決定する。ブロック1529を参照せよ。略ランクは、例えば、全ての処理特徴セットにおいて最大のランク、または平均もしくは中央のランクとして計算することが可能である。
検討中の特徴についての略ランクを決定した後、プロセスは、処理特徴セット内にその他に検討するべきさらなる特徴があるか否かを決定する。決定ブロック1531を参照せよ。もしあるならば、プロセスは、動作1525に戻り、ここで、別の反復用に特徴セットのなかから次の特徴が選択され、その結果、処理特徴セット全体における略ランクが計算される。このプロセスは、処理特徴セット内の全ての特徴が検討され略スコアを与えられるまで継続される。次に、決定1531は否定応答され、その時点で、処理の結果が表示可能である(ブロック1533)。特定の実施形態では、システムは、処理からの特徴グループ内の各特徴について、その特徴IDおよび略ランクを表示する。特定の実施形態では、その特徴の処理特徴グループ全体における特異性も表示される。この情報は、一般に、ユーザが処理特徴セット内の特徴の1つを選択した際に、そのユーザに対して表示される。
図15Dは、複数特徴セット対全特徴の処理の結果を表示したユーザインターフェースの画面ショット1561を示している。図に示されるように、1533に表示された個々の遺伝子(特徴)は、ランキングリストの行1563として示されている。各遺伝子について表示された特性は、ランクスコア1565と、特異性1567と、遺伝子シンボル1569と、マッピングID1571とを含む。
次に、図16Aを参照にして特徴グループタイプの処理について説明する。図に示されるように、プロセスは、処理入力として特徴グループを受信することからスタートする(ブロック1601)。この入力は、処理入力が1つまたは複数の特徴セットであった場合の図13〜15に示された処理と対照的である。上述された実施形態と同様に、図16Aの実施形態は、「処理実行」コマンドの受信を受けて処理を実行する(ブロック1603)。処理システムは、次いで、処理特徴グループを検索分野内の全ての特徴セットと比較し、特徴セットのランキングリストを作成することによって、処理を実行する(ブロック1605)。特定の実施形態では、ランキングは、スコア表内の前計算結果をもとに提供される。上述のように、あらゆる特徴グループとあらゆる特徴セットとの間の相関が前計算され、知識ベース内に格納されている。これは、システムが、検討中の特徴グループを知識ベース内の各特徴セットとペアにして素早くなおかつ効率良くランキングリストを生成することを可能にする。処理が実行され、なおかつランキングリストが作成されると、リストは、ディスプレイまたはその他の出力を介し、ユーザに対して結果として表示される(ブロック1607)。結果得られた特徴セットは、そのままで、または例えば研究もしくは分類キーワードなどの適切なうつわを介して表示することができる。
なお、図16Aに表示されたプロセスは、処理入力として単一特徴グループのみを用いている。特定の実施形態では、処理は、処理入力として複数の特徴グループを提示することができる。このような場合、図16Aに示されたプロセスは、各特徴グループについて繰り返されると考えられる。
図16Bは、特徴グループ対特徴セットの処理の結果を示したユーザインターフェース窓1651からの画面ショットを示している。図に示された具体例では、「コレステロール生合成」遺伝子バイオグループが、知識ベース内の全ての特徴セットに照らして処理される。結果は、処理において発見された、バイオセットを含有する研究として表示される。各研究(および場合によっては研究内のバイオグループ)は、行1653に表示される。各研究/バイオグループについて提供される処理情報は、ランクスコア1655と、研究名1657と、共通遺伝子1659と、共通特徴1661と、p値1663と、Q値1665と、起源となる種1667とを含む。
さらに別のタイプの処理は、特徴処理である。特徴処理への処理入力は、個々の特徴(例えば遺伝子、SNP、化学化合物など)である。特定の実施形態において、特徴処理の実行は、対象の特徴を含有した特徴セットを知識ベースのなかから特定することをともなう。特定された特徴セットは、特徴セット内におけるその特徴のランキングに基づいてランク付けすることができる。
図17Aは、特徴処理を実行するためのアルゴリズムの一例を表示している。図に示されるように、プロセスは、特徴入力のIDを受信すること(ブロック1701)、次いで、検索分野内における「処理実行」コマンドを受信すること(ブロック1703)によってスタートする。処理は、処理特徴を検索分野内の全ての特徴セットと比較することによって実行される(ブロック1705)。比較は、処理特徴を保持している特徴セットを特定する。次に、システムは、特定された特徴セットのランキングリストを作成する(ブロック1707)。ここで、ランキングは、特定された各特徴セット内における処理特徴の個々のランクに基づくものである。例えば、同じ特徴が、1つの特徴セットでは0.2のp値を有し、別の特徴セットでは0.1のp値を有することがある。もし、ランキング基準としてp値が使用された場合は、後者の特徴セットは、より高いランクを付与されるであろう。図に示された特徴処理における動作は、特徴セットのランキングリスト(すなわち処理結果)をユーザに対して表示することをともなう。ブロック1709を参照せよ。本明細書において説明されたその他の実施形態にあるように、結果得られた特徴セットは、それらの特徴セットの属する研究または分類グループのかたちで表示されると好都合なこともある。
図17Bは、一特徴対知識ベース内全特徴セットの結果を示したユーザインターフェース窓1751の画面ショットを示している。この具体例では、Pit−1遺伝子が、全ての特徴セットにわたって処理される。図に示されるように、処理によって返された特徴セット(バイオセット)は、行1753に(研究またはバイオセットとして)表示される。ランクスコア、遺伝子シンボル、p値、倍変化、および起源となる種が、各バイオセットについて表示される。
図18は、特定の実施形態にしたがった処理入力画面1801を示している。入力画面は、以下の主要部分を含む。すなわち、(i)処理への入力として入力される特徴、特徴セット、および/または特徴グループを特定するためのブラウズ領域1803、(ii)処理用の入力として機能する特徴、特徴セット、および/または特徴グループを具体的に特定するための「Q」ボックス1805(処理設定パネル)、ならびに(iii)領域1805において特定された入力を有する処理の検索分野の範囲を区切る働きをする任意の特徴、特徴セット、特徴グループ、研究、プロジェクト、分類グループなどを具体的に特定するための「S」ボックス1807(処理検索スペースパネル)である。Sボックス1807またはQボックス1805に特徴や特徴セットなどを追加するには、矢印またはその他のユーザインターフェースツールを用いることができる。なお、処理入力画面1801は、処理を開始させるための「処理実行」ボタン1809も有することに留意せよ。また、ブラウズ領域1803において、ユーザは、処理を構築するために使用される情報を容易に見つけられるように、バイオセット、タグ、および関連のファイルを検討する選択肢を提供されることにも留意せよ。
その他の処理モードでは、本明細書において説明された知識ベースの内容およびアーキテクチャを上手く活用することができる。これらの1つは、特徴セットに関連付け可能なタグなどの分類キーワードを使用した処理をともなう。それに代わって、またはそれに加えて、ユーザは、知識ベース内に提供された研究またはプロジェクトを使用して処理を構築することも可能である。分類グループおよび研究/プロジェクトは、ともに、処理を定めるため(Qボックス)または検索分野の範囲を区切るため(Sボックス)に使用することができる。内容の閲覧すなわちブラウズに用いることが可能なさらに他の特徴としては、特定の実施形態では、有機体の特定の解剖領域(例えばマウスの脳)に関連した特徴セットまたはその他の内容を表示するためのアトラス、および特定の有機体ゲノム上の遺伝子または(マウスやヒトなどの高等生物の)染色体のリストを立ち上げるためのゲノムタブが含まれる。
4. コンピュータハードウェア:
明らかなように、本発明の特定の実施形態は、1つもしくは複数のコンピュータシステムに格納されたまたは1つもしくは複数のコンピュータシステムを通して転送された命令および/あるいはデータの制御下において作用するプロセスを用いる。特定の実施形態は、また、これらの動作を実施するための装置にも関する。この装置は、所要の目的のために特別に設計および/または構築されたものであってもよいし、あるいはコンピュータに格納されたまたはコンピュータにおいて使用可能にされた1つもしくは複数のコンピュータプログラムおよび/またはデータ構造によって選択的に構成された汎用コンピュータであってもよい。本明細書において提起されたプロセスは、いかなる特定のコンピュータにもその他の装置にも本質的に無関連である。具体的に言うと、本明細書の教示内容にしたがって記述されたプログラムとともに各種の汎用マシンが使用されてもよいし、あるいは所要の方法ステップを実施するためにより特化された装置を構築するほうが好都合であってもよい。これらの様々なマシンの具体的構造が、以下に示され説明される。
また、特定の実施形態は、少なくとも(1)計装、データベース(私用または公共(例:NCBI))、およびその他の情報源から生データを取得するタスク、(2)生データにキュレーションを施して特徴セットを提供するタスク、(3)特徴セットおよびその他のデータをデータベースなどのリポジトリまたは知識ベースにインポートするタスク、(4)インポートされたデータからの特徴を、インデックス内の事前定義された特徴基準にマッピングするタスク、(5)事前定義の特徴インデックスを生成するタスク、(6)特徴セットと特徴セットとの間および特徴セットと特徴グループとの間の相関またはその他のスコアを生成するタスク、(7)特徴グループを作成するタスク、(8)ユーザから処理を受信する(処理の入力内容および/または処理の検索分野の限定を随意に含む)タスク、(9)特徴、特徴グループ、特徴セット、研究、分類グループなどを使用して処理を実行するタスク、ならびに(10)処理結果をユーザに対して(随意には、ユーザが関連の処理からの関連の内容をナビゲートすることを可能にするかたちで)表示するタスク、に関連した各種のコンピュータ実行動作を実施するためのプログラム命令および/またはデータ(データ構造を含む)を含む、コンピュータ可読媒体あるいはコンピュータプログラム製品に関する。本発明は、また、命令を実行してこれらのタスクの任意または全部を実施する計算装置にも関する。本発明は、また、このようなタスクを実施するための命令をコード化されたコンピュータ可読媒体を含む計算装置にも関する。
さらに、本発明は、コンピュータ可読媒体に格納された有用なデータ構造に関する。このようなデータ構造は、例えば、特徴セット、特徴グループ、分類階層、特徴インデックス、スコア表、および本明細書において提起されたその他の任意の論理データグループを含む。特定の実施形態は、また、本明細書において説明されたように生成された任意の結果(例えば処理結果)またはデータ構造を格納するための機能(例えばコードおよびプロセス)も提供する。このような結果またはデータ構造は、一般に、以下の説明において提起されるようなコンピュータ可読媒体に、少なくとも一時的に格納される。結果またはデータ構造は、また、表示や印刷などの各種のあらゆる方式で出力可能である。
本発明のコンピュータプログラム製品および計算装置における使用に適した有形のコンピュータ可読媒体の例は、ハードディスク、フロッピィディスク、および磁気テープなどの磁気媒体、CD−ROMディスクなどの光媒体、光磁気媒体、半導体メモリデバイス(例えばフラッシュメモリ)、ならびに読み出し専用メモリデバイス(ROM)およびランダムアクセスメモリ(RAM)などプログラム命令の格納および実施のために特別に構成されたハードウェアデバイスを含むが、これらに限定されない。本明細書において提供されるデータおよびプログラム命令は、搬送波またはその他の転送媒体(電子経路もしくは光学伝導経路を含む)にも組み込み可能である。
プログラム命令の例は、コンパイラによって生成されるような低水準コード、およびインタープリタを使用してコンピュータによって実行可能な高水準コードを含む。さらに、プログラム命令は、マシンコード、ソースコード、および/または計算マシンの動作を直接的もしくは間接的に制御するその他の任意のコードであることが可能である。コードは、入力、出力、計算、条件、分岐、反復ループなどを特定することが可能である。
図19は、適切に構成または設計された際に特定の実施形態にしたがった計算装置として機能することができる代表的なコンピュータシステムを、単純なブロック形式で示している。コンピュータシステム1900は、一次ストレージ1906(一般に、ランダムアクセスメモリすなわちRAMである)および一次ストレージ1904(一般に、読み出し専用メモリすなわちROMである)を含むストレージデバイスに結合された任意の数のプロセッサ1902(中央演算処理装置すなわちCPUとも称される)を含む。CPU1902は、マイクロコントローラ、ならびにゲートアレイASICまたは汎用マイクロプロセッサなどのプログラマブルデバイス(例えばCPLDやFPGA)および非プログラマブルデバイスなどのマイクロプロセッサを含む、各種のタイプであることが可能である。図示された実施形態では、一次ストレージ1904は、CPUに対してデータおよび命令を単方向的に伝送する働きをし、一次ストレージ1906は、一般に、データおよび命令を双方向的に伝送するために使用される。これらの一次ストレージデバイスは、いずれも、後述されるような任意の適切なコンピュータ可読媒体を含むことが可能である。一次ストレージ1906には、マスストレージデバイス1908も双方向的に接続され、これは、追加のデータ記憶容量を提供し、上述された任意のコンピュータ可読媒体を含むことが可能である。マスストレージデバイス1908は、プログラムやデータなどを格納するために使用されてよく、一般に、ハードディスクなどの二次ストレージ媒体である。このようなプログラムやデータなどは、CPU1902での実行に備えて一時的に一次メモリ1906にコピーされることが多い。マスストレージデバイス1908内に保持された情報は、もし適切であれば、一次ストレージ1904の一部として標準的なかたちで組み入れ可能であることがわかる。CD−ROM1914などの特定のマスストレージデバイスは、CPUまたは一次ストレージに対してデータを単方向的に引き渡すことも可能である。
CPU1902は、また、ビデオモニタ、トラックボール、マウス、キーボード、マイクロフォン、タッチセンサ式ディスプレイ、トランスデューサカード読み取り装置、磁気テープもしくは紙テープ読み取り装置、タブレット、スタイラス、音声もしくは手書き文字認識周辺機器、USBポート、またはもちろんその他のコンピュータなどのその他の周知の入力装置などの1つまたは複数の入出力装置につながるインターフェース1910に接続される。最終的に、CPU1902は、1912に一般的に示されるような外部接続を使用して、データベースもしくはコンピュータなどの外部機器、または通信ネットワークに随意に接続可能である。このような接続があれば、CPUは、本明細書において説明された方法のステップを実施する過程において、ネットワークから情報を受信する、またはネットワークに情報を出力することができると考えられる。
一実施形態では、本明細書において説明されたタスクの一部または全部を実施することができるデータインポート、データ相関、および処理のシステムとして、コンピュータシステム1900のようなシステムが使用される。システム1900は、例えばデータ収集ツールなど、知識ベースおよび処理に関連したその他の各種ツールとしても機能することが可能である。データファイルを含む情報およびプログラムは、研究者によるダウンロードのために、ネットワーク接続1912を介して提供することができる。あるいは、このような情報、プログラム、およびファイルは、研究者のストレージデバイスに提供することができる。
具体的な一実施形態では、コンピュータシステム1900は、サンプルからデータを収集するマイクロアレイまたはハイスループットスクリーニングシステムなどのデータ取得システムに直接的に接続される。このようなシステムからのデータは、システム1900による解析のために、インターフェース1912を介して提供される。あるいは、システム1900によって処理されるデータは、関連データのデータベースまたはその他のリポジトリなどのデータストレージソースから提供される。ひとたび装置1900に入ると、一次ストレージ1906またはマスストレージ1908などのメモリデバイスが、関連データを少なくとも一時的にバッファに入れる、または格納する。メモリは、特徴セットをインポートすること、特徴セットを互いにおよび特徴グループと相関させること、ならびに処理を生成および実行することなどを含む、データのインポート、解析、および表示のための各種のルーチンならびに/またはプログラムを格納することも可能である。
以上では、具体的なプロセスおよび装置にしたがって、特定の実施形態を概ね説明してきた。しかしながら、提供された説明の主題は、もっと広範囲の実装および応用を有する。当業者ならば、その他のヴァリエーション、変更形態、および代替形態を認識することができるであろう。
本発明の一実施形態にしたがった、知識ベースを生成するために用いられる重要なステップを示したフロー図である。 生データ、および知識ベースでの使用のために該生データから生成されたデータセット(特徴セット)の概略図である。 本発明の一実施形態にしたがった、生データのキュレーションに用いられる重要なステップを示したフロー図である。 本発明の一実施形態にしたがった、キュレーションプロセスのデータ品質制御動作に用いられる重要なステップを示したフロー図である。 本発明の一実施形態にしたがった、キュレーションプロセスの統計的解析動作に用いられる重要なステップを示したフロー図である。 本発明の一実施形態にしたがった、複数の組織を対象とした実験または研究から組織固有の特徴セットを生成する際に用いられる重要なステップを示したフロー図である。 複数の組織にわたる一特徴の発現中央値を示したグラフである。 特徴セットファイルの一例を示した画面表示の説明図である。 本発明の一実施形態にしたがった、知識ベースにデータをインポートする際に用いられる重要なステップを示したフロー図である。 特徴間の関係の例を示した概略図である。関連した特徴間につながりを確立するために、本発明の各種の実施形態にしたがってマッピングが使用される。 本発明の一実施形態にしたがった、グラフィカルユーザインターフェース用のタグナビゲータおよびタグ付けの画面を示した画面(HTMLページ)表示の説明図である。 特徴セット対特徴グループの関係の一例を示したセット図である。 特徴セットを特徴グループと相関させる際の重要なステップを示したフロー図である。 特徴グループと相関させることができる一特徴セットの特徴表の一例であり、相関プロセスに使用されるストップすなわちチェックポイントが示された説明図である。 特徴セット対特徴セットの関係の一例を示したセット図である。 特徴セットを別の特徴セットと相関させる際の重要なステップを示したフローチャートである。 互いに相関される2つの特徴セット(F1およびF2)の特徴リストを示す説明図であり、相関プロセスに使用されるストップ、すなわちチェックポイントを示す図である。 互いに相関される2つの特徴セット(F1およびF2)の特徴リストの説明図であり、線により、互いにマッピング、すなわちアラインされる特徴を示す説明図である。 本発明の各種の実施形態にしたがった、知識ベース内にある各種の要素、すなわち実体の概略図である。 本発明の特定の実施形態にしたがった処理入力として単一特徴セットを用いた処理を処理する際のいくつかの動作を示したプロセスのフローチャートである。 一特徴セット対特徴セットの処理についての処理結果窓を示した画面ショットの説明図である。 一特徴セット対特徴グループの処理についての処理結果窓を示した画面ショットの説明図である。 一特徴セットからの複数の特徴を処理入力として用いた処理の処理を示したプロセスのフローチャートである。 複数の特徴セットを処理入力として、そして1つまたは複数の特徴グループを検索分野として用いた処理を処理する際のいくつかの動作を示したプロセスのフローチャートである。 複数特徴セット対特徴グループの処理の結果を示した画面ショットでの説明図である。 複数特徴セットからの特徴を処理入力として用いた処理を処理する際のいくつかの動作を示したプロセスのフローチャートである。 複数特徴セット対全特徴の処理の結果を示した画面ショットの説明図である。 特定の実施形態にしたがった、特徴グループタイプの処理におけるいくつかの動作を示したプロセスのフローチャートである。 特徴グループ対特徴セットの処理の結果を示したユーザインターフェース窓からの画面ショットである。 特定の実施形態にしたがった、特徴タイプの処理におけるいくつかの動作を示したプロセスのフローチャートである。 一特徴対知識ベース内全特徴セットの結果を表示したユーザインターフェース窓の画面ショットの説明図である。 特定の実施形態にしたがった、各種タイプの処理を柔軟に入力するための処理入力窓を示した画面ショットの説明図である。 本明細書において説明された方法および装置とともに使用することができるコンピュータシステムの概略構成図である。

Claims (5)

  1. 科学実験情報を含むデータを格納および処理するための知識ベースであって、
    少なくとも1つの特徴と関連の統計情報とを各自含む複数の特徴セットと、
    固有の特徴を各自表すマッピング識別子を含むインデックスセットと、
    前記複数の特徴セット内の特徴に関連付け可能なタグのリストを含む分類表と、
    各特徴セットとその他の全ての特徴セットとの間の相関に関する情報を含むスコア表と
    を備える知識ベース。
  2. 科学情報の知識ベースにデータを提供する方法であって、
    (a)1つもしくは複数の特徴についての情報を、治療または刺激に対する前記特徴の反応の表示とともに含む生データを、1つまたは複数のサンプルから受信することと、
    (b)より関連性の低い少なくとも一部の特徴に関する情報を排除することによって、前記生データから入力特徴セットを作成することと、
    (c)前記入力特徴セットを、前記知識ベース内の複数の既存の特徴セットと相関させることと、
    (d)前記入力特徴セットを、前記知識ベース内の1つまたは複数の特徴グループと相関させることであって、前記特徴グループは、共通の構造的および/または機能的特性を有する特徴の集合を提供する、ことと、
    (e)(c)および(d)において生成された相関情報を、特徴グループまたは特徴セットをともなう処理に対する応答に使用するために格納することと
    を備える方法。
  3. 請求項2に記載の方法であって、
    前記特徴は、有機体の遺伝子を含む方法。
  4. 請求項2に記載の方法であって、
    前記特徴は、化学化合物を含み、反応の表示は、化学化合物が生物系に及ぼす影響である方法。
  5. 請求項2に記載の方法であって、
    (c)における相関は、特徴セットに対してフィッシャーの直接確率検定を複数回実施することを含む方法。
JP2008545870A 2005-12-16 2006-12-15 科学情報知識管理のためのシステムおよび方法 Pending JP2009520278A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US75082905P 2005-12-16 2005-12-16
PCT/US2006/048067 WO2007075488A2 (en) 2005-12-16 2006-12-15 System and method for scientific information knowledge management

Publications (1)

Publication Number Publication Date
JP2009520278A true JP2009520278A (ja) 2009-05-21

Family

ID=38218485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008545870A Pending JP2009520278A (ja) 2005-12-16 2006-12-15 科学情報知識管理のためのシステムおよび方法

Country Status (4)

Country Link
US (2) US8275737B2 (ja)
EP (1) EP1964037A4 (ja)
JP (1) JP2009520278A (ja)
WO (1) WO2007075488A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US10275711B2 (en) 2005-12-16 2019-04-30 Nextbio System and method for scientific information knowledge management
US11769339B2 (en) 2021-03-26 2023-09-26 Fujitsu Limited Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364665B2 (en) * 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
US8412707B1 (en) 2008-06-13 2013-04-02 Ustringer LLC Method and apparatus for distributing content
US8255167B2 (en) * 2008-08-14 2012-08-28 Regeneron Pharmaceuticals, Inc. Non-hypergeometric overlap probability
US9367609B1 (en) 2010-03-05 2016-06-14 Ustringer LLC Method and apparatus for submitting, organizing, and searching for content
CN102985925B (zh) * 2010-05-03 2017-05-24 生物辐射实验室股份有限公司 用于提供自动更新的产品插页的系统和方法
KR101143466B1 (ko) * 2011-09-26 2012-05-10 한국과학기술정보연구원 연구 연관도 서비스 제공 방법 및 시스템
KR101137973B1 (ko) * 2011-11-02 2012-04-20 한국과학기술정보연구원 연관기술 서비스 제공 방법 및 시스템
US9092566B2 (en) * 2012-04-20 2015-07-28 International Drug Development Institute Methods for central monitoring of research trials
US9600625B2 (en) 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
JP6316844B2 (ja) * 2012-12-22 2018-04-25 エムモーダル アイピー エルエルシー 予測モデル生成のためのユーザーインタフェース
US9275425B2 (en) * 2013-12-19 2016-03-01 International Business Machines Corporation Balancing provenance and accuracy tradeoffs in data modeling
WO2015123444A2 (en) 2014-02-13 2015-08-20 Illumina, Inc. Integrated consumer genomic services
US9957781B2 (en) 2014-03-31 2018-05-01 Hitachi, Ltd. Oil and gas rig data aggregation and modeling system
US10394828B1 (en) 2014-04-25 2019-08-27 Emory University Methods, systems and computer readable storage media for generating quantifiable genomic information and results
US10949473B2 (en) * 2014-05-21 2021-03-16 Knowledge Syntheses Systems and method for searching and analyzing big data
JP6920220B2 (ja) 2015-06-30 2021-08-18 エメラルド クラウド ラボ、インコーポレイテッド 実験室の実験の管理、実行および分析のためのシステム、方法及びコンピュータプログラム
US10296913B1 (en) * 2016-03-23 2019-05-21 Emc Corporation Integration of heterogenous data using omni-channel ontologies
US11001880B2 (en) 2016-09-30 2021-05-11 The Mitre Corporation Development of SNP islands and application of SNP islands in genomic analysis
US10810213B2 (en) 2016-10-03 2020-10-20 Illumina, Inc. Phenotype/disease specific gene ranking using curated, gene library and network based data structures
US10817757B2 (en) * 2017-07-31 2020-10-27 Splunk Inc. Automated data preprocessing for machine learning
US11354591B2 (en) 2018-10-11 2022-06-07 International Business Machines Corporation Identifying gene signatures and corresponding biological pathways based on an automatically curated genomic database
US11640277B2 (en) * 2019-06-26 2023-05-02 Shanghai Research Institute of Acupuncture and Meridian Method/system for managing experimental data, computer readable storage medium, and device
US10997194B1 (en) 2019-11-15 2021-05-04 Bank Of America Corporation Data mapper tool
CN112199578B (zh) * 2020-08-28 2022-04-22 贝壳找房(北京)科技有限公司 信息处理方法和装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528095A (ja) * 1998-10-27 2002-09-03 ロゼッタ・インファーマティクス・インコーポレーテッド 同時調節された遺伝子セットを使用して遺伝子発現パターンの検出および分類を向上させる方法
JP2004152035A (ja) * 2002-10-31 2004-05-27 World Fusion Co Ltd 研究遺伝子産物データ分類システム
JP2004535612A (ja) * 2001-03-05 2004-11-25 ジーン ロジック インコーポレイテッド 遺伝子発現データの管理システムおよび方法
JP2005518793A (ja) * 2002-02-28 2005-06-30 アイコニックス ファーマシューティカルズ インコーポレイテッド 薬剤サイン
JP2005309836A (ja) * 2004-04-22 2005-11-04 Link Genomics Kk がん診断支援システム

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5153178A (en) * 1982-05-14 1992-10-06 Maroko Peter R Compositions and method of treatment for improving circulatory performance
EP0574213B1 (en) 1992-06-08 1999-03-24 Synaptics, Inc. Object position detector
US6286002B1 (en) * 1996-01-17 2001-09-04 @Yourcommand System and method for storing and searching buy and sell information of a marketplace
US6275868B1 (en) 1997-03-12 2001-08-14 Microsoft Corporation Script Engine interface for multiple languages
US5943668A (en) 1997-06-30 1999-08-24 International Business Machines Corporation Relational emulation of a multi-dimensional database
US20010016314A1 (en) * 1998-10-29 2001-08-23 Stephen Anderson Linking gene sequence to gene function by three dimesional (3d) protein structure determination
US6151601A (en) * 1997-11-12 2000-11-21 Ncr Corporation Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area
US6580910B1 (en) 1997-12-19 2003-06-17 Telefonaktiebolaget L M Ericsson (Publ) Method and system for improving handoffs in cellular mobile radio systems
US6408308B1 (en) * 1998-01-29 2002-06-18 Incyte Pharmaceuticals, Inc. System and method for generating, analyzing and storing normalized expression datasets from raw expression datasets derived from microarray includes nucleic acid probe sequences
US6836877B1 (en) 1998-02-20 2004-12-28 Lsi Logic Corporation Automatic synthesis script generation for synopsys design compiler
US7444308B2 (en) * 2001-06-15 2008-10-28 Health Discovery Corporation Data mining platform for bioinformatics and other knowledge discovery
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
US6185561B1 (en) 1998-09-17 2001-02-06 Affymetrix, Inc. Method and apparatus for providing and expression data mining database
US6950752B1 (en) 1998-10-27 2005-09-27 Rosetta Inpharmatics Llc Methods for removing artifact from biological profiles
US6465183B2 (en) 1999-07-01 2002-10-15 Agilent Technologies, Inc. Multidentate arrays
AU2001229744A1 (en) * 2000-01-25 2001-08-07 Cellomics, Inc. Method and system for automated inference of physico-chemical interaction knowl edge
US7072665B1 (en) 2000-02-29 2006-07-04 Blumberg Brad W Position-based information access device and method of searching
US20020177138A1 (en) 2000-11-15 2002-11-28 The United States Of America , Represented By The Secretary, Department Of Health And Human Services Methods for the indentification of textual and physical structured query fragments for the analysis of textual and biopolymer information
US6925455B2 (en) 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US20020150966A1 (en) * 2001-02-09 2002-10-17 Muraca Patrick J. Specimen-linked database
US7718354B2 (en) 2001-03-02 2010-05-18 Ibis Biosciences, Inc. Methods for rapid identification of pathogens in humans and animals
US20020164070A1 (en) * 2001-03-14 2002-11-07 Kuhner Mark B. Automatic algorithm generation
US20020197632A1 (en) 2001-05-03 2002-12-26 Genomed, Llc Method to find disease-associated SNPs and genes
US7155453B2 (en) 2002-05-22 2006-12-26 Agilent Technologies, Inc. Biotechnology information naming system
WO2002103030A2 (en) * 2001-06-14 2002-12-27 Rigel Pharmaceuticals, Inc. Multidimensional biodata integration and relationship inference
US7072794B2 (en) * 2001-08-28 2006-07-04 Rockefeller University Statistical methods for multivariate ordinal data which are used for data base driven decision support
US7103519B2 (en) 2001-09-20 2006-09-05 Daimlerchrysler Corporation Virtual manufacturing system
EP1448796A4 (en) * 2001-11-05 2008-04-02 California Inst Of Techn NON-METRIC TOOL FOR PREDICTING GENETIC RELATIONS FROM EXPRESSION DATA
US7225183B2 (en) 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
EP1483720A1 (en) * 2002-02-01 2004-12-08 Rosetta Inpharmactis LLC. Computer systems and methods for identifying genes and determining pathways associated with traits
US20040071700A1 (en) 2002-10-09 2004-04-15 Life Sciences Development Corp. Obesity linked genes
US6943278B2 (en) 2002-10-15 2005-09-13 Genexel, Inc. Transgenic Drosophila having a disrupted Parkin gene and exhibits reduced climbing ability
JP2006516193A (ja) 2002-12-06 2006-06-29 アイシス・ファーマシューティカルス・インコーポレーテッド ヒトおよび動物における病原体の迅速な同定方法
US7490085B2 (en) * 2002-12-18 2009-02-10 Ge Medical Systems Global Technology Company, Llc Computer-assisted data processing system and method incorporating automated learning
US20040122708A1 (en) * 2002-12-18 2004-06-24 Avinash Gopal B. Medical data analysis method and apparatus incorporating in vitro test data
WO2005001751A1 (en) * 2003-06-02 2005-01-06 Regents Of The University Of California System for biometric signal processing with hardware and software accelaration
US20040249791A1 (en) * 2003-06-03 2004-12-09 Waters Michael D. Method and system for developing and querying a sequence driven contextual knowledge base
US20050081188A1 (en) 2003-10-14 2005-04-14 Kumar Anand R. Method and apparatus for providing integrated customer care and work-flow management
US7643990B1 (en) 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US20050196817A1 (en) * 2004-01-20 2005-09-08 Molecular Staging Inc. Biomarkers for sepsis
GB2426610A (en) 2004-02-25 2006-11-29 Applied Aged Care Solutions Pt Essential data communication system
AU2005240669A1 (en) 2004-05-07 2005-11-17 Garvan Institute Of Medical Research Detecting disease association with aberrant glycogen synthase kinase 3-beta expression
JP2006039867A (ja) * 2004-07-26 2006-02-09 Hitachi Software Eng Co Ltd cDNA配列のマッピング方法
US7798401B2 (en) 2005-01-18 2010-09-21 Invention Science Fund 1, Llc Obtaining user assistance
US20060173828A1 (en) * 2005-02-01 2006-08-03 Outland Research, Llc Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query
US20060253262A1 (en) 2005-04-27 2006-11-09 Emiliem Novel Methods and Devices for Evaluating Poisons
JP4756906B2 (ja) 2005-05-11 2011-08-24 シスメックス株式会社 生体シミュレーションシステム及びコンピュータプログラム
WO2006124922A2 (en) 2005-05-17 2006-11-23 Super Computer International Collaborative online gaming system and method
US20070118399A1 (en) 2005-11-22 2007-05-24 Avinash Gopal B System and method for integrated learning and understanding of healthcare informatics
WO2007075488A2 (en) 2005-12-16 2007-07-05 Nextbio System and method for scientific information knowledge management
US8364665B2 (en) 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US20080075789A1 (en) 2006-02-28 2008-03-27 The Regents Of The University Of California Genes differentially expressed in bipolar disorder and/or schizophrenia
US20080144124A1 (en) 2006-10-13 2008-06-19 Ramin Samadani Auxiliary information for reconstructing digital images processed through print-scan channels
US7761392B2 (en) 2006-10-31 2010-07-20 Motorola, Inc. Configurable infinite logic signal processing network and genetic computing method of designing the same
US8090608B2 (en) 2006-12-18 2012-01-03 Microsoft Corporation Identifying technological solutions for user-centric product designs
US8943128B2 (en) 2006-12-21 2015-01-27 Bce Inc. Systems and methods for conveying information to an instant messaging client
US8078217B2 (en) 2007-03-30 2011-12-13 Motorola Solutions, Inc. Modular multi-sided radio architecture
US8811692B2 (en) 2007-04-17 2014-08-19 Francine J. Prokoski System and method for using three dimensional infrared imaging for libraries of standardized medical imagery
WO2009039425A1 (en) 2007-09-21 2009-03-26 Nextbio Directional expression-based scientific information knowledge management
EP2570495B1 (en) 2008-01-02 2015-09-09 SureGene LLC Genetic markers of mental illness
JP5191240B2 (ja) 2008-01-09 2013-05-08 オリンパス株式会社 シーン変化検出装置およびシーン変化検出プログラム
EP2245568A4 (en) 2008-02-20 2012-12-05 Univ Mcmaster EXPERT SYSTEM FOR DETERMINING A PATIENT'S RESPONSE TO A TREATMENT
WO2009111581A1 (en) 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
KR100944903B1 (ko) 2008-03-18 2010-03-03 한국전자통신연구원 비디오 신호의 특징 추출 장치 및 그 추출 방법, 비디오인식 시스템 및 그 인식 방법
US8731956B2 (en) 2008-03-21 2014-05-20 Signature Genomic Laboratories Web-based genetics analysis
US20110179066A1 (en) 2008-06-20 2011-07-21 Business Intelligence Solutions Safe B.V. Methods, apparatus and systems for data visualization and related applications
US20100305806A1 (en) 2009-06-02 2010-12-02 Chadwick Todd Hawley Portable Multi-Modal Emergency Situation Anomaly Detection and Response System
US8311957B2 (en) 2009-11-13 2012-11-13 Hewlett-Packard Development Company, L.P. Method and system for developing a classification tool
US20130166320A1 (en) 2011-09-15 2013-06-27 Nextbio Patient-centric information management
WO2013055704A1 (en) 2011-10-10 2013-04-18 Ayasdi, Inc. Systems and methods for mapping new patient information to historic outcomes for treatment assistance

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528095A (ja) * 1998-10-27 2002-09-03 ロゼッタ・インファーマティクス・インコーポレーテッド 同時調節された遺伝子セットを使用して遺伝子発現パターンの検出および分類を向上させる方法
JP2004535612A (ja) * 2001-03-05 2004-11-25 ジーン ロジック インコーポレイテッド 遺伝子発現データの管理システムおよび方法
JP2005518793A (ja) * 2002-02-28 2005-06-30 アイコニックス ファーマシューティカルズ インコーポレイテッド 薬剤サイン
JP2004152035A (ja) * 2002-10-31 2004-05-27 World Fusion Co Ltd 研究遺伝子産物データ分類システム
JP2005309836A (ja) * 2004-04-22 2005-11-04 Link Genomics Kk がん診断支援システム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6012025164; Barrett, T.: 'NCBI GEO: mining millions of expression profiles?database and tools' Nucleic Acids Research Vol.33, 20050101, p.D562-D566 *
JPN6012025166; Shah, S. P.: 'Atlas - a data warehouse for integrative bioinformatics' BMC Bioinformatics Vol.6, 20050221, p.34 *
JPN6012025169; Kupershmidt, I.: 'Ontology-Based Meta-Analysis of Global Collections of High-Throughput Public Data' PLoS One Vol.5, No.9, 2010, p.e13066 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US9633166B2 (en) 2005-12-16 2017-04-25 Nextbio Sequence-centric scientific information management
US10127353B2 (en) 2005-12-16 2018-11-13 Nextbio Method and systems for querying sequence-centric scientific information
US10275711B2 (en) 2005-12-16 2019-04-30 Nextbio System and method for scientific information knowledge management
US11769339B2 (en) 2021-03-26 2023-09-26 Fujitsu Limited Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus

Also Published As

Publication number Publication date
WO2007075488A3 (en) 2008-06-26
WO2007075488B1 (en) 2008-08-07
US10275711B2 (en) 2019-04-30
US8275737B2 (en) 2012-09-25
US20130166599A1 (en) 2013-06-27
EP1964037A4 (en) 2012-04-25
WO2007075488A2 (en) 2007-07-05
EP1964037A2 (en) 2008-09-03
US20070162411A1 (en) 2007-07-12

Similar Documents

Publication Publication Date Title
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
US9141913B2 (en) Categorization and filtering of scientific data
US8364665B2 (en) Directional expression-based scientific information knowledge management
US10127353B2 (en) Method and systems for querying sequence-centric scientific information
US7428554B1 (en) System and method for determining matching patterns within gene expression data
JP4594622B2 (ja) 薬発見法
JP5464503B2 (ja) 医療分析システム
US20030171876A1 (en) System and method for managing gene expression data
JP2006501531A5 (ja)
US20040234995A1 (en) System and method for storage and analysis of gene expression data
EP1366359A1 (en) A system and method for managing gene expression data
WO2009039425A1 (en) Directional expression-based scientific information knowledge management
Grewal et al. Analysis of expression data: an overview
Saviozzi et al. Microarray data analysis and mining
JP2001178463A (ja) 類似発現パターン抽出方法及び関連生体高分子抽出方法
Akay Genomics and proteomics engineering in medicine and biology
Oğul Content‐Based Retrieval of Microarray Experiments
Albrecht et al. Machine Learning in Quality Assessment of Early Stage Next-Generation Sequencing Data
Baumgartner The era of big data: from data-driven research to data-driven clinical care
Selvanayaki et al. Finding microarray genes using GO ontology
Schofield et al. 6 Computational

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120820

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130205