JP2009520278A - 科学情報知識管理のためのシステムおよび方法 - Google Patents
科学情報知識管理のためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2009520278A JP2009520278A JP2008545870A JP2008545870A JP2009520278A JP 2009520278 A JP2009520278 A JP 2009520278A JP 2008545870 A JP2008545870 A JP 2008545870A JP 2008545870 A JP2008545870 A JP 2008545870A JP 2009520278 A JP2009520278 A JP 2009520278A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- features
- feature set
- data
- sets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 208
- 238000012545 processing Methods 0.000 claims abstract description 114
- 238000002474 experimental method Methods 0.000 claims abstract description 47
- 108090000623 proteins and genes Proteins 0.000 claims description 107
- 238000013507 mapping Methods 0.000 claims description 81
- 150000001875 compounds Chemical class 0.000 claims description 23
- 238000000729 Fisher's exact test Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 15
- 238000011282 treatment Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 175
- 239000000126 substance Substances 0.000 abstract description 23
- 238000011160 research Methods 0.000 abstract description 16
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000010197 meta-analysis Methods 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 description 47
- 210000001519 tissue Anatomy 0.000 description 44
- 230000008676 import Effects 0.000 description 27
- 238000012360 testing method Methods 0.000 description 27
- 239000000523 sample Substances 0.000 description 25
- 206010028980 Neoplasm Diseases 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 230000008859 change Effects 0.000 description 20
- 238000003860 storage Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 16
- 210000004027 cell Anatomy 0.000 description 14
- 102000004169 proteins and genes Human genes 0.000 description 14
- 238000007781 pre-processing Methods 0.000 description 12
- 230000002596 correlated effect Effects 0.000 description 11
- 238000005259 measurement Methods 0.000 description 11
- 230000000052 comparative effect Effects 0.000 description 10
- 238000005457 optimization Methods 0.000 description 10
- 238000002493 microarray Methods 0.000 description 9
- 239000003814 drug Substances 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 6
- 239000012472 biological sample Substances 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000037361 pathway Effects 0.000 description 5
- 238000004886 process control Methods 0.000 description 5
- 241000894007 species Species 0.000 description 5
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 4
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- 241000699666 Mus <mouse, genus> Species 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000002526 effect on cardiovascular system Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013537 high throughput screening Methods 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 206010062767 Hypophysitis Diseases 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 102000048850 Neoplasm Genes Human genes 0.000 description 2
- 108700019961 Neoplasm Genes Proteins 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000002876 beta blocker Substances 0.000 description 2
- 229940097320 beta blocking agent Drugs 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 230000002759 chromosomal effect Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000005670 electromagnetic radiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 238000002483 medication Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 210000002682 neurofibrillary tangle Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000003635 pituitary gland Anatomy 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 229940124597 therapeutic agent Drugs 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 108700026220 vif Genes Proteins 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010021143 Hypoxia Diseases 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 101150054854 POU1F1 gene Proteins 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000000540 analysis of variance Methods 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 208000035269 cancer or benign tumor Diseases 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000004640 cellular pathway Effects 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 210000001353 entorhinal cortex Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001652 frontal lobe Anatomy 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000971 hippocampal effect Effects 0.000 description 1
- 210000001320 hippocampus Anatomy 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 208000028867 ischemia Diseases 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 210000005265 lung cell Anatomy 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 230000010534 mechanism of action Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000005445 natural material Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- -1 sequences Proteins 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 本発明は、ハイスループットの生物学的および化学的分析プラットフォームから大規模なデータを収集、統合、編成、ナビゲート、および処理するための方法、システム、ならびに装置に関する。これは、様々な生物学的および化学的分析と、データタイプと、有機体とをもとにした多数の研究および実験に跨って調査処理を実施するための高効率のメタ解析インフラストラクチャ、ならびにこのようなインフラストラクチャを構築および追加するためのシステムを提供する。
【選択図】図12
Description
本出願は、米国特許法第119条(e)に基づいて、2005年12月16日出願の米国仮特許出願第60/750,829号の優先権を主張する。
本発明は、ハイスループットの生物学的および化学的分析プラットフォームから大規模なデータを収集、統合、編成、ナビゲート、および処理するための方法、システム、ならびに装置に関する。これは、様々な生物学的および化学的分析と、データタイプと、有機体とによる多数の研究および実験に跨って調査処理を実施するための高効率のメタ解析インフラストラクチャ、ならびにこのようなインフラストラクチャを構築および追加するためのシステムを提供する。
これは、1つもしくは複数のサンプルに関する情報を提供する1つまたは複数の実験からのデータである。一般に、生データは、まだ、本発明のデータベースおよびシステムでの使用に適したレベルまで縮小されていない。これは、後続の操作によって、このようなデータベースおよびシステムでの使用に適した1つまたは複数の「特徴セット」の形態に縮小される。生データを特徴セットに変換するプロセスは、キュレーションと称されることがある。
これは、1つもしくは複数のサンプルに対する1つまたは複数の実験から得られる「生データ」をもとにした縮小データセットを意味する。特徴セットは、1つまたは複数の特徴(通常は複数の特徴)と、それらの特徴に対して実験が及ぼすインパクトに関する関連の情報とを含む。どこかの時点で、特徴セットの特徴は、実験における刺激または治療に対するそれらの反応の相対的レベルに基づいて、あるいは異なる表現型間におけるそれらの変化の大きさおよび方向、ならびに異なる表現型状態(例えば腫瘍の後期段階対腫瘍の初期段階)を区別するそれらの能力に基づいて、(少なくとも一時的に)ランク付けすることができる。
これは、互いに関連しあった特徴(例えば遺伝子)のグループを意味する。一例として、特徴グループの構成要素は、特定の細胞内において全て同じたんぱく質経路に属してもよいし、あるいは共通の機能または構造的特徴を共有してもよい。特徴グループは、また、作用メカニズムまたは構造的特徴/結合特徴に基づく化合物のグループ分けであることも可能である。
インデックスセットは、特徴識別子およびマッピング識別子を含有した知識ベース内の一セットであり、インポートされた特徴セットの全ての特徴を、知識ベース内に既にある特徴セットおよび特徴グループにマッピングするために使用される。例えば、インデックスセットは、数十万のマッピング識別子を指し示す数百万の特徴識別子を含有することが可能である。各マッピング識別子(アドレスと称されることもある)は、例えばマウスのゲノム中の固有遺伝子などの固有な特徴を表す。特定の実施形態では、インデックスセットは、固有の識別子へのポインタ、すなわちアドレスを各自有する様々な種類の特徴識別子(例えば遺伝子およびゲノム領域など)を含有することが可能である。インデックスセットは、新しい知識の取得とともに追加または変更することが可能である。
これは、処理の解析および処理への応答に使用されるデータの集合を意味する。特定の実施形態では、これは、1つまたは複数の特徴セット、特徴グループ、ならびに特徴セットを特定の階層またはディレクトリ(例えば研究およびプロジェクトの階層)に編成するためのメタデータを含む。また、知識ベースは、特徴セットを互いに相関させるまたは特徴セットを特徴グループと相関させる情報と、異なるプラットフォーム(例えばアフィメトリクスヒトHG_U133Aチップ)上で測定された特徴のリストなど、遺伝子もしくはその他の特徴についてのグローバル一意の用語または識別子のリストと、異なる有機体中の特徴の総数と、対応する転写と、たんぱく質産物と、それらの関係とを含むことが可能である。知識ベースは、一般に、異なる組織、病状、化合物の種類、表現型、細胞、およびそれらの間の関係についての全てのタグ(キーワード)のリストを含有した分類表も含有している。例えば、分類表は、癌と肝臓癌との間の関係を定め、さらに、これらの各グループに関連付けられたキーワードも含有している(例えば、「ネオプラズム」というキーワードが「癌」と同じ意味を持つなど)。必ずしも必要ではないが、一般に、知識ベース内のデータの少なくとも一部は、データベースの形に編成される。
キュレーションは、生データを1つもしくは複数の特徴セット(または特徴グループ)に変換するプロセスである。これは、場合によっては、実験からの生データに含有されるデータの量を大幅に減少させる。これは、有意性を持たない特徴についてのデータを排除する。特定の実施形態では、これは、比較実験と試験実験との間で発現を大きく増減させない特徴が特徴セットに含まれないことを意味する。キュレーションのプロセスは、このような特徴を特定して生データから排除する。キュレーションプロセスは、また、特徴セットを定めるために使用される関連の臨床質問を、生データの中から特定する。キュレーションは、また、知識ベースでの使用に適した標準フォーマットで特徴セットを提供する。
データのインポートは、特徴セットおよび特徴グループを、知識ベースへとまたはシステム内のその他のリポジトリへと持ち込むプロセスであり、知識ベースを構築する際に重要な動作である。ユーザインターフェースは、実験、その実験と特定の研究および/またはプロジェクトとの関連、ならびに実験プラットフォーム(例えばアフィメトリクスジーンチップ)をユーザが指定することと、データにタグ付けするための重要な概念をユーザが特定することとを可能にすることによって、データの入力を促進することができる。特定の実施形態では、データのインポートは、また、データにタグ付けする自動動作と、インポートされたデータを既にシステム内にあるデータにマッピングする自動動作とを含む。(インポート後の)後続の「前処理」は、インポートされたデータ(例えばインポートされた特徴セットおよび/または特徴グループ)を、その他の特徴セットおよび特徴グループと相関させる。
前処理は、知識ベース内の特徴セットペア間の統計的関係を特定および格納するように特徴セットを操作することをともなう。前処理は、また、知識ベース内の特徴セット間および特徴グループ間の統計的関係を特定および格納することもともなう。特定の実施形態では、前処理は、新しくインポートされた特徴セットを、知識ベース内のその他の特徴セットおよび特徴グループと相関させることをともなう。一般に、統計的関係は、異なる全ての特徴セットペアおよび特徴セットと特徴グループとの全ての組み合わせについて予め計算され格納されるが、本発明は、この完全相関レベルに限定されない。一実施形態では、統計的相関は、ランクベースの集中統計を使用してなされる。例えば、特定の実施形態では、厳密な検定を用いたランクベースの反復アルゴリズムが使用されるが、特徴セット間の重複の大きさなどその他のタイプの関係を用いることも可能である。当該分野において知られたその他の相関方法もまた、使用可能である。
これは、特定の実施形態で用いることができる階層状のデータのうつわ(ディレクトリのようなもの)である。一研究は、集中的実験セット(例えば特定の心血管系ターゲットに関わる実験)で得られた1つまたは複数の特徴セットを含むことができる。プロジェクトは、1つまたは複数の研究を含む(例えば一企業における心血管系への影響全体)。ライブラリは、知識ベース内の全てのプロジェクトの集合である。エンドユーザは、様々な階層レベル間の境界を定めるにあたって柔軟性を有する。
タグは、一特徴セットに関する記述的情報を、その特徴セットに関連付ける。これは、処理が特定のタグを指定または暗示する場合に、その特徴セットを結果として特定することを可能にする。タグとしては、臨床パラメータがしばしば使用される。タグの例として、腫瘍の病期、患者の年齢、サンプルの表現型の特性、および組織の種類が挙げられる。
マッピングは、特徴セット内の特徴(例えば遺伝子)をとり、それを知識ベース内のグローバル一意マッピング識別子にマッピングする。例えば、2つの異なる特徴セットの作成に使用された2つの実験データセットは、同じ遺伝子に異なる名称を使用していることがある。本明細書において、知識ベースは、インデックスセット内に、グローバル一意マッピング識別子の包括的リストをしばしば含んでいる。マッピングは、異なる名称間につながりを確立するために、その遺伝子用の知識ベースのグローバル一意マッピング識別子を使用する。特定の実施形態では、一特徴を、複数のグローバル一意マッピング識別子にマッピングすることができる。また、一例では、一遺伝子を、特定のゲノム領域についての一グローバル一意マッピング識別子にマッピングすることもできる。マッピングは、様々なタイプの情報(すなわち異なるプラットフォーム、データタイプ、および有機体からの異なる特徴)を互いに関連付けることを可能にする。マッピングには多くの方法があり、そのうちのいくつかが、以下において詳細に述べられる。1つは、遺伝子のグローバル一意の名称の異名を探すことをともなう。もう1つは、遺伝子配列の空間的な重複をともなう。例えば、特徴セット内の特徴のゲノム座標または染色体座標は、知識ベースのインデックスセット内のマッピング特徴の座標と重複することがある。もう1つのタイプのマッピングは、特徴セット内の遺伝子を、インデックスセット内の遺伝子に間接的にマッピングすることをともなう。例えば、とある実験での遺伝子は、知識ベース内の調節配列と座標が重複することがある。その調節配列は、特定の遺伝子を調節するものである。したがって、実験の配列は、間接的マッピングによって、知識ベース内のその遺伝子に間接的にマッピングされる。さらに別の形態の間接的マッピングは、インデックスセット内の遺伝子と、特徴セット内の検討中の実験遺伝子との近接性を決定することをともなう。例えば、実験特徴の座標は、知識ベースの遺伝子の100塩基対の範囲内である場合にその遺伝子にマッピングすることができる。
一例として、知識ベースに入力された新しい特徴セットは、既に知識ベース内にあるその他のあらゆる(または少なくとも多くの)特徴セットと相関される。相関は、突き合わされた遺伝子のランクまたはその他の情報を比較することによって、新しい特徴セットと検討中の特徴セットとを特徴単位で比較する。一実施形態では、(特徴セットを相関させるために、)ランクベースの実行アルゴリズムが使用される。2つの特徴セットを相関させた結果が「スコア」である。スコアは、知識ベースに格納され、遺伝子、臨床パラメータ、薬物療法などに関する処理への応答に使用される。
本発明の態様は、知識ベース、すなわち生物学情報および/または化学情報などの様々なタイプの情報のデータベースを作成ならびにナビゲートすることに関する。以下の説明は、本発明にしたがって知識ベース用のデータを得るための好ましい一プロセスを提起する。図1は、知識ベースを作成するプロセスの概要を示しており、図2〜11Cは、プロセスの態様をより詳細に説明している。
上述のように、キュレーションは、生データから特徴セットを生成するプロセスである。図2Aは、生データおよびその結果得られた特徴セットを図で表わしている。生データは、比較サンプルおよび試験サンプルについてのデータを含む。図2Aに示された例では、データ252は、特徴A〜Fについての測定値(例えばマイクロアレイからの強度測定値)を含む。一般に、データは、複製データを含み、ここでは、複製された比較サンプルが、データ252’,252’’として示されている。1つの実験は、一般に、複数の試験サンプルを含有する。図において、試験サンプルデータは、サンプル(試験1)データ(254およびその複製254’,254’’)、試験2データ、……試験N(256およびその複製256’,256’’)として示されており、各自、特定された特徴および関連の統計値をともなう。最も単純なケースでは、試験サンプルが1つ、比較サンプルが1つのみである(それぞれ一般に1つまたは複数の複製を有する)。試験サンプルは、複数あるほうが一般的である。一例では、各試験サンプルは、異なる濃度のとある治療化合物候補を表す。別の一例では、各試験サンプルは、臨床的適応の異なる患者から採取された組織サンプル(例えば、非喫煙者、各種レベルの喫煙者、ディーゼル車の運転手、治療投与前および治療投与後の患者などから採取された肺組織サンプル)を表す。
上述のように、キュレーションプロセスの統計的解析部分の最中に、生データは、特徴を問題の特徴セットに含められるような統計的に有意な差異が比較と試験との間にあるかどうかを決定するために、特徴単位で検査される。また、特定の実施形態では、組織固有の特徴セットを生成することができる。組織固有の特徴セットとは、複数の組織を対象とした実験から生成された特徴セットであって、特定の1つまたは複数の組織について特異性を示すような特徴を含有した特徴セットである。例えば、12の組織を対象として遺伝子発現を測定する実験の場合、生成された1つの特徴セットは、肝臓に固有の発現上昇遺伝子であることが可能である。このプロセスは、一般に、発現中央値が統計的に妥当であるような数の組織を用いた研究において使用される。特定の実施形態では、組織固有の特徴セットは、少なくとも12の組織を対象とした研究において生成される。より高度に関連しあった組織を対象とした実験の場合は、より少ない組織数(例えば4つ)であることが可能である。
上述のように、データは、特徴セットおよび特徴グループの形に配される。特徴グループは、対象となる任意の特徴セットを、通常は関連の統計値をともなわずに含有している。特徴グループの例として、研究者が関心を持っている任意の特徴のセット、生物学的経路を定める特徴のセット、またはたんぱく質ファミリーを定める特徴のセットが挙げられる。特徴グループのキュレーションは、任意の適切な方法によって実施することができる。特定の経路にかかわる特徴、または共通の機能もしくは構造的特徴を共有する特徴を、公共もしくは民間のデータベースから受信する、または研究者もしくはユーザによって生成することが可能である。キュレーション後の特徴グループは、一般に、名称、その他の記述的情報、および構成要素である特徴を列挙したリストを含有している。
ひとたびデータがキュレーションを施され、特徴および関連の統計値のリストを含有する(図4に示されるような)特徴セットまたは特徴のリストを含有する特徴グループの形に編成されると、インポートの準備が整う。インポートプロセスは、データをシステムにインポートすることと、特徴セットまたは特徴グループに関連した重要な概念を記述する標準的用語をデータにタグ付けすることと、インポートされたデータとシステム内のその他の全てのデータとの間につながりを確立することとをともなう。図5は、データインポートプロセスの概要を示したプロセスフローシートである。
1) 特徴を中心としたマッピング
2) 配列を中心としたマッピング
3) 間接的関連付け
である。インポートされるデータのタイプに応じて、これらの1つまたは複数を使用することができる。
特徴を中心としたマッピングは、各種の特徴とそれらの識別子との間に確立された関係に依存したものであり、一般に、特徴および識別子に標準的な学名がある場合に用いられる。例えば、いくつかの異なるアクセッション番号を、全て、単一遺伝子にマッピングすることができる。とある遺伝子のたんぱく質産物は、関係が既に確立されているゆえに、その遺伝子にマッピングされる。同じ物質を表す2つの異なる化合物IDは、共通の薬基準にマッピングされる。遺伝子A用の異なるアクセッション番号、遺伝子A用の異なる名称、遺伝子Aのたんぱく質産物などは、全て、その遺伝子に固有な基準にマッピングされる。
配列を中心としたマッピングは、各種の特徴間において、それらのゲノム座標に基づく関連付けを行う。配列を中心としたマッピングは、各種の識別子および/または特徴の間に確立された関係が未知である、あるいは存在しないような状況において有用である。図6は、各種の特徴関係を示した概略図である。先ず、(a)では、特徴1のゲノム座標と特徴2のゲノム座標とが重複している。各特徴は、遺伝子、ゲノム領域、遺伝子のたんぱく質産物などであることが可能である。配列を中心としたマッピングは、これらの特徴を、座標の重複に基づいて互いにマッピングする。(b)では、特徴1の座標は、特徴2の座標を含んでいる。例えば、特徴は、ハロタイプブロック(特徴2)とSNP(特徴1)、あるいはゲノム領域(特徴2)と遺伝子(特徴1)であることが可能である。配列を中心としたマッピングは、これらの特徴を、座標の包含に基づいて互いにマッピングする。配列を中心としたマッピングは、また、接近してはいるが重複はしていないような特徴を、既定の近接値に基づいてマッピングすることも含むことができる。
間接的関連付けは、異なる特徴どうしの関係または(遺伝子、SNP、もしくはその他の配列因子の場合は)ゲノム内におけるそれらの物理的近接性に関する従来の何らかの研究知識を使用して、特徴間において、間接的関係に基づくつながりの確立を行う。関連付けの関係は、一定である必要はなく、新たに発生する知識に応じて可変である。関連付けマッピングは、一特徴が1対1のマッピングを有すること、すなわち単一の基準特徴またはIDを指し示すことを必要とせず、特徴は、いくつかの特徴に同時に関連付けることが可能である。例えば、もし、インポートされた配列領域が所定のハロタイプブロック内に含まれるならば、関連付けマッピングは、その配列領域と、所定のハロタイプブロック内の全ての遺伝子との間でなすことができる。別の一例は、とある遺伝子の既知の結合部位内に位置する一領域である。対象の特徴は、その遺伝子に直接的にはマッピングされないが、上記領域は、その遺伝子を調節する結合部位を通じてその遺伝子に関連している可能性があるゆえに、その遺伝子にマッピングすることができる。間接的マッピングの別の一例が、図6に示されている。(c)では、SNP Xが、遺伝子Aの調節モチーフ内に含有されている。SNP Xを遺伝子Aにマッピングするために、間接的関連付けマッピングが使用される。同様に、とある遺伝子の活性に影響する配列領域と重複する、同配列領域内にある、または同配列領域に近接している特徴もまた、関連付けマッピングによってその遺伝子にマッピングすることができる。
前処理は、相関スコアリングとも称され、データがインポートされた後に実施される。システムにインポートされた新しいデータは、全て、前処理を施される。すなわち、情報空間全体にわたって相関を前計算される。前項において定義されたマッピング方法は、様々な分析タイプ、有機体、およびプラットフォームに跨ってデータをつなぐことを可能にする。ひとたびマッピングが決定されると、所定のデータセットと、知識ベース内のその他の任意の生物学的、化学的、または臨床的実体との間の相関スコア(例えばp値および/またはそこから導びかれたランクスコア)を前計算するために、自動的になおかつ体系的に相関アルゴリズムが適用される。
相関スコアリングは、任意の適切な方法によって実施することができる。本発明の特定の実施形態では、特徴のランキングを考慮に入れたランクベースの強化アルゴリズムが使用される。やはり上述のように、2つの変数の関連性の有意性を測定するために、フィッシャーの直接確率検定を使用することができる。(引用によって本明細書に全体を組み込まれた、Fisher, R.A. (1922) "On the interpretation of χ2 from contingency tables, and the calculation of P(分割表からのχ2の解釈およびPの計算について)", Journal of the Royal Statistical Society 85(1):87-94を参照せよ。)本発明の実施形態では、フィッシャーの直接確率検定は、所定の特徴セットB内の特徴と所定の特徴グループC内の特徴との重複の有意性を測定するために使用される。
B∩Cは、特徴セットBと特徴グループCとの共通集合であり、図中、縞模様のサブセットとして示されている。これは、C内の特徴にマッピングされているB内の特徴を表している。
P∩C−B∩Cは、P内の特徴のうちCにマッピングされているがB内にはない特徴を表しており、図に示されている。
B−B∩Cは、C内の特徴にマッピングされていないB内の特徴を表しており、図に示されている。
P−B−P∩C+P∩Cは、P内の特徴のうちB内にもなくC内の特徴にもマッピングされていない特徴を表している。このサブセットもまた、図に示されている。
計算効率を向上させるために、各種の最適化を実施することができる。1つの最適化は、上述されており、「ストップ」ポイントのサブ特徴セットにのみフィッシャーの直接確率検定を実施することである。なぜならば、その他のサブ特徴セットを使用して計算されたp値が、より小さいp値を返すことはないからである。もう1つの最適化は、B∩C内の次の特徴が隣接しているかどうかをチェックすることによって実施可能である。これは、図9Aの決定920に示されている。隣接した特徴とは、ランク順が隣りどうしの特徴である。もし次の重複特徴が隣接しているならば、特徴Xにおける計算は省略されてよく、プロセスは、動作904に戻り、この場合は単に次の特徴である特徴Xが決定される。例えば、図9Bに示されるように、プロセスが、ランク17の特徴におけるチェックポイント「ストップ3」にあるときは、B∩C内の次の特徴(ランク18の特徴)は、隣接している。すると、「ストップ3」における計算は省略され、「ストップ4」においてフィッシャーの直接確率検定が実施される。なぜならば、(次のストップが隣接している)これらの条件下では、高いランクの特徴ほど返されるp値が小さいからである。
図9Aおよび図9Bに関連して上述されたアルゴリズムは、特徴セットAと特徴グループBとの間の相関を示すp値を計算する際に、重複した特徴の特徴セットランキングを考慮に入れている。同様に、2つの特徴セットF1とF2との間の相関を示すp値を計算するにも、フィッシャーの直接確率検定を反復的に用いる「実行」アルゴリズムが使用される。しかしながら、特徴セット対特徴セットのケースは、特徴セットF1におけるランキングと特徴セットF2におけるランキングという2つのランキングセットを考慮に入れるので、さらに大幅に複雑である。
F1∩F2は、特徴セットF1と特徴セットF2との共通集合であり、図に示されている。これは、F2内の特徴にマッピングされているF1内の特徴を表している。
F1∩P2−F1∩F2は、P1とP2との共通集合内の特徴のうち、F1内にはあるがF2内にはない特徴を表している。
F2∩P1−F1∩F2は、P1とP2との共通集合内の特徴のうち、F2内にはあるがF1内にはない特徴を表している。
P1∩P2−F1∩P2−F2∩P1+F1∩F2は、P1とP2との共通集合内の特徴のうち、F1内にもF2内にもない特徴を表している。
ランク1,5,11、18,19,34におけるF1ストップを通して反復する。
imax=6
i=1 ストップ1
F1(1)のランク=1
アライン(F1(1))=F2(3);j=3
F2(3)のランク=13
ソートベクトル[13]
p1,3=0.0274(グローバルとして設定)
ベクトル中に、13より大きいその他の値があるか? いいえ
i=2 ストップ2
F1(2)のランク=5
アライン(F1(2))=F2(1);j=1
F2(1)のランク=2
ソートベクトル[2,13]
p2,1=0.00269(グローバルとして設定)
ベクトル中に、2より大きいその他の値があるか? はい
j=3(ランク13に対応する)
p2,3=0.00157(グローバルとして設定)
i=3 ストップ3
F1(3)のランク=11
アライン(F1(3))=F2(4);j=4
F2(4)のランク=27
ソートベクトル[2,13,27]
p3,4=0.00129(グローバルとして設定)
ベクトル中に、27より大きいその他の値があるか? いいえ
プロセスは、F1のストップ4〜6について続行される。
計算効率を向上させるために、各種の最適化を実施可能である。1つの最適化は、図11Aの動作1130に示され、この場合、もし次のストップが隣接していてなおかつより高いランクにリンクしているならば、ストップiは、省略することができる。図のフローチャートでは、サブF1(i)セットを定める前に、F1(i+1)のランクが(F1(i))のランク+1と比較される。もし両者が等しいならば、F1(i)とF1(i+1)とは隣接している。もしこれらが隣接していてなおかつアライン(F1(i+1))のランク<アライン(F1(i))のランクであるならば、そのストップは、省略することができる。
F1(i+1)のランク=F1(4+1)のランク=F1(5)のランク=19
F1(4)のランク+1=18+1=19
アライン(F1(i+1))=アライン(F1(5))=F2(2)
F2(2)のランク=7
アライン(F1(i))=アライン(F1(4))=F2(6)
F2(6)のランク=40
図12は、本発明の各種の実施形態にしたがった、知識ベース内の各種要素を表している。これらの要素(例えば特徴セットやスコア表)の生成およびこれらの要素への追加は、図1〜11Cを参照にして上で説明されている。上記の説明は、後述される知識ベースの各種の要素(例えばインデックスセットやタグ定義)を、システム内に既に存在するものと仮定している場合もある。
知識ベースを作成および定義するための方法、計算システム、ならびにユーザインターフェースに関する上記の説明は、本発明において用いることができる処理の手順を説明するための枠組みを提供する。本明細書において説明される処理の手順は、しかしながら、上で提起された知識ベースの具体的なアーキテクチャまたは内容に限定されない。
明らかなように、本発明の特定の実施形態は、1つもしくは複数のコンピュータシステムに格納されたまたは1つもしくは複数のコンピュータシステムを通して転送された命令および/あるいはデータの制御下において作用するプロセスを用いる。特定の実施形態は、また、これらの動作を実施するための装置にも関する。この装置は、所要の目的のために特別に設計および/または構築されたものであってもよいし、あるいはコンピュータに格納されたまたはコンピュータにおいて使用可能にされた1つもしくは複数のコンピュータプログラムおよび/またはデータ構造によって選択的に構成された汎用コンピュータであってもよい。本明細書において提起されたプロセスは、いかなる特定のコンピュータにもその他の装置にも本質的に無関連である。具体的に言うと、本明細書の教示内容にしたがって記述されたプログラムとともに各種の汎用マシンが使用されてもよいし、あるいは所要の方法ステップを実施するためにより特化された装置を構築するほうが好都合であってもよい。これらの様々なマシンの具体的構造が、以下に示され説明される。
Claims (5)
- 科学実験情報を含むデータを格納および処理するための知識ベースであって、
少なくとも1つの特徴と関連の統計情報とを各自含む複数の特徴セットと、
固有の特徴を各自表すマッピング識別子を含むインデックスセットと、
前記複数の特徴セット内の特徴に関連付け可能なタグのリストを含む分類表と、
各特徴セットとその他の全ての特徴セットとの間の相関に関する情報を含むスコア表と
を備える知識ベース。 - 科学情報の知識ベースにデータを提供する方法であって、
(a)1つもしくは複数の特徴についての情報を、治療または刺激に対する前記特徴の反応の表示とともに含む生データを、1つまたは複数のサンプルから受信することと、
(b)より関連性の低い少なくとも一部の特徴に関する情報を排除することによって、前記生データから入力特徴セットを作成することと、
(c)前記入力特徴セットを、前記知識ベース内の複数の既存の特徴セットと相関させることと、
(d)前記入力特徴セットを、前記知識ベース内の1つまたは複数の特徴グループと相関させることであって、前記特徴グループは、共通の構造的および/または機能的特性を有する特徴の集合を提供する、ことと、
(e)(c)および(d)において生成された相関情報を、特徴グループまたは特徴セットをともなう処理に対する応答に使用するために格納することと
を備える方法。 - 請求項2に記載の方法であって、
前記特徴は、有機体の遺伝子を含む方法。 - 請求項2に記載の方法であって、
前記特徴は、化学化合物を含み、反応の表示は、化学化合物が生物系に及ぼす影響である方法。 - 請求項2に記載の方法であって、
(c)における相関は、特徴セットに対してフィッシャーの直接確率検定を複数回実施することを含む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US75082905P | 2005-12-16 | 2005-12-16 | |
PCT/US2006/048067 WO2007075488A2 (en) | 2005-12-16 | 2006-12-15 | System and method for scientific information knowledge management |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009520278A true JP2009520278A (ja) | 2009-05-21 |
Family
ID=38218485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008545870A Pending JP2009520278A (ja) | 2005-12-16 | 2006-12-15 | 科学情報知識管理のためのシステムおよび方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8275737B2 (ja) |
EP (1) | EP1964037A4 (ja) |
JP (1) | JP2009520278A (ja) |
WO (1) | WO2007075488A2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9141913B2 (en) | 2005-12-16 | 2015-09-22 | Nextbio | Categorization and filtering of scientific data |
US9183349B2 (en) | 2005-12-16 | 2015-11-10 | Nextbio | Sequence-centric scientific information management |
US10275711B2 (en) | 2005-12-16 | 2019-04-30 | Nextbio | System and method for scientific information knowledge management |
US11769339B2 (en) | 2021-03-26 | 2023-09-26 | Fujitsu Limited | Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8364665B2 (en) * | 2005-12-16 | 2013-01-29 | Nextbio | Directional expression-based scientific information knowledge management |
US8412707B1 (en) | 2008-06-13 | 2013-04-02 | Ustringer LLC | Method and apparatus for distributing content |
US8255167B2 (en) * | 2008-08-14 | 2012-08-28 | Regeneron Pharmaceuticals, Inc. | Non-hypergeometric overlap probability |
US9367609B1 (en) | 2010-03-05 | 2016-06-14 | Ustringer LLC | Method and apparatus for submitting, organizing, and searching for content |
CN102985925B (zh) * | 2010-05-03 | 2017-05-24 | 生物辐射实验室股份有限公司 | 用于提供自动更新的产品插页的系统和方法 |
KR101143466B1 (ko) * | 2011-09-26 | 2012-05-10 | 한국과학기술정보연구원 | 연구 연관도 서비스 제공 방법 및 시스템 |
KR101137973B1 (ko) * | 2011-11-02 | 2012-04-20 | 한국과학기술정보연구원 | 연관기술 서비스 제공 방법 및 시스템 |
US9092566B2 (en) * | 2012-04-20 | 2015-07-28 | International Drug Development Institute | Methods for central monitoring of research trials |
US9600625B2 (en) | 2012-04-23 | 2017-03-21 | Bina Technologies, Inc. | Systems and methods for processing nucleic acid sequence data |
JP6316844B2 (ja) * | 2012-12-22 | 2018-04-25 | エムモーダル アイピー エルエルシー | 予測モデル生成のためのユーザーインタフェース |
US9275425B2 (en) * | 2013-12-19 | 2016-03-01 | International Business Machines Corporation | Balancing provenance and accuracy tradeoffs in data modeling |
WO2015123444A2 (en) | 2014-02-13 | 2015-08-20 | Illumina, Inc. | Integrated consumer genomic services |
US9957781B2 (en) | 2014-03-31 | 2018-05-01 | Hitachi, Ltd. | Oil and gas rig data aggregation and modeling system |
US10394828B1 (en) | 2014-04-25 | 2019-08-27 | Emory University | Methods, systems and computer readable storage media for generating quantifiable genomic information and results |
US10949473B2 (en) * | 2014-05-21 | 2021-03-16 | Knowledge Syntheses | Systems and method for searching and analyzing big data |
JP6920220B2 (ja) | 2015-06-30 | 2021-08-18 | エメラルド クラウド ラボ、インコーポレイテッド | 実験室の実験の管理、実行および分析のためのシステム、方法及びコンピュータプログラム |
US10296913B1 (en) * | 2016-03-23 | 2019-05-21 | Emc Corporation | Integration of heterogenous data using omni-channel ontologies |
US11001880B2 (en) | 2016-09-30 | 2021-05-11 | The Mitre Corporation | Development of SNP islands and application of SNP islands in genomic analysis |
US10810213B2 (en) | 2016-10-03 | 2020-10-20 | Illumina, Inc. | Phenotype/disease specific gene ranking using curated, gene library and network based data structures |
US10817757B2 (en) * | 2017-07-31 | 2020-10-27 | Splunk Inc. | Automated data preprocessing for machine learning |
US11354591B2 (en) | 2018-10-11 | 2022-06-07 | International Business Machines Corporation | Identifying gene signatures and corresponding biological pathways based on an automatically curated genomic database |
US11640277B2 (en) * | 2019-06-26 | 2023-05-02 | Shanghai Research Institute of Acupuncture and Meridian | Method/system for managing experimental data, computer readable storage medium, and device |
US10997194B1 (en) | 2019-11-15 | 2021-05-04 | Bank Of America Corporation | Data mapper tool |
CN112199578B (zh) * | 2020-08-28 | 2022-04-22 | 贝壳找房(北京)科技有限公司 | 信息处理方法和装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002528095A (ja) * | 1998-10-27 | 2002-09-03 | ロゼッタ・インファーマティクス・インコーポレーテッド | 同時調節された遺伝子セットを使用して遺伝子発現パターンの検出および分類を向上させる方法 |
JP2004152035A (ja) * | 2002-10-31 | 2004-05-27 | World Fusion Co Ltd | 研究遺伝子産物データ分類システム |
JP2004535612A (ja) * | 2001-03-05 | 2004-11-25 | ジーン ロジック インコーポレイテッド | 遺伝子発現データの管理システムおよび方法 |
JP2005518793A (ja) * | 2002-02-28 | 2005-06-30 | アイコニックス ファーマシューティカルズ インコーポレイテッド | 薬剤サイン |
JP2005309836A (ja) * | 2004-04-22 | 2005-11-04 | Link Genomics Kk | がん診断支援システム |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5153178A (en) * | 1982-05-14 | 1992-10-06 | Maroko Peter R | Compositions and method of treatment for improving circulatory performance |
EP0574213B1 (en) | 1992-06-08 | 1999-03-24 | Synaptics, Inc. | Object position detector |
US6286002B1 (en) * | 1996-01-17 | 2001-09-04 | @Yourcommand | System and method for storing and searching buy and sell information of a marketplace |
US6275868B1 (en) | 1997-03-12 | 2001-08-14 | Microsoft Corporation | Script Engine interface for multiple languages |
US5943668A (en) | 1997-06-30 | 1999-08-24 | International Business Machines Corporation | Relational emulation of a multi-dimensional database |
US20010016314A1 (en) * | 1998-10-29 | 2001-08-23 | Stephen Anderson | Linking gene sequence to gene function by three dimesional (3d) protein structure determination |
US6151601A (en) * | 1997-11-12 | 2000-11-21 | Ncr Corporation | Computer architecture and method for collecting, analyzing and/or transforming internet and/or electronic commerce data for storage into a data storage area |
US6580910B1 (en) | 1997-12-19 | 2003-06-17 | Telefonaktiebolaget L M Ericsson (Publ) | Method and system for improving handoffs in cellular mobile radio systems |
US6408308B1 (en) * | 1998-01-29 | 2002-06-18 | Incyte Pharmaceuticals, Inc. | System and method for generating, analyzing and storing normalized expression datasets from raw expression datasets derived from microarray includes nucleic acid probe sequences |
US6836877B1 (en) | 1998-02-20 | 2004-12-28 | Lsi Logic Corporation | Automatic synthesis script generation for synopsys design compiler |
US7444308B2 (en) * | 2001-06-15 | 2008-10-28 | Health Discovery Corporation | Data mining platform for bioinformatics and other knowledge discovery |
WO2002095534A2 (en) * | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Methods for feature selection in a learning machine |
US6185561B1 (en) | 1998-09-17 | 2001-02-06 | Affymetrix, Inc. | Method and apparatus for providing and expression data mining database |
US6950752B1 (en) | 1998-10-27 | 2005-09-27 | Rosetta Inpharmatics Llc | Methods for removing artifact from biological profiles |
US6465183B2 (en) | 1999-07-01 | 2002-10-15 | Agilent Technologies, Inc. | Multidentate arrays |
AU2001229744A1 (en) * | 2000-01-25 | 2001-08-07 | Cellomics, Inc. | Method and system for automated inference of physico-chemical interaction knowl edge |
US7072665B1 (en) | 2000-02-29 | 2006-07-04 | Blumberg Brad W | Position-based information access device and method of searching |
US20020177138A1 (en) | 2000-11-15 | 2002-11-28 | The United States Of America , Represented By The Secretary, Department Of Health And Human Services | Methods for the indentification of textual and physical structured query fragments for the analysis of textual and biopolymer information |
US6925455B2 (en) | 2000-12-12 | 2005-08-02 | Nec Corporation | Creating audio-centric, image-centric, and integrated audio-visual summaries |
US20020150966A1 (en) * | 2001-02-09 | 2002-10-17 | Muraca Patrick J. | Specimen-linked database |
US7718354B2 (en) | 2001-03-02 | 2010-05-18 | Ibis Biosciences, Inc. | Methods for rapid identification of pathogens in humans and animals |
US20020164070A1 (en) * | 2001-03-14 | 2002-11-07 | Kuhner Mark B. | Automatic algorithm generation |
US20020197632A1 (en) | 2001-05-03 | 2002-12-26 | Genomed, Llc | Method to find disease-associated SNPs and genes |
US7155453B2 (en) | 2002-05-22 | 2006-12-26 | Agilent Technologies, Inc. | Biotechnology information naming system |
WO2002103030A2 (en) * | 2001-06-14 | 2002-12-27 | Rigel Pharmaceuticals, Inc. | Multidimensional biodata integration and relationship inference |
US7072794B2 (en) * | 2001-08-28 | 2006-07-04 | Rockefeller University | Statistical methods for multivariate ordinal data which are used for data base driven decision support |
US7103519B2 (en) | 2001-09-20 | 2006-09-05 | Daimlerchrysler Corporation | Virtual manufacturing system |
EP1448796A4 (en) * | 2001-11-05 | 2008-04-02 | California Inst Of Techn | NON-METRIC TOOL FOR PREDICTING GENETIC RELATIONS FROM EXPRESSION DATA |
US7225183B2 (en) | 2002-01-28 | 2007-05-29 | Ipxl, Inc. | Ontology-based information management system and method |
EP1483720A1 (en) * | 2002-02-01 | 2004-12-08 | Rosetta Inpharmactis LLC. | Computer systems and methods for identifying genes and determining pathways associated with traits |
US20040071700A1 (en) | 2002-10-09 | 2004-04-15 | Life Sciences Development Corp. | Obesity linked genes |
US6943278B2 (en) | 2002-10-15 | 2005-09-13 | Genexel, Inc. | Transgenic Drosophila having a disrupted Parkin gene and exhibits reduced climbing ability |
JP2006516193A (ja) | 2002-12-06 | 2006-06-29 | アイシス・ファーマシューティカルス・インコーポレーテッド | ヒトおよび動物における病原体の迅速な同定方法 |
US7490085B2 (en) * | 2002-12-18 | 2009-02-10 | Ge Medical Systems Global Technology Company, Llc | Computer-assisted data processing system and method incorporating automated learning |
US20040122708A1 (en) * | 2002-12-18 | 2004-06-24 | Avinash Gopal B. | Medical data analysis method and apparatus incorporating in vitro test data |
WO2005001751A1 (en) * | 2003-06-02 | 2005-01-06 | Regents Of The University Of California | System for biometric signal processing with hardware and software accelaration |
US20040249791A1 (en) * | 2003-06-03 | 2004-12-09 | Waters Michael D. | Method and system for developing and querying a sequence driven contextual knowledge base |
US20050081188A1 (en) | 2003-10-14 | 2005-04-14 | Kumar Anand R. | Method and apparatus for providing integrated customer care and work-flow management |
US7643990B1 (en) | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US20050196817A1 (en) * | 2004-01-20 | 2005-09-08 | Molecular Staging Inc. | Biomarkers for sepsis |
GB2426610A (en) | 2004-02-25 | 2006-11-29 | Applied Aged Care Solutions Pt | Essential data communication system |
AU2005240669A1 (en) | 2004-05-07 | 2005-11-17 | Garvan Institute Of Medical Research | Detecting disease association with aberrant glycogen synthase kinase 3-beta expression |
JP2006039867A (ja) * | 2004-07-26 | 2006-02-09 | Hitachi Software Eng Co Ltd | cDNA配列のマッピング方法 |
US7798401B2 (en) | 2005-01-18 | 2010-09-21 | Invention Science Fund 1, Llc | Obtaining user assistance |
US20060173828A1 (en) * | 2005-02-01 | 2006-08-03 | Outland Research, Llc | Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query |
US20060253262A1 (en) | 2005-04-27 | 2006-11-09 | Emiliem | Novel Methods and Devices for Evaluating Poisons |
JP4756906B2 (ja) | 2005-05-11 | 2011-08-24 | シスメックス株式会社 | 生体シミュレーションシステム及びコンピュータプログラム |
WO2006124922A2 (en) | 2005-05-17 | 2006-11-23 | Super Computer International | Collaborative online gaming system and method |
US20070118399A1 (en) | 2005-11-22 | 2007-05-24 | Avinash Gopal B | System and method for integrated learning and understanding of healthcare informatics |
WO2007075488A2 (en) | 2005-12-16 | 2007-07-05 | Nextbio | System and method for scientific information knowledge management |
US8364665B2 (en) | 2005-12-16 | 2013-01-29 | Nextbio | Directional expression-based scientific information knowledge management |
US9183349B2 (en) | 2005-12-16 | 2015-11-10 | Nextbio | Sequence-centric scientific information management |
US20080075789A1 (en) | 2006-02-28 | 2008-03-27 | The Regents Of The University Of California | Genes differentially expressed in bipolar disorder and/or schizophrenia |
US20080144124A1 (en) | 2006-10-13 | 2008-06-19 | Ramin Samadani | Auxiliary information for reconstructing digital images processed through print-scan channels |
US7761392B2 (en) | 2006-10-31 | 2010-07-20 | Motorola, Inc. | Configurable infinite logic signal processing network and genetic computing method of designing the same |
US8090608B2 (en) | 2006-12-18 | 2012-01-03 | Microsoft Corporation | Identifying technological solutions for user-centric product designs |
US8943128B2 (en) | 2006-12-21 | 2015-01-27 | Bce Inc. | Systems and methods for conveying information to an instant messaging client |
US8078217B2 (en) | 2007-03-30 | 2011-12-13 | Motorola Solutions, Inc. | Modular multi-sided radio architecture |
US8811692B2 (en) | 2007-04-17 | 2014-08-19 | Francine J. Prokoski | System and method for using three dimensional infrared imaging for libraries of standardized medical imagery |
WO2009039425A1 (en) | 2007-09-21 | 2009-03-26 | Nextbio | Directional expression-based scientific information knowledge management |
EP2570495B1 (en) | 2008-01-02 | 2015-09-09 | SureGene LLC | Genetic markers of mental illness |
JP5191240B2 (ja) | 2008-01-09 | 2013-05-08 | オリンパス株式会社 | シーン変化検出装置およびシーン変化検出プログラム |
EP2245568A4 (en) | 2008-02-20 | 2012-12-05 | Univ Mcmaster | EXPERT SYSTEM FOR DETERMINING A PATIENT'S RESPONSE TO A TREATMENT |
WO2009111581A1 (en) | 2008-03-04 | 2009-09-11 | Nextbio | Categorization and filtering of scientific data |
KR100944903B1 (ko) | 2008-03-18 | 2010-03-03 | 한국전자통신연구원 | 비디오 신호의 특징 추출 장치 및 그 추출 방법, 비디오인식 시스템 및 그 인식 방법 |
US8731956B2 (en) | 2008-03-21 | 2014-05-20 | Signature Genomic Laboratories | Web-based genetics analysis |
US20110179066A1 (en) | 2008-06-20 | 2011-07-21 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
US20100305806A1 (en) | 2009-06-02 | 2010-12-02 | Chadwick Todd Hawley | Portable Multi-Modal Emergency Situation Anomaly Detection and Response System |
US8311957B2 (en) | 2009-11-13 | 2012-11-13 | Hewlett-Packard Development Company, L.P. | Method and system for developing a classification tool |
US20130166320A1 (en) | 2011-09-15 | 2013-06-27 | Nextbio | Patient-centric information management |
WO2013055704A1 (en) | 2011-10-10 | 2013-04-18 | Ayasdi, Inc. | Systems and methods for mapping new patient information to historic outcomes for treatment assistance |
-
2006
- 2006-12-15 WO PCT/US2006/048067 patent/WO2007075488A2/en active Application Filing
- 2006-12-15 EP EP06847688A patent/EP1964037A4/en not_active Withdrawn
- 2006-12-15 JP JP2008545870A patent/JP2009520278A/ja active Pending
- 2006-12-18 US US11/641,539 patent/US8275737B2/en active Active
-
2012
- 2012-08-17 US US13/588,526 patent/US10275711B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002528095A (ja) * | 1998-10-27 | 2002-09-03 | ロゼッタ・インファーマティクス・インコーポレーテッド | 同時調節された遺伝子セットを使用して遺伝子発現パターンの検出および分類を向上させる方法 |
JP2004535612A (ja) * | 2001-03-05 | 2004-11-25 | ジーン ロジック インコーポレイテッド | 遺伝子発現データの管理システムおよび方法 |
JP2005518793A (ja) * | 2002-02-28 | 2005-06-30 | アイコニックス ファーマシューティカルズ インコーポレイテッド | 薬剤サイン |
JP2004152035A (ja) * | 2002-10-31 | 2004-05-27 | World Fusion Co Ltd | 研究遺伝子産物データ分類システム |
JP2005309836A (ja) * | 2004-04-22 | 2005-11-04 | Link Genomics Kk | がん診断支援システム |
Non-Patent Citations (3)
Title |
---|
JPN6012025164; Barrett, T.: 'NCBI GEO: mining millions of expression profiles?database and tools' Nucleic Acids Research Vol.33, 20050101, p.D562-D566 * |
JPN6012025166; Shah, S. P.: 'Atlas - a data warehouse for integrative bioinformatics' BMC Bioinformatics Vol.6, 20050221, p.34 * |
JPN6012025169; Kupershmidt, I.: 'Ontology-Based Meta-Analysis of Global Collections of High-Throughput Public Data' PLoS One Vol.5, No.9, 2010, p.e13066 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9141913B2 (en) | 2005-12-16 | 2015-09-22 | Nextbio | Categorization and filtering of scientific data |
US9183349B2 (en) | 2005-12-16 | 2015-11-10 | Nextbio | Sequence-centric scientific information management |
US9633166B2 (en) | 2005-12-16 | 2017-04-25 | Nextbio | Sequence-centric scientific information management |
US10127353B2 (en) | 2005-12-16 | 2018-11-13 | Nextbio | Method and systems for querying sequence-centric scientific information |
US10275711B2 (en) | 2005-12-16 | 2019-04-30 | Nextbio | System and method for scientific information knowledge management |
US11769339B2 (en) | 2021-03-26 | 2023-09-26 | Fujitsu Limited | Computer-readable recording medium storing training data generation program, training data generation method, and training data generation apparatus |
Also Published As
Publication number | Publication date |
---|---|
WO2007075488A3 (en) | 2008-06-26 |
WO2007075488B1 (en) | 2008-08-07 |
US10275711B2 (en) | 2019-04-30 |
US8275737B2 (en) | 2012-09-25 |
US20130166599A1 (en) | 2013-06-27 |
EP1964037A4 (en) | 2012-04-25 |
WO2007075488A2 (en) | 2007-07-05 |
EP1964037A2 (en) | 2008-09-03 |
US20070162411A1 (en) | 2007-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009520278A (ja) | 科学情報知識管理のためのシステムおよび方法 | |
AU2022268283B2 (en) | Phenotype/disease specific gene ranking using curated, gene library and network based data structures | |
US9141913B2 (en) | Categorization and filtering of scientific data | |
US8364665B2 (en) | Directional expression-based scientific information knowledge management | |
US10127353B2 (en) | Method and systems for querying sequence-centric scientific information | |
US7428554B1 (en) | System and method for determining matching patterns within gene expression data | |
JP4594622B2 (ja) | 薬発見法 | |
JP5464503B2 (ja) | 医療分析システム | |
US20030171876A1 (en) | System and method for managing gene expression data | |
JP2006501531A5 (ja) | ||
US20040234995A1 (en) | System and method for storage and analysis of gene expression data | |
EP1366359A1 (en) | A system and method for managing gene expression data | |
WO2009039425A1 (en) | Directional expression-based scientific information knowledge management | |
Grewal et al. | Analysis of expression data: an overview | |
Saviozzi et al. | Microarray data analysis and mining | |
JP2001178463A (ja) | 類似発現パターン抽出方法及び関連生体高分子抽出方法 | |
Akay | Genomics and proteomics engineering in medicine and biology | |
Oğul | Content‐Based Retrieval of Microarray Experiments | |
Albrecht et al. | Machine Learning in Quality Assessment of Early Stage Next-Generation Sequencing Data | |
Baumgartner | The era of big data: from data-driven research to data-driven clinical care | |
Selvanayaki et al. | Finding microarray genes using GO ontology | |
Schofield et al. | 6 Computational |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120820 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120827 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130205 |