JP5863396B2 - DNA sequence decoding system, DNA sequence decoding method and program - Google Patents
DNA sequence decoding system, DNA sequence decoding method and program Download PDFInfo
- Publication number
- JP5863396B2 JP5863396B2 JP2011242340A JP2011242340A JP5863396B2 JP 5863396 B2 JP5863396 B2 JP 5863396B2 JP 2011242340 A JP2011242340 A JP 2011242340A JP 2011242340 A JP2011242340 A JP 2011242340A JP 5863396 B2 JP5863396 B2 JP 5863396B2
- Authority
- JP
- Japan
- Prior art keywords
- dna sequence
- sequence data
- feature
- fluorescence
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Description
本発明は、超並列シーケンサーによるDNA配列の解読技術に関し、特に、読み取りが困難なDNA配列の解読技術に関する。 The present invention relates to a DNA sequence decoding technique using a massively parallel sequencer, and more particularly to a DNA sequence decoding technique that is difficult to read.
現在普及している超並列シーケンサー(以下「シーケンサー」ともいう。)は、一分子から増幅されたDNAフラグメントのクラスターを基板上に多数配置し、大量のDNA配列を同時にシーケンスする。シーケンス方法は、DNAフラグメントのそれぞれに対して、蛍光標識されたヌクレオチドプローブを一つずつ付加し、相補鎖を伸長していくことに基づいている。蛍光色素は複数種類用いられ、これにより、DNA各塩基のエンコードが行われる。 A massively parallel sequencer (hereinafter also referred to as “sequencer”) that is widely used arranges a large number of clusters of DNA fragments amplified from a single molecule on a substrate and simultaneously sequences a large amount of DNA sequences. The sequencing method is based on adding a fluorescently labeled nucleotide probe to each of the DNA fragments and extending the complementary strand. A plurality of types of fluorescent dyes are used, whereby each DNA base is encoded.
シーケンサーは、伸長反応の各サイクルにおいて、蛍光色素を励起して発光させ、蛍光各色の基板画像を取得する。その後、DNAフラグメントの個々のクラスターについて、各サイクルにおける蛍光各色の蛍光強度を測定する。配列解読システムは、それぞれのクラスターのDNA配列について、各サイクルにおける蛍光強度の測定値に基づいて、該当するポジションの塩基を判定する。 The sequencer excites the fluorescent dye to emit light in each cycle of the extension reaction, and acquires a substrate image of each fluorescent color. Thereafter, the fluorescence intensity of each color of fluorescence in each cycle is measured for each cluster of DNA fragments. The sequence decoding system determines the base of the corresponding position based on the measured fluorescence intensity in each cycle for the DNA sequence of each cluster.
ここで、DNAフラグメントの個々のクラスターは、理想的には、伸長反応の各サイクルにおいて、該当するポジションの塩基に対応した蛍光色1色でのみ強度を持ち、他の色では検出されないことが期待される。しかし、実際には、クラスター内での伸長反応の遅れ・進み、蛍光のクロストークなどの要因によるノイズが生じ、複数の色で検出される場合が生じる。これは、配列解読システムによるDNA配列の読み取り精度の悪化の原因となる。しかも、ノイズの影響は、伸長反応が進むほど大きくなる。このため、ノイズの影響が想定される場合、読み取り可能な配列長を制限する必要がある。 Here, it is expected that each cluster of DNA fragments ideally has an intensity only in one fluorescent color corresponding to the base at the corresponding position in each cycle of the extension reaction and is not detected in other colors. Is done. However, in reality, noise due to factors such as delay / advance of extension reaction in the cluster and crosstalk of fluorescence occurs, and there are cases where detection is performed in a plurality of colors. This causes deterioration in the reading accuracy of the DNA sequence by the sequence decoding system. Moreover, the influence of noise increases as the extension reaction proceeds. For this reason, when the influence of noise is assumed, it is necessary to limit the readable sequence length.
ノイズの影響を考慮した配列解読の方法として、伸長反応の遅れ・進みや蛍光クロストークなどをパラメトリックにモデル化し、各サイクルにおいて、蛍光色を推定する方法がある(非特許文献1)。しかし、それぞれのノイズ要因は、サイクルや化学反応条件などに対する複雑な依存性を持ち、完全にモデル化することは困難である。そこで、サポートベクターマシン(SVM)などの機械学習アプローチを適用し、既知のDNA配列に基づいて、シーケンサーから得られる各サイクルについて、4色の蛍光強度と正解配列との関係を直接学習し、各サイクルにおいて蛍光色を推定する方法も行われている(非特許文献2)。 As a method of sequence decoding in consideration of the influence of noise, there is a method of estimating the fluorescence color in each cycle by modeling extension reaction delay / advance, fluorescence crosstalk and the like parametrically (Non-patent Document 1). However, each noise factor has a complicated dependency on the cycle and chemical reaction conditions, and it is difficult to model completely. Therefore, a machine learning approach such as support vector machine (SVM) is applied to directly learn the relationship between the fluorescence intensity of four colors and the correct sequence for each cycle obtained from the sequencer based on a known DNA sequence. A method for estimating a fluorescent color in a cycle is also performed (Non-Patent Document 2).
一般に、DNA配列の読み取り精度は均一ではない。例えば配列によっては、読み取り精度が特に悪化する場合があることが知られている。化学反応による伸長法に基づくシーケンサーにおけるノイズの生じ方は、読み取り対象であるDNA配列の持つ特徴に大きく依存すると考えられる。例えば(1)GC含有量の高い配列、(2)2塩基繰り返し配列、(3)パリンドローム(回文)配列等を持つ高次構造を形成し易い性質は、伸長の際の化学反応に大きく影響すると考えられる。 In general, the reading accuracy of DNA sequences is not uniform. For example, it is known that the reading accuracy may deteriorate particularly depending on the arrangement. The occurrence of noise in sequencers based on the chemical extension method is considered to depend greatly on the characteristics of the DNA sequence to be read. For example, (1) a high GC content, (2) a double-base repeat sequence, (3) a palindromic (palindrome) sequence, and the like are more likely to form a higher order structure, which greatly affects the chemical reaction during elongation. It is considered to have an effect.
ところが、従来の配列解読システムでは、一般的なリファレンスゲノムをコントロールとして構築した一つのモデルを、全てのDNA配列に対して適用する。すなわち、DNA配列の特徴の違いに依存するノイズの性質が、従来の配列解読システムでは十分に考慮されていない。 However, in a conventional sequence decoding system, a single model constructed using a general reference genome as a control is applied to all DNA sequences. That is, the nature of noise that depends on the difference in the characteristics of DNA sequences is not fully taken into account in conventional sequencing systems.
本発明は、以上の状況を鑑みてなされたものであり、読み取りが困難なDNA配列(いわゆる難読DNA配列)の配列解析精度の向上を期待できる仕組みを提供する。 The present invention has been made in view of the above situation, and provides a mechanism that can be expected to improve the accuracy of sequence analysis of DNA sequences that are difficult to read (so-called difficult-to-read DNA sequences).
本発明は、難読DNA配列の配列上の特徴に基づいて配列を解読する。より具体的には、難読DNA配列をその配列の特徴に基づいて特徴グループに分類する処理と、各グループの特徴毎に既知のDNA配列データを用いて各サイクルにおける蛍光色の判定基準を学習する処理と、未知の実験DNA配列を解読する際に、その配列上の特徴グループについて学習した判定基準を適用し、配列を解読する処理とを実行する手法を提供する。 The present invention decodes sequences based on sequence characteristics of obfuscated DNA sequences. More specifically, the process of classifying obfuscated DNA sequences into feature groups based on the features of the sequences, and learning the criteria for determining the fluorescent color in each cycle using known DNA sequence data for each group feature Provided is a method for executing processing and processing for decoding a sequence by decoding a sequence of the unknown experimental DNA sequence by applying a criterion learned from the feature group on the sequence.
本発明によれば、難読DNA配列の解読精度を高めることができる。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。 According to the present invention, it is possible to improve the decoding accuracy of difficult-to-read DNA sequences. Problems, configurations, and effects other than those described above will be clarified by the following description of embodiments.
以下、本発明の実施の形態を、図面に基づいて詳細に説明する。なお、本発明は、後述する実施の形態に限定されるものでなく、本発明には様々な変形例が含まれる。例えば後述する実施の形態に追加の構成を備えてもよく、一部の構成を含まなくてもよい。また、後述する形態例の一部の構成を他の構成に置換してもよい。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, this invention is not limited to embodiment mentioned later, Various modifications are included in this invention. For example, an embodiment described later may have an additional configuration, and a part of the configuration may not be included. Moreover, you may substitute the one part structure of the example mentioned later to another structure.
また、後述する各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路その他のハードウェアとして実現しても良い。また、後述する各構成、機能、処理部、処理手段等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することにより実現しても良い。すなわち、後述する各構成、機能、処理部、処理手段等は、ソフトウェアとして実現しても良い。各構成等を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記憶装置、ICカード、SDカード、DVD等の記憶媒体に格納することができる。 In addition, each or all of the configurations, functions, processing units, processing units, and the like described below may be realized as part or all of them as, for example, an integrated circuit or other hardware. In addition, each configuration, function, processing unit, processing unit, and the like, which will be described later, may be realized by the processor interpreting and executing a program that realizes each function. That is, each configuration, function, processing unit, processing unit, and the like described later may be realized as software. Information such as programs, tables, and files for realizing each configuration and the like can be stored in a storage device such as a memory, a hard disk, or an SSD (Solid State Drive), or a storage medium such as an IC card, an SD card, or a DVD.
なお、実施の形態を説明するための全図において、同一の機能を有する部材には同一又は関連する符号を付し、その繰り返しの説明は省略する。また、以下の実施の形態では、特に必要なとき以外は同一または同様な部分の説明を原則として繰り返さない。 Note that components having the same function are denoted by the same or related reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted. In the following embodiments, the description of the same or similar parts will not be repeated in principle unless particularly necessary.
[処理全体の流れ]
図1に、実施の形態に係る配列解読システムにおいて実行される処理全体の流れを示す。この配列解読システムは、難読DNA配列の探索ステージ110、既知のDNA配列データ121を用いた学習ステージ120、未知の実験DNA配列データ131に対する推定ステージ130の3つの段階を有する。
[Flow of overall processing]
FIG. 1 shows the overall flow of processing executed in the sequence decoding system according to the embodiment. This sequence decoding system has three stages: an obfuscated DNA
未知の実験DNA配列131を解読する際には、伸長反応の各サイクルについてシーケンサーから取得される蛍光強度の全サイクル分の蛍光強度配列132に基づいてDNA配列を推定し、推定結果133として推定DNA配列134とその信頼度135を出力する。例えば、伸長反応の各サイクルについて、4つの塩基に対応する4色(a、b、c、d)の蛍光強度(Ia、Ib、Ic、Id)がシーケンサーから取得されるものとすると、全サイクル分の蛍光強度配列132(すなわち、(Ia、Ib、Ic、Id)cycle1、(Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)に基づいてDNA配列を推定する。
When decoding the unknown
[システム構成及び処理動作の詳細]
図2に、実施の形態に係る配列解読システムの構成例を示す。この配列解読システムは、入出力装置210と、難読DNA配列解析部221、学習部222、推定部223とを有する解析装置220と、記憶装置230とにより構成される。実施の形態において、解析装置220は、後述する各ステージで実行される機能を、コンピュータ上で実行されるプログラムの処理機能として実現する。
[Details of system configuration and processing operations]
FIG. 2 shows a configuration example of the sequence decoding system according to the embodiment. This sequence decoding system includes an input /
[探索ステージ]
難読DNA配列解析部221は、難読DNA配列の探索ステージ110(図1)において、現実の様々なゲノムに対してシーケンスを実行した際にエラーが多く検出されるような領域を難読DNA配列として集め、さらに、それら難読DNA配列が有する配列上の特徴を各ステージ毎に分類する処理を実行する。
[Search stage]
The obfuscated DNA
図3に、難読DNA配列の判定方法の一例を示す。まず、シーケンス後のリード配列をリファレンス配列にマッピングする。マッピングされたリード配列とリファレンス配列とを比較したとき、リード配列のある長さの範囲で、解読されていない(図3では塩基Nと表示)、又は、ある一定の割合以上、同一でない塩基が存在する領域を難読DNA配列として判定する。 FIG. 3 shows an example of a method for determining an obfuscated DNA sequence. First, the read sequence after the sequence is mapped to the reference sequence. When comparing the mapped lead sequence with the reference sequence, it is not decoded within the range of the length of the lead sequence (indicated as base N in FIG. 3), or bases that are not identical for a certain ratio or more. The existing region is determined as an obfuscated DNA sequence.
図4は、難読DNA配列と判定されたDNA配列を、それらが有する特徴別に分類(グループ化)する様子を表している。分類基準には、シーケンサーから得られる4色の蛍光強度配列(すなわち、(Ia、Ib、Ic、Id)cycle1、(Ia、Ib、Ic、Id)cycle2、…(Ia、Ib、Ic、Id)cyclen)を特徴ベクトルとてクラスタリング解析することにより得られる情報を使用する。また、分類基準には、前述した特徴ベクトルを非線形変換した特徴空間上でクラスタリング解析することにより得られる情報を使用する。本明細書においては、分類後のDNA配列の集合を特徴グループ1、2…と呼ぶ。
FIG. 4 shows how DNA sequences determined to be difficult to read are classified (grouped) according to their characteristics. Classification criteria include four-color fluorescence intensity sequences obtained from the sequencer (ie, (I a , I b , I c , I d ) cycle1 , (I a , I b , I c , I d ) cycle2 , ... ( Information obtained by clustering analysis using I a , I b , I c , I d ) cyclen ) as a feature vector is used. In addition, information obtained by performing clustering analysis on a feature space obtained by nonlinearly transforming the above-described feature vector is used as the classification criterion. In this specification, a set of DNA sequences after classification is referred to as
[学習ステージ]
学習部222は、学習ステージ120(図1)において、特徴グループに分類されたDNA配列の各サイクルにおいて出現する頻度の高い蛍光色の判定傾向を検出し、これらを各特徴グループに固有の蛍光色判定基準126(図1)として学習する。
[Learning stage]
In the learning stage 120 (FIG. 1), the
図5に、学習ステージ120において、学習部222が実行する処理手順の概要を示す。学習処理の前提として、難読DNA配列のそれぞれの特徴グループについて、既知のDNA配列データ121が用意される。既知のDNA配列データ121は、シーケンサーから取得された伸長反応の各サイクルにおける4色の蛍光強度配列124(すなわち、(Ia、Ib、Ic、Id)cycle1、 (Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)と、正解DNA配列から決定される正解蛍光色配列125から構成される。学習部222は、これらの配列データを使用し、特徴グループ毎に、以下の学習処理を行う。なお、各特徴グループに属する配列データのうち一部を訓練データ122として使用し、残りを蛍光色尤度計算用データ123として使用する。
FIG. 5 shows an outline of a processing procedure executed by the
学習部222は、蛍光色判定基準学習部501、蛍光色判定部502、蛍光色尤度計算部503で構成される。蛍光色判定基準学習部501は、特徴グループ毎に、訓練データ122を構成する4色の蛍光強度配列124と正解蛍光色配列125を参照し、各サイクルにおいて蛍光色を判定するための蛍光色判定基準126を学習して蛍光色判定基準データベース231に記憶する。この学習処理の詳細は後述する。蛍光色判定部502と蛍光色尤度計算部503は、各特徴グループの蛍光色尤度計算用データ123を用い、各サイクルについて、4色の蛍光色それぞれについての蛍光色尤度127(図1)を導出し、蛍光色尤度データベース232に記憶する。
The
図6に、学習ステージ120(図1)において、ある特徴グループに対して実行される学習処理の手順例を示す。ステップS1において、学習部222は、学習対象である特徴グループに属する訓練データ122を不図示の記憶領域から取得する。
FIG. 6 shows a procedure example of learning processing executed for a certain feature group in the learning stage 120 (FIG. 1). In step S <b> 1, the
ステップS2において、学習部222の蛍光色判定基準学習部501は、4色の蛍光強度配列124と正解蛍光色配列125を訓練データ122から読み込む。次に、蛍光色判定基準学習部501は、4色の蛍光強度の全サイクル分の配列又は一部サイクル分の配列と正解蛍光色配列との関係を学習し、各サイクルにおいて蛍光色を判定するための蛍光色判定基準126を導出する。学習には、例えばサポートベクターマシン(SVM)を使用する。例えばサイクルiにおける蛍光色を、そのサイクルiとその前後のサイクルi-1,i+1の蛍光強度から判定するための蛍光色判定基準126を導出する。この場合、蛍光色判定基準学習部501は、訓練データ122の蛍光強度配列(すなわち、(Ia、Ib、Ic、Id)cycle(i-1)、(Ia、Ib、Ic、Id)cyclei、(Ia、Ib、Ic、Id)cycle(i+1))と正解蛍光色xi とをSVMに入力して学習し、サイクルiにおける蛍光色を判定するための蛍光色判定基準126を導出する。
In step S <b> 2, the fluorescent color determination
ステップS3において、学習部222は、蛍光色判定基準学習部501において導出された伸長反応の各サイクルにおける蛍光色判定基準126を、記憶装置230の蛍光色判定基準データベース231に記憶する。図7に、各特徴グループのサイクル別に学習された蛍光色判定基準126としてのサポートベクトルを記憶するデータベースの構成例を示す。なお、記憶されるサポートベクトルの数は任意であり、1つのサイクルについて1つ又は複数の蛍光色判定基準126が記憶される。
In step S <b> 3, the
ステップS4において、学習部222は、特徴グループに属する既知のDNA配列データ121の残りを蛍光色尤度計算用データ123として取得する。この際、蛍光色尤度計算用データ123は、蛍光色判定部502及び蛍光色尤度計算部503に与えられる。
In step S <b> 4, the
ステップS5において、学習部222は、蛍光色判定基準データベース231を検索し、当該特徴を持つDNA配列を訓練データに用いて蛍光色判定基準126を抽出する。
In step S <b> 5, the
ステップS6において、蛍光色判定部502は、特徴グループ毎に、蛍光色尤度計算用データ123から4色の蛍光強度配列124を取得し、蛍光色判定基準126を用いて、各サイクルにおける蛍光色を判定する。例えばサイクルiにおける蛍光色を判定するための蛍光色判定基準126を、サイクルiとその前後のサイクルi-1,i+1の蛍光強度を用いて学習する場合、蛍光色判定部502は、蛍光強度配列124から{(Ia、Ib、Ic、Id)cycle(i-1)、(Ia、Ib、Ic、Id)cyclei、(Ia、Ib、Ic、Id)cycle(i+1)}を入力して蛍光色判定基準126を適用し、サイクルiにおける蛍光色を判定する。
In step S <b> 6, the fluorescence
この際、蛍光色尤度計算部503は、蛍光色判定部502において判定された蛍光色配列と正解蛍光色配列125とを比較し、各サイクルにおける4色の蛍光色尤度P(x’i | xi)を導出する。ここで、xi はサイクルiにおける正解蛍光色、x’iはサイクルiにおける判定蛍光色である。
At this time, the fluorescent color
ステップS7において、学習部222は、蛍光色尤度計算部503で伸長反応の各サイクルについて計算された4色の蛍光色尤度127を、蛍光色尤度データベース232に記憶する。図8に、各特徴グループの各サイクルについて、4色の蛍光色尤度P(x’i | xi)を記憶するデータベースの構成例を示す。
In step S <b> 7, the
[推定ステージ]
推定部223は、推定ステージ130(図1)において、蛍光色判定基準データベース231と蛍光色尤度データベース232を使用し、未知の実験DNA配列データ131の各ステージにおける蛍光色を推定する。図9に、推定ステージ130において、推定部223が実行する処理手順の概要を示す。
[Estimation stage]
In the estimation stage 130 (FIG. 1), the
推定処理の前提となる未知の実験DNA配列データ131は、シーケンサーから取得される伸長反応の各サイクルにおける4色の蛍光強度配列132(すなわち、(Ia、Ib、Ic、Id)cycle1、 (Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)で与えられる。推定部223は、推定結果133として、推定DNA配列134とその信頼度135を出力する。
The unknown experimental
推定部223は、配列の特徴判別部901、蛍光色判定部902、DNA配列尤度計算部903で構成される。配列の特徴判別部901は、未知の実験DNA配列データ131に含まれるDNA配列が有する特徴を判別し、既知のDNA配列データ121について生成された特徴グループのいずれに属するかを判別する。蛍光色判定部902とDNA配列尤度計算部903は、判別結果で得られた特徴グループの蛍光色判定基準126及び発光色尤度127を用い、推定対象である蛍光強度配列132の推定DNA配列134と信頼度135(すなわち、DNA配列尤度)を計算する。
The
図10に、推定ステージ130(図1)において実行される推定処理の手順例を示す。
ステップS11において、配列の特徴判別部901及び蛍光色判定部902は、未知の実験DNA配列データ131をシーケンサーから取得する。なお、未知の実験DNA配列データ131は不図示の記憶領域から取得されるのでもよい。
FIG. 10 shows a procedure example of the estimation process executed in the estimation stage 130 (FIG. 1).
In step S11, the sequence
ステップS12において、配列の特徴判別部901は、シーケンサーから得られる全サイクル分の4色の蛍光強度配列132(すなわち、(Ia、Ib、Ic、Id)cycle1、 (Ia、Ib、Ic、Id)cycle2、… (Ia、Ib、Ic、Id)cyclen)を特徴ベクトルとしてクラスタリング解析し、又は、この特徴ベクトルを非線形変換した特徴空間上でクラスタリング解析し、図4で説明したように難読DNA配列解析部221(図2)で構築したクラスターのいずれかに分類する。
In step S12, the sequence
ステップS13において、蛍光色判定部902は、蛍光色判定基準データベース231を検索し、判別された特徴グループに応じた蛍光色判定基準126を抽出する。
In step S13, the fluorescent
ステップS14において、DNA配列尤度計算部903は、蛍光色尤度データベース232を検索し、判別された特徴グループに応じた4色の蛍光色尤度127を抽出する。
In step S14, the DNA sequence
ステップS15において、蛍光色判定部902は、推定対象である4色の蛍光強度配列が属する特徴グループに固有の蛍光色判定基準126に基づいて、各サイクルにおける蛍光色を判定する。例えばサイクルiにおける蛍光色を判定する判定基準が、そのサイクルiとその前後のサイクルi-1,i+1の蛍光強度から学習されている場合、蛍光色判定部902は、{(Ia、Ib、Ic、Id)cycle(i-1)、(Ia、Ib、Ic、Id)cyclei、(Ia、Ib、Ic、Id)cycle(i+1)}に対して蛍光色判定基準126を適用し、サイクルiの蛍光色を判定する。
In step S15, the fluorescent
また、DNA配列尤度計算部903は、蛍光色判定部902によって判定(推定)された各サイクルの蛍光色x’iと、判別された特徴グループについて蛍光色尤度データベース232から呼び出した各サイクルにおける4色の蛍光色尤度P(x’i | xi)とに基づいて、DNA配列尤度P(ui | x’)を計算する。
Further, the DNA sequence
これらの処理の後、推定部223は、推定対象である蛍光強度配列に対する推定結果133として、推定DNA配列134と信頼度135を出力する。
After these processes, the
因みに、DNA配列尤度P(ui | x’)、推定DNA配列bi、信頼度Ri、は、それぞれ以下の式で与えられる。ただし、x’は判定蛍光色の配列、uはDNA配列である。
P(ui | x’) ∝ Σ P(x’ | u) * P(u)
Σ P(x’ | u) * P(u)= Σ P(x’ | x) * P(u)
ただし、ui ∈{A,G,C,T}である。P(u)が既知の場合、P(u)には既知の値をそのまま使用し、P(u)が未知の場合、P(u)には1/4を使用する。また、bi = argmaxui P(ui | x’)であり、Ri = -10 log10 P(ui=bi | x’)である。
Incidentally, the DNA sequence likelihood P (u i | x ′), the estimated DNA sequence b i , and the reliability R i are given by the following equations, respectively. Here, x ′ is a determination fluorescent color sequence, and u is a DNA sequence.
P (u i | x ') ∝ Σ P (x' | u) * P (u)
ΣP (x ′ | u) * P (u) = ΣP (x ′ | x) * P (u)
However, u i ∈ {A, G, C, T}. When P (u) is known, a known value is used as it is for P (u), and when P (u) is unknown, 1/4 is used for P (u). Also, b i = argmax ui P (u i | x ′) and R i = −10 log 10 P (u i = b i | x ′).
[まとめ]
以上説明したように、実施の形態に係る配列解読システムは、難読DNA配列を特徴グループ毎に分類し、各特徴グループに特有の蛍光色判定基準126と蛍光色尤度127を事前に学習する。そして、DNA配列データの解読時には、未知の実験DNA配列データ131の蛍光強度配列132がいずれの特徴グループに属するかをまず判定し、その後、判定された特徴グループについて学習済みの蛍光色判定基準126と蛍光色尤度127を適用し、解読対象であるDNAの配列を推定する。この処理手法の適用により、難読DNA配列の解読精度を高めることができる。また、解読精度が向上すると、シーケンサーの一度の実行で取得可能な配列情報を増加させることができる。この結果、配列変異の検出力の向上、配列解析(例えばマッピングやアセンブリ等)の精度の改善等を実現することができる。
[Summary]
As described above, the sequence decoding system according to the embodiment classifies the obfuscated DNA sequences for each feature group, and learns in advance the
110…難読DNA配列の探索ステージ
120…学習ステージ
121…既知のDNA配列データ
122…訓練データ
123…蛍光色強度計算用データ
124…蛍光強度配列
125…正解蛍光色配列
126…蛍光色判定基準
127…蛍光色尤度
130…推定ステージ
131…未知の実験DNA配列データ
132…蛍光強度配列
133…推定結果
134…推定DNA配列
135…推定DNA配列の信頼度
210…入出力装置
220…解析装置
221…難読DNA配列解析部
222…学習部
223…推定部
230…記憶装置
231…蛍光色判定基準データベース
232…蛍光色尤度データベース
501…蛍光色判定基準学習部
502…蛍光色判定部
503…蛍光色尤度計算部
901…配列の特徴判別部
902…蛍光色判定部
903…DNA配列尤度計算部
110 ... Searching
Claims (5)
難読DNA配列データについて前記超並列シーケンサーから取得される蛍光強度配列データをその配列上の特徴に応じ、1つ又は複数の特徴グループに分類する機能と、分類された特徴グループ毎に用意された既知のDNA配列データの蛍光強度配列データを用い、蛍光色を判定するための蛍光色判定基準を学習すると共に、その信頼性を与える蛍光色尤度を計算する機能と、未知の実験DNA配列データの配列上の特徴に基づいて前記1つ又は複数の特徴グループの中から対応する特徴グループを判別し、その判別結果に基づいて前記未知の実験DNA配列データの推定DNA配列データとその信頼性を与える蛍光色尤度を計算する機能とを有する解析装置と、
配列上の特徴グループ毎に学習した前記蛍光色判定基準と前記蛍光色尤度を記憶する記憶装置と、
前記蛍光強度配列データを入力すると共に、前記推定DNA配列データとその信頼性を与える蛍光色尤度を出力する入出力装置と
を有し、
前記特徴グループに分類する機能は、
前記難読DNA配列データであると判定されたDNA配列データに、前記超並列シーケンサーから取得される前記蛍光強度配列データを特徴ベクトルとするクラスタリング解析を適用することにより、又は、前記特徴ベクトルを非線形変換した特徴空間上のクラスタリング解析を適用することにより、前記DNA配列データを前記1つ又は複数の特徴グループに分類する
ことを特徴とするDNA配列解読システム。 In the DNA sequencing system in the massively parallel sequencer,
About the obfuscated DNA sequence data, the fluorescence intensity sequence data acquired from the massively parallel sequencer is classified into one or a plurality of feature groups according to the features on the sequence, and the known prepared for each classified feature group Using the fluorescence intensity sequence data of the DNA sequence data of, and learning the fluorescence color criteria for judging the fluorescence color, the function to calculate the fluorescence color likelihood that gives its reliability, and the unknown experimental DNA sequence data A corresponding feature group is discriminated from the one or more feature groups based on the features on the sequence, and the estimated DNA sequence data of the unknown experimental DNA sequence data and its reliability are given based on the discrimination result An analysis device having a function of calculating a fluorescent color likelihood;
A storage device for storing the fluorescent color criteria and the fluorescent color likelihood learned for each feature group on the array;
The inputs the fluorescence intensity sequence data, have a input-output device for outputting a fluorescent color likelihood that gives the reliability and the estimated DNA sequence data,
The function of classifying into the feature groups is
By applying a clustering analysis using the fluorescence intensity sequence data acquired from the massively parallel sequencer as a feature vector to the DNA sequence data determined to be the obfuscated DNA sequence data, or nonlinearly transforming the feature vector By applying clustering analysis on the feature space, the DNA sequence data is classified into the one or more feature groups .
現実の様々なゲノムをシーケンスした際のリード配列を、リファレンス配列にマッピングしたときのマッピング精度に基づいて、読み取りが困難な難読DNA配列データを抽出する
ことを特徴とするDNA配列解読システム。 In the DNA sequence decoding system according to claim 1,
A DNA sequencing system that extracts difficult-to-read DNA sequence data that is difficult to read based on the mapping accuracy when mapping the actual sequence of various genomes to the reference sequence.
難読DNA配列データについて前記超並列シーケンサーから取得される蛍光強度配列データをその配列上の特徴に応じ、1つ又は複数の特徴グループに分類する処理と、
分類された特徴グループ毎に用意された既知のDNA配列データの蛍光強度配列データを用い、蛍光色を判定するための蛍光色判定基準を学習すると共に、その信頼性を与える蛍光色尤度を計算する処理と、
未知の実験DNA配列データの配列上の特徴に基づいて前記1つ又は複数の特徴グループの中から対応する特徴グループを判別し、その判別結果に基づいて前記未知の実験DNA配列データの推定DNA配列データとその信頼性を与える蛍光色尤度を計算する処理と
を有し、
前記特徴グループに分類する処理は、
前記難読DNA配列データであると判定されたDNA配列データに、前記超並列シーケンサーから取得される前記蛍光強度配列データを特徴ベクトルとするクラスタリング解析を適用することにより、又は、前記特徴ベクトルを非線形変換した特徴空間上のクラスタリング解析を適用することにより、前記DNA配列データを前記1つ又は複数の特徴グループに分類する
ことを特徴とするDNA配列解読方法。 In the DNA sequencing method in a massively parallel sequencer,
Processing to classify fluorescence intensity sequence data acquired from the massively parallel sequencer for obfuscated DNA sequence data into one or more feature groups according to the features on the sequence;
Using fluorescence intensity sequence data of known DNA sequence data prepared for each classified feature group, learn fluorescence color criteria for determining fluorescence color and calculate fluorescence color likelihood that gives its reliability Processing to
A corresponding feature group is determined from the one or more feature groups based on the sequence characteristics of the unknown experimental DNA sequence data, and the estimated DNA sequence of the unknown experimental DNA sequence data is determined based on the determination result possess a process of calculating a fluorescence color likelihood providing data and its reliability,
The process of classifying into the feature groups is
By applying a clustering analysis using the fluorescence intensity sequence data acquired from the massively parallel sequencer as a feature vector to the DNA sequence data determined to be the obfuscated DNA sequence data, or nonlinearly transforming the feature vector A DNA sequence decoding method , wherein the DNA sequence data is classified into the one or more feature groups by applying clustering analysis on the feature space .
現実の様々なゲノムをシーケンスした際のリード配列を、リファレンス配列にマッピングしたときのマッピング精度に基づいて、読み取りが困難な難読DNA配列データを抽出する
ことを特徴とするDNA配列解読方法。 In the DNA sequence decoding method according to claim 3 ,
A DNA sequencing method characterized by extracting difficult-to-read DNA sequence data based on mapping accuracy when mapping the actual sequence of various genomes to a reference sequence.
難読DNA配列データについて超並列シーケンサーから取得される蛍光強度配列データをその配列上の特徴に応じ、1つ又は複数の特徴グループに分類する処理と、
分類された特徴グループ毎に用意された既知のDNA配列データの蛍光強度配列データを用い、蛍光色を判定するための蛍光色判定基準を学習すると共に、その信頼性を与える蛍光色尤度を計算する処理と、
未知の実験DNA配列データの配列上の特徴に基づいて前記1つ又は複数の特徴グループの中から対応する特徴グループを判別し、その判別結果に基づいて前記未知の実験DNA配列データの推定DNA配列データとその信頼性を与える蛍光色尤度を計算する処理と
を実行させるプログラムであり、
前記特徴グループに分類する処理は、
前記難読DNA配列データであると判定されたDNA配列データに、前記超並列シーケンサーから取得される前記蛍光強度配列データを特徴ベクトルとするクラスタリング解析を適用することにより、又は、前記特徴ベクトルを非線形変換した特徴空間上のクラスタリング解析を適用することにより、前記DNA配列データを前記1つ又は複数の特徴グループに分類する
ことを特徴とするプログラム。 On the computer,
Processing to classify the fluorescence intensity sequence data obtained from the massively parallel sequencer for the obfuscated DNA sequence data into one or more feature groups according to the features on the sequence;
Using fluorescence intensity sequence data of known DNA sequence data prepared for each classified feature group, learn fluorescence color criteria for determining fluorescence color and calculate fluorescence color likelihood that gives its reliability Processing to
A corresponding feature group is determined from the one or more feature groups based on the sequence characteristics of the unknown experimental DNA sequence data, and the estimated DNA sequence of the unknown experimental DNA sequence data is determined based on the determination result A program that executes data and a process for calculating a fluorescent color likelihood that gives the reliability of the data ,
The process of classifying into the feature groups is
By applying a clustering analysis using the fluorescence intensity sequence data acquired from the massively parallel sequencer as a feature vector to the DNA sequence data determined to be the obfuscated DNA sequence data, or nonlinearly transforming the feature vector Classifying the DNA sequence data into the one or more feature groups by applying a clustering analysis on the feature space
A program characterized by that .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011242340A JP5863396B2 (en) | 2011-11-04 | 2011-11-04 | DNA sequence decoding system, DNA sequence decoding method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011242340A JP5863396B2 (en) | 2011-11-04 | 2011-11-04 | DNA sequence decoding system, DNA sequence decoding method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013094149A JP2013094149A (en) | 2013-05-20 |
JP5863396B2 true JP5863396B2 (en) | 2016-02-16 |
Family
ID=48616794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011242340A Expired - Fee Related JP5863396B2 (en) | 2011-11-04 | 2011-11-04 | DNA sequence decoding system, DNA sequence decoding method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5863396B2 (en) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1975251A3 (en) * | 2000-07-07 | 2009-03-25 | Visigen Biotechnologies, Inc. | Real-time sequence determination |
JP4103315B2 (en) * | 2000-08-08 | 2008-06-18 | 株式会社日立製作所 | Nucleobase sequencing apparatus and inspection system |
JP2003079366A (en) * | 2001-09-11 | 2003-03-18 | Hitachi Ltd | Information processing system for assisting primer walking |
JP2003088367A (en) * | 2001-09-18 | 2003-03-25 | Hitachi Ltd | Method of dna analysis, dna analyzer, and parts for reaction channel |
JP4209623B2 (en) * | 2002-03-19 | 2009-01-14 | 株式会社日立ハイテクノロジーズ | Nucleotide sequencing method |
JP3878503B2 (en) * | 2002-03-19 | 2007-02-07 | 株式会社日立ハイテクノロジーズ | Nucleotide sequencing method |
JP4317398B2 (en) * | 2003-07-11 | 2009-08-19 | 株式会社日立ハイテクノロジーズ | Nucleobase sequence information recording method and nucleobase sequence determination method |
JP3928050B2 (en) * | 2003-09-19 | 2007-06-13 | 大学共同利用機関法人情報・システム研究機構 | Base sequence classification system and oligonucleotide frequency analysis system |
JP2006107396A (en) * | 2004-10-08 | 2006-04-20 | Institute Of Physical & Chemical Research | Method, device, and program for classifying snp genotype |
US20080221832A1 (en) * | 2006-11-09 | 2008-09-11 | Complete Genomics, Inc. | Methods for computing positional base probabilities using experminentals base value distributions |
JP2010516285A (en) * | 2007-01-26 | 2010-05-20 | イルミナ インコーポレイテッド | Nucleic acid sequencing systems and methods |
US8486630B2 (en) * | 2008-11-07 | 2013-07-16 | Industrial Technology Research Institute | Methods for accurate sequence data and modified base position determination |
JP2010267201A (en) * | 2009-05-18 | 2010-11-25 | Nec Corp | Information processor, data processing method and program therefor |
-
2011
- 2011-11-04 JP JP2011242340A patent/JP5863396B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013094149A (en) | 2013-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11817180B2 (en) | Systems and methods for analyzing nucleic acid sequences | |
KR102416048B1 (en) | Deep convolutional neural networks for variant classification | |
Kircher et al. | Improved base calling for the Illumina Genome Analyzer using machine learning strategies | |
Yin et al. | A sparse conditional Gaussian graphical model for analysis of genetical genomics data | |
Smith et al. | Demographic model selection using random forests and the site frequency spectrum | |
García-López et al. | Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations | |
JP7319197B2 (en) | Methods for Aligning Target Nucleic Acid Sequencing Data | |
Shlemov et al. | Reconstructing antibody repertoires from error-prone immunosequencing reads | |
Sarmashghi et al. | Estimating repeat spectra and genome length from low-coverage genome skims with RESPECT | |
De Marino et al. | A comparative analysis of current phasing and imputation software | |
Su et al. | Integrating thermodynamic and sequence contexts improves protein-RNA binding prediction | |
Pei et al. | CLADES: A classification‐based machine learning method for species delimitation from population genetic data | |
de Sá et al. | Next-generation sequencing and data analysis: strategies, tools, pipelines and protocols | |
US20220351804A1 (en) | Improved Variant Caller Using Single-Cell Analysis | |
JP5863396B2 (en) | DNA sequence decoding system, DNA sequence decoding method and program | |
KR102543757B1 (en) | Method and apparatus for discovering biomarker for predicting cancer prognosis using heterogeneous platform of DNA methylation data | |
KR20220109707A (en) | An apparatus for analyzing nucleic sequencing data and a method for operating it | |
JP6356015B2 (en) | Gene expression information analyzing apparatus, gene expression information analyzing method, and program | |
Belka et al. | LVQ-KNN: Composition-based DNA/RNA binning of short nucleotide sequences utilizing a prototype-based k-nearest neighbor approach | |
Yang et al. | Decoding microbiome and protein family linkage to improve protein structure prediction | |
Lemsara et al. | Mapping of RNA modifications by direct Nanopore sequencing and JACUSA2 | |
US10752958B2 (en) | Identification of microorganisms from genome sequencing data | |
Leote et al. | Regulatory network-based imputation of dropouts in single-cell RNA sequencing data | |
Vorontsov et al. | Cross-platform DNA motif discovery and benchmarking to explore binding specificities of poorly studied human transcription factors | |
JP6332598B2 (en) | Feature selection method, information processing system, and computer program for efficient modeling of epistasis for phenotypic prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151023 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151222 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5863396 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |