[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5065694B2 - Method and system for evaluating genotyping results - Google Patents

Method and system for evaluating genotyping results Download PDF

Info

Publication number
JP5065694B2
JP5065694B2 JP2007018965A JP2007018965A JP5065694B2 JP 5065694 B2 JP5065694 B2 JP 5065694B2 JP 2007018965 A JP2007018965 A JP 2007018965A JP 2007018965 A JP2007018965 A JP 2007018965A JP 5065694 B2 JP5065694 B2 JP 5065694B2
Authority
JP
Japan
Prior art keywords
peak
stutter
determination
true
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007018965A
Other languages
Japanese (ja)
Other versions
JP2007259847A (en
Inventor
優 中見
亮 中重
康行 野崎
俊子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2007018965A priority Critical patent/JP5065694B2/en
Publication of JP2007259847A publication Critical patent/JP2007259847A/en
Application granted granted Critical
Publication of JP5065694B2 publication Critical patent/JP5065694B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、生物の個体間の差異(姿形や病気への罹患性等の差異)に関与しているとされる遺伝子型を判定する解析作業に対する遺伝子型判定結果の評価方法及び評価システムに関し、特に、解析対象の遺伝子が含まれるDNA断片をPCRで増幅し電気泳動により検出する際にノイズシグナルから遺伝子型シグナルを判定した結果を評価する方法及びシステムに関するものである。   The present invention relates to an evaluation method and an evaluation system for genotype determination results for an analysis operation for determining genotypes that are considered to be involved in differences between individuals of organisms (differences in form, disease susceptibility, etc.) In particular, the present invention relates to a method and system for evaluating a result of determining a genotype signal from a noise signal when a DNA fragment containing a gene to be analyzed is amplified by PCR and detected by electrophoresis.

ヒトを含め様々な生物の全ゲノムの完全解読が進められている。既に解読が完了しているヒト等の生物については、ゲノムの全体や比較的広範囲にわたる領域についての遺伝子の解析研究が活発に行なわれている。特に医療研究において、疾患の有無、薬物に対する効果・副作用の有無などに関与する遺伝子を探索する上で、多数の遺伝子型を自動で判定する技術が注目されている。そして、個体毎に自動で判定された遺伝子型の評価技術はより判定精度を高めるために切望されている。   Complete decoding of the entire genome of various organisms including humans is underway. With regard to living organisms such as humans that have already been decoded, gene analysis studies on the entire genome and a relatively wide area are being actively conducted. In particular, in medical research, a technique for automatically determining a large number of genotypes is attracting attention in searching for genes involved in the presence or absence of diseases, the effects on drugs, and the presence or absence of side effects. A genotype evaluation technique automatically determined for each individual is eagerly desired in order to further increase the determination accuracy.

マイクロサテライト
通常、同種の生物の個体間のゲノム同士は多くの部分において全く同じ塩基配列を有しているが、いくつかの個所では異なった塩基配列を有していることが知られている。そのような個体間のゲノム上の塩基配列に差異が見られることを多型という。多型には幾つかの種類があることも知られており、一塩基の多型であるSNPs(Single Nucleotide Polymorphisms)やマイクロサテライト(microsatellite)が特に解析研究への利用において注目されている。
Microsatellite Usually, genomes between individuals of the same species have the same base sequence in many parts, but it is known that they have different base sequences in several places. Such a difference in the base sequence on the genome between individuals is called polymorphism. It is also known that there are several types of polymorphisms, and single nucleotide polymorphisms such as SNPs (Single Nucleotide Polymorphisms) and microsatellite have attracted particular attention for use in analytical research.

マイクロサテライトは、2塩基から6塩基の短い配列パターンが数回〜数十回繰り返されて表れる配列のことをいい、ヒトゲノムの場合、数万箇所以上存在する。ゲノム上に現れるマイクロサテライトの例を図18に示す。マイクロサテライトにおける繰り返し単位をunitと呼び、unitの塩基数をunit長と呼んでいる。例えば、図18に示すATATATAT...というマイクロサテライトでは、unitは『AT』であり、unit長は2塩基である。図18に示すように、マイクロサテライトは、unit及びunit長が同じであっても、その繰り返し回数において差異(多型)が見られる。   A microsatellite is a sequence in which a short sequence pattern of 2 to 6 bases is repeated several to several tens of times. In the case of the human genome, there are tens of thousands or more. An example of microsatellite appearing on the genome is shown in FIG. The repeating unit in microsatellite is called unit, and the base number of unit is called unit length. For example, in the microsatellite “ATATATAT ...” shown in FIG. 18, the unit is “AT” and the unit length is 2 bases. As shown in FIG. 18, even if the microsatellite has the same unit and unit length, a difference (polymorphism) is observed in the number of repetitions.

上記したようにSNPs及びマイクロサテライトは多型性を持つためにゲノム上で他の塩基配列と区別がしやすい部分であり、実験的にも検出が容易である。また、生物種によっては、ゲノム上のSNPs及びマイクロサテライトが存在するおおよその位置が判っているので、ゲノム上の位置を示す指標として用いることができる。このような性質から、SNPsやマイクロサテライトのことをDNAマーカーと呼んでいる。特に、マイクロサテライトは複数の塩基を含んでいるので、SNPsよりも多くの情報量を有しており、ゲノムワイドな解析研究にDNAマーカーとして頻繁に用いられている。   As described above, since SNPs and microsatellite have polymorphisms, they are easily distinguishable from other base sequences on the genome, and can be easily detected experimentally. In addition, depending on the species, the approximate position where the SNPs and microsatellite exist on the genome is known, and therefore it can be used as an index indicating the position on the genome. Because of these properties, SNPs and microsatellite are called DNA markers. In particular, since microsatellite includes a plurality of bases, it has a larger amount of information than SNPs and is frequently used as a DNA marker for genome-wide analysis studies.

ところで、図18に示すように、多くの生物の個体は、雌性配偶子と雄性配偶子に由来する1対のゲノム(相同染色体)を有している。1対のゲノム上の互いに対応する部位に存在する遺伝子を、それぞれ対立遺伝子(allele)と言い、これらの組み合わせを遺伝子型(genotype)と言う。上記したように、ゲノム上のSNPsやマイクロサテライトは、個体間で塩基配列が異なり得る部分であるので、一般的に、SNPsには2つ又は3つの対立遺伝子が存在し、マイクロサテライトには数種類〜20種類以上の対立遺伝子が存在する。   By the way, as shown in FIG. 18, many organism individuals have a pair of genomes (homologous chromosomes) derived from a female gamete and a male gamete. Genes present at mutually corresponding sites on a pair of genomes are called alleles, and combinations thereof are called genotypes. As described above, since SNPs and microsatellite on the genome are portions where the nucleotide sequences can differ between individuals, generally, there are two or three alleles in SNPs, and several types of microsatellite There are ~ 20 or more alleles.

図18に示す例では、個体Aは『AT』というunitを3回繰り返したものと5回繰り返したものとを有しており、個体Bは『AT』というunitを6回繰り返したものと3回繰り返したものとを有している。また個体Cは、『AT』というunitを4回繰り返したものを2つ有している。個体Aや個体Bのように異なる種類の対立遺伝子を1つずつ持っている状態をヘテロ接合といい、個体Cのように同じ種類の対立遺伝子を2つ持っている状態をホモ接合という。   In the example shown in FIG. 18, the individual A has a unit “AT” repeated 3 times and 5 times, and the individual B has a unit “AT” repeated 6 times and 3 Have repeated times. The individual C has two units obtained by repeating the unit “AT” four times. A state having one different type of allele, such as individual A or individual B, is called heterozygous, and a state having two alleles of the same type, such as individual C, is called homozygous.

PCR及び電気泳動実験
DNAマーカーとしてマイクロサテライトを用いる場合、ゲノム上のマイクロサテライトが現れている箇所を抽出して検出するための実験としてPCR(Polymerase Chain Reaction)や電気泳動などの実験が行われる。PCRは、マイクロサテライトの両端においてプライマー配列と呼ばれる1対の塩基配列とDNA複製酵素を用いて反応させることで、1対のプライマー配列の間にはさまれるマイクロサテライト部分を含むDNA断片を繰り返し複製して増幅させ、一定収量のサンプルを取得する実験技術である。電気泳動には、ゲル電気泳動やキャピラリ電気泳動といった手法があり、増幅したDNA断片を荷電された泳動路で泳動させて、長さの異なるDNA断片を分子量や荷電性による泳動度の違いを利用して分離する実験技術である。図19は、PCR及びゲル電気泳動により、マイクロサテライト部分のDNA断片を増幅する実験手順を示す模式図である。まず、対象となるマイクロサテライトをはさむ1対のプライマー配列1900及び1901を指定し、マイクロサテライト及びプライマー配列を含んだゲノム領域1902がPCR実験により増幅される。図19に示す例では、2本の相同染色体上でのマイクロサテライトの繰り返し数が異なるヘテロ接合であり、それぞれマイクロサテライト部分の長さが異なるため、それぞれから長さの異なる2種類のPCR増幅産物すなわちDNA断片(52塩基及び48塩基)が得られる。これらをゲル上で一定時間電気泳動させると、上記2種類のPCR増幅産物はそのDNA断片の長さの違いによって分離される。あらかじめ各DNA断片を蛍光色素で標識しておき、電気泳動後に各DNA断片からの蛍光シグナルの強度及び位置を検出することで、図19に示すように横軸にDNA断片の長さ(フラグメント・サイズ)、縦軸に蛍光シグナル強度(すなわちDNA断片の存在量)をプロットしたグラフが得られる。また、PCR増幅産物とともに、長さがあらかじめ分かっているDNA断片(サイズマーカー)を同時に電気泳動させて蛍光シグナルを検出することで、サイズマーカーの検出位置を基準として各PCR増幅産物の長さを知ることができる。
PCR and Electrophoresis Experiments When microsatellite is used as a DNA marker, an experiment such as PCR (Polymerase Chain Reaction) or electrophoresis is performed as an experiment for extracting and detecting a portion where microsatellite appears on the genome. In PCR, a DNA fragment containing a microsatellite portion sandwiched between a pair of primer sequences is repeatedly replicated by reacting with a pair of base sequences called primer sequences at both ends of the microsatellite using a DNA replication enzyme. It is an experimental technique to obtain a sample with a constant yield. Electrophoresis includes methods such as gel electrophoresis and capillary electrophoresis, where amplified DNA fragments are run on a charged migration path, and DNA fragments of different lengths are used for differences in the degree of migration due to molecular weight and chargeability. This is an experimental technique for separation. FIG. 19 is a schematic diagram showing an experimental procedure for amplifying a DNA fragment of a microsatellite portion by PCR and gel electrophoresis. First, a pair of primer sequences 1900 and 1901 sandwiching a target microsatellite is specified, and a genomic region 1902 including the microsatellite and the primer sequence is amplified by a PCR experiment. In the example shown in FIG. 19, two types of PCR amplification products having different lengths from each other are heterozygotes having different numbers of microsatellite repeats on two homologous chromosomes, and the lengths of the microsatellite portions are different from each other. That is, DNA fragments (52 bases and 48 bases) are obtained. When these are electrophoresed on a gel for a certain period of time, the two kinds of PCR amplification products are separated by the difference in length of their DNA fragments. Each DNA fragment is labeled with a fluorescent dye in advance, and the intensity and position of the fluorescence signal from each DNA fragment is detected after electrophoresis, so that the length of the DNA fragment (fragment Size) and a graph in which the vertical axis represents the fluorescence signal intensity (ie, the abundance of DNA fragments) is obtained. In addition, the length of each PCR amplification product can be determined based on the detection position of the size marker by simultaneously performing electrophoresis of a DNA fragment (size marker) whose length is known in advance together with the PCR amplification product and detecting a fluorescent signal. I can know.

尚、上記ではゲル電気泳動を用いた実験手法について述べたが、キャピラリ電気泳動によっても同様のことを行うことができる。キャピラリ電気泳動では、サンプルにゲルを詰めた細い管の中を泳動させ、各種サンプルが一定距離(通常はキャピラリの終端まで)を泳動し終わるまでに要した時間を計測して、DNA断片の長さを調べる手法である。キャピラリ電気泳動においては、ゲル中のサンプルからの蛍光シグナルをスキャンするのではなく、キャピラリ終端に備えた蛍光シグナル検出器によりサンプルを検出するのが一般的である。   In addition, although the experimental method using gel electrophoresis was described above, the same thing can be performed also by capillary electrophoresis. In capillary electrophoresis, the sample is run through a thin tube packed with gel, and the time taken for each sample to finish moving a certain distance (usually up to the end of the capillary) is measured. It is a technique to check the thickness. In capillary electrophoresis, it is common to detect a sample with a fluorescence signal detector provided at the end of the capillary rather than scanning the fluorescence signal from the sample in the gel.

PCR及び電気泳動実験において生じるノイズ
上記の図19に示したPCRと電気泳動の結果のピークは、理想的な過程で行われた場合に得られるものであり、実際の実験においては様々なノイズのピークが生じることが多い。結果を解釈する上で主だったノイズピークとして、Stutterピークと+Aピークがある。
Noise generated in PCR and electrophoresis experiments The peak of the PCR and electrophoresis results shown in FIG. 19 above are obtained in an ideal process. A peak often occurs. There are Stutter peak and + A peak as main noise peaks in interpreting the results.

Stutterピークは、図20に示したようにPCRの際に複製対象の鋳型配列鎖がマイクロサテライトの連続した繰り返し配列のずれた位置で相補鎖を形成してしまい、鋳型鎖がヘアピンループ状の形状をしてしまう現象(slipped-strand mispairing)に起因して、複製対象のDNA断片のうちマイクロサテライト部分の繰り返し回数が増加又は減少し、蛍光シグナルにおいて繰り返し回数が増加又は減少したDNA断片がノイズピークとして観測されるものである。特にunit長の短いマイクロサテライトを増幅する場合に生じやすいことも知られている。Stutterピークは複製元のDNA断片と同じ長さのDNA断片のほかに、マイクロサテライトのunit長の整数倍だけ長さが増加又減少したDNA断片のピークとして観測される。   As shown in FIG. 20, the Stutter peak forms a complementary strand at the position where the template sequence strand to be replicated is shifted from the continuous repeating sequence of microsatellite during PCR, and the template strand has a hairpin loop shape. Due to the phenomenon of slipping-strand mispairing, the number of repeats of the microsatellite portion of the DNA fragment to be replicated increases or decreases, and the DNA fragment whose number of repeats increases or decreases in the fluorescence signal is a noise peak. As observed. It is also known that it tends to occur particularly when a microsatellite with a short unit length is amplified. The Stutter peak is observed as a DNA fragment peak whose length is increased or decreased by an integral multiple of the microsatellite unit length in addition to the DNA fragment having the same length as the original DNA fragment.

+Aピークは、PCRによりDNA断片を複製する際に、複製酵素の作用によりDNA断片に余分な塩基(通常はA)が1つ付加されてしまう現象に起因して、蛍光シグナルにおいて1塩基付加されたDNA断片長のノイズピークとして観測されるものである。このような1塩基の付加は、複製元のDNA断片に対してのみならず上述のStutterピークの元となる各DNA断片に対しても起こるので、蛍光シグナルにおいて各Stutterピークの1塩基右に+Aピークが観測される。   The + A peak indicates that when a DNA fragment is replicated by PCR, one extra base (usually A) is added to the DNA fragment due to the action of the replication enzyme. It is observed as a noise peak of the length of the DNA fragment. Such addition of one base occurs not only with respect to the DNA fragment of the replication source but also with respect to each DNA fragment that is the origin of the above Stutter peak. A peak is observed.

図21に、以上のStutterピークと+Aピークの観測される模式図を示す。図21は、2つのアリルが存在するヘテロ接合の波形を示している。複製元のDNA断片長と同じ長さのアリルサイズに相当するピーク(以下、「真のピーク」と呼ぶ)を2つ含み、それぞれを中心とした2つのピーク群のかたまりからなっている。1つ目のピークのかたまりでは、真のピークの左2unit分の位置と左1unit分の位置、そして右1unit分の位置にStutterピークが存在し、真のピーク及びStutterピークのそれぞれに対応する+Aピークが存在している。2つ目のピークのかたまりでは、真のピークの左1unit分の位置と右1unit分の位置にStutterピークが存在し、真のピーク及びStutterピークのそれぞれに対応する+Aピークが存在している。以下において、ある+Aピークに対して、その+Aピークが生じる元となった1塩基付加されていないDNA断片に対応する真のピーク又はStutterピークのことを「元のピーク」と呼ぶ。   FIG. 21 shows a schematic diagram in which the above Stutter peak and + A peak are observed. FIG. 21 shows the waveform of a heterojunction in which two alleles are present. It includes two peaks (hereinafter referred to as “true peaks”) corresponding to the allyl size of the same length as the DNA fragment length of the replication source, and consists of a group of two peaks centered on each. In the first peak cluster, there are Stutter peaks at the position of 2 units left of the true peak, the position of 1 unit of left, and the position of 1 unit of right, corresponding to each of the true peak and the Stutter peak + A peak is present. In the second peak cluster, there is a Stutter peak at the position of 1 unit left and 1 unit of right of the true peak, and + A peak corresponding to each of the true peak and Stutter peak. . In the following, for a certain + A peak, a true peak or a Stutter peak corresponding to a DNA fragment to which the + A peak is generated and from which one base has not been added is referred to as an “original peak”.

PCR及び電気泳動の実験過程を通じて得られた蛍光シグナルの波形について、各個体毎に、ノイズが含まれる複数のピークの中から真のピークを判定する方法が既にいくつか報告されており、非特許文献1などに開示されている。   Regarding the waveform of the fluorescence signal obtained through the PCR and electrophoresis experimental process, several methods have already been reported for each individual to determine the true peak from multiple peaks that contain noise. It is disclosed in Document 1.

遺伝子型の判定結果について評価する方法についてもいくつか既に報告されている。
遺伝子型判定結果の評価方法について、特許文献1や非特許文献1などに開示されている。また、遺伝子型の判定結果を評価する機能を有するソフトウェアとして、Cybergenetics社のソフトウェア「TrueAllele」、ABI社のソフトウェア「GeneMapperID」などが知られている。
Several methods for evaluating the genotype determination results have already been reported.
Methods for evaluating genotype determination results are disclosed in Patent Literature 1, Non-Patent Literature 1, and the like. As software having a function of evaluating the genotype determination result, software “TrueAllele” of Cybergenetics, software “GeneMapperID” of ABI, etc. are known.

特開2006−17461号公報JP 2006-17461 A Matsumoto T et al., "Novel algorithm for automated genotyping of microsatellites", Nucleic Acids Research, Vol.32, No.20 (2004)p6069-6077Matsumoto T et al., "Novel algorithm for automated genotyping of microsatellites", Nucleic Acids Research, Vol.32, No.20 (2004) p6069-6077

遺伝子型を自動で判定する手法において、その自動判定結果をさらに評価する手法が求められている。これは、実際に研究者が自動判定結果を解釈する時点では、自動で判定した結果にそれらを評価して得られる判定精度を併せることで初めて、目視で再度確認する必要がないのかどうか、自動で遺伝子型を判定した結果が有効かどうかを判断することができるからである。   In a method for automatically determining a genotype, a method for further evaluating the automatic determination result is required. This is because when a researcher actually interprets the results of automatic determination, it is only necessary to check the results of automatic determination together with the determination accuracy obtained by evaluating them. This is because it is possible to determine whether or not the result of determining the genotype is effective.

また、真のピークを判定する上で、同一マーカーで用いる個体群でStutterピークと+Aピークの現れ方や特徴を計算して得た情報を利用する方法が特許文献1として既に考案されているが、1回の処理で十分な数の個体群を用いない場合にその判定精度が落ちることが懸念されている。同一マーカーに含まれる個体群でStutterピークと+Aピークの現れ方や特徴を計算して得た情報を利用する方法では、具体的には各個体の波形に含まれる真のピークを中心にunit長の倍数長の位置の元のピークと+Aピークの高さ比の各線形回帰直線が非特許文献1で述べられている内容と同様に計算される。その線形回帰直線を用いて、ある観察波形に含まれる各ピークが真のピークかStutterピークか+Aピークかどうかが判定される。しかし、線形回帰直線を計算することに用いる個体数が十分でない場合は、一部の個体の波形のぶれの影響が大きくなり、個体群を代表する線形回帰直線が計算することができず、それら線形回帰直線を用いた観察波形のピーク判定結果も正しくなくなることが懸念されている。とはいえ、1回の処理で用いる個体群の数は1回の実験で用いたサンプル数によるので、1回の処理で用いる個体数の数自体をコントロールすることは困難である。   Further, Patent Document 1 has already devised a method of using information obtained by calculating the appearance and characteristics of Stutter peaks and + A peaks in a population used for the same marker in determining a true peak. However, there is a concern that the determination accuracy may be lowered when a sufficient number of individuals are not used in one process. In the method of using the information obtained by calculating the appearance and characteristics of Stutter peak and + A peak in the population included in the same marker, specifically, the unit is centered on the true peak included in the waveform of each individual Each linear regression line of the height ratio of the original peak and the + A peak at a position that is a multiple of the length is calculated in the same manner as described in Non-Patent Document 1. Using the linear regression line, it is determined whether each peak included in a certain observed waveform is a true peak, a Stutter peak, or a + A peak. However, if the number of individuals used to calculate the linear regression line is not sufficient, the influence of the waveform fluctuation of some individuals will increase, and a linear regression line representing the individual group cannot be calculated. There is a concern that the peak determination result of the observed waveform using the linear regression line will also be incorrect. However, since the number of individuals used in one treatment depends on the number of samples used in one experiment, it is difficult to control the number of individuals used in one treatment.

本発明は、このような実情に鑑みてなされたものであり、あるマーカーの1回の処理で用いることができる個体群が少ない場合でもそのマーカーのStutterピークや+Aピークの特徴の十分な情報を得て、遺伝子型の自動判定結果を評価する方法及びシステムを提供しようとするものである。   The present invention has been made in view of such circumstances, and even when there are few individuals that can be used in one processing of a marker, sufficient information on the characteristics of the Stutter peak and + A peak of the marker is available. And to provide a method and system for evaluating the result of automatic genotype determination.

本発明者は、特許文献1に開示されている発明の技術的思想を基礎として、さらに下記のような考察を行い、上記課題の解決手段に想到した。
まず、あるマーカーについて得られるStutterピークと+Aピークの高さ比および断片長に関する以下の特徴に着目した。
Based on the technical idea of the invention disclosed in Patent Document 1, the present inventor has further considered the following and arrived at the means for solving the above problems.
First, we focused on the following characteristics regarding the height ratio and fragment length of the Stutter peak and + A peak obtained for a marker.

・特徴1 真のピークに対するStutterピークの高さの比には再現性がある。
蛍光シグナルのStutterピークについて、各ピークの高さの絶対値は実験プレート毎や実験機会毎に変動し再現性がないものの、以下に述べるように同じマーカーの同じアリルを考える場合には、真のピークに対するStutterピークの高さの比に再現性がある。Stutterピークは、それが生じるメカニズムが真のアリルのピークに相対的な現象によるため、同じマーカーで同じアリルの断片長のDNA断片を増幅する場合には真のアリルのピークに対して相対的に同じ程度に(同じ高さの比で)Stutterピークが生じる。例えば図1では、1個体目と2個体目の両方の波形において、2つ目のピークの塊での、真のピークに対する左1unit分の位置のStutterピークの高さ比(100に対する101の高さ比と102に対する103の高さ比)はほぼ等しい。
-Feature 1 The ratio of Stutter peak height to true peak is reproducible.
For the Stutter peak of the fluorescence signal, the absolute value of the height of each peak fluctuates from one experimental plate to another and every experimental opportunity, but there is no reproducibility, but when considering the same allele of the same marker as described below, it is true The ratio of Stutter peak height to peak is reproducible. The Stutter peak is relative to the true allele peak when amplifying DNA fragments of the same allele fragment length with the same marker because the mechanism by which it occurs is due to a phenomenon relative to the true allele peak. Stutter peaks occur to the same extent (at the same height ratio). For example, in FIG. 1, the height ratio of the Stutter peak at the position of 1 unit to the left of the true peak in the lump of the second peak in the waveform of both the first and second individuals (the height of 101 to 100) The height ratio and the height ratio of 103 to 102 are almost equal.

・特徴2 真のピークに対する+Aピークの高さの比は、複製酵素の作用時間を含めた実験プロトコルが同一の場合には再現性がある。
+Aピークについても同様に、同じマーカーを考える場合には、真のピークに対する+Aピークの高さの比に再現性がある。+Aピークは、元のピーク(真のピークあるいはStutterピーク)に対して相対的に生じる点でStutterピークと同様であるが、+Aピークが生じる度合いに、複製酵素を作用させる時間の長さが強く影響することが知られている。同じマーカーの同じアリルに関するDNA断片を増幅する場合であれば、一般に実験プロトコルは固定されており、酵素を作用させる時間(失活させるまでの時間)は一定と考えられるので、+Aピークについてもやはり再現性を期待することができる。
Feature 2: The ratio of the height of the + A peak to the true peak is reproducible when the experimental protocol including the action time of the replicative enzyme is the same.
Similarly for the + A peak, when considering the same marker, the ratio of the height of the + A peak to the true peak is reproducible. The + A peak is similar to the Stutter peak in that it occurs relative to the original peak (true peak or Stutter peak), but the length of time that the replication enzyme acts on the degree to which the + A peak is generated. Is known to have a strong influence. In the case of amplifying DNA fragments related to the same allele of the same marker, the experimental protocol is generally fixed, and the time for the enzyme to act (the time until inactivation) is considered to be constant. Again, reproducibility can be expected.

例えば、図1では、1個体目と2個体目の両方の波形、1つ目と2つ目の両方のピークの塊において、真のピークに対する+Aピークの高さ比(100に対する104の高さ比、105に対する106の高さ比、107に対する108の高さ比、および、102に対する109の高さ比)はほぼ等しい。   For example, in FIG. 1, in the waveform of both the first and second individuals, the height ratio of the + A peak to the true peak (104 high to 100 high) in both the first and second peak masses. The height ratio, the height ratio of 106 to 105, the height ratio of 108 to 107, and the height ratio of 109 to 102) are approximately equal.

・特徴3 真のピーク、Stutterピークおよび+Aピークとしてありうる断片長は既知である場合が多い。
あるマーカーの遺伝子型判定を行なう場合、そのマーカーでありうるアリル型は十分に調べられて既知である場合が多い。従って、アリル型(真のピーク)としてありうる断片長を基準に左右にunit長の整数倍の断片長がStutterピークとしてありうる断片長であり、元のピーク(真のピーク又はStutterピーク)の断片長に1塩基足した断片長が+Aピークとしてありうる断片長である。例えば、unit長が2塩基のマーカーにおいて真のピークとして44塩基がありうる場合、44−2=42塩基や44+2=46塩基などがStutterピークとしてありうる断片長となり、42+1=43塩基、44+1=45塩基や46+1=47塩基などが+Aピークとしてありうる断片長となる。
Feature 3 Fragment lengths that can be true peaks, Stutter peaks, and + A peaks are often known.
When genotyping a certain marker, the allyl type that can be the marker is often well examined and known. Therefore, the fragment length that is an integral multiple of the unit length on the left and right is the fragment length that can be used as the Stutter peak, based on the fragment length that can be used as the allyl type (true peak), and the original peak (true peak or Stutter peak) A fragment length obtained by adding one base to the fragment length is a fragment length that can be a + A peak. For example, in a marker whose unit length is 2 bases, there can be 44 bases as a true peak, 44-2 = 42 bases, 44 + 2 = 46 bases, etc. are fragment lengths that can be Stutter peaks, 42 + 1 = 43 bases, 44 + 1 = 45 bases, 46 + 1 = 47 bases, and the like are possible fragment lengths as + A peaks.

そこで、本発明者は上記の3点の特徴に着目した上で、あるマーカーについて、たとえその1回の処理で用いる個体群が少ない場合でもそのマーカーのStutterピークや+Aピークの特徴に関する十分な情報を得る方法及びシステムを、以下のような機能で実現することに想到した。本システムの使用者・操作者を以下、「ユーザ」と呼ぶ。尚、遺伝子型を判定する手法としては、真のピークに対する高さ比やStutterピークと+Aピークの高さ比を、真のピークに対するStutterピークや+Aピークの現れ方の傾向を計算するために利用する手法を採用する。   Therefore, the present inventor pays attention to the characteristics of the above three points, and is sufficient for the characteristics of the Stutter peak and the + A peak of the marker even if there is a small number of individuals used in the single processing. The inventors have come up with the idea of realizing a method and system for obtaining information with the following functions. The user / operator of this system is hereinafter referred to as a “user”. The genotype is determined by calculating the ratio of the height to the true peak and the height ratio of the Stutter peak and the + A peak, and the tendency of the appearance of the Stutter peak and + A peak to the true peak. Adopt the method used for

機能1−1:真のピークに対するStutterピークの高さの比に関するデータベースの拡張機能
真のピークに対するStutterピークの高さ比の再現性を考慮すると、毎回の個体群の波形情報をデータベースに追加していくことで、あるマーカーについての処理を重ねるほど、より豊富な数の個体数のもとで、Stutterピークの現れ方や特徴としての高さ比の情報を統計的により安定した情報として利用できるシステムとなる。ただし、毎回の全ての個体群の全ての高さ比をそのまま追加登録するのではなく、その回の処理に用いた個体群の中でのはずれ値の検出、及びデータベースに格納されている全データに対するはずれ値の検出を行なって、追加登録するデータをフィルタリングしておくことが、統計的により安定したデータを蓄積したデータベースを構築する上で必要である。2通りの検証によるフィルタリングを行なう。
Function 1-1: Database expansion function regarding the ratio of Stutter peak height to true peak Considering the reproducibility of Stutter peak height ratio to true peak, the waveform information of each individual population is added to the database. By doing so, the more the number of individuals that are processed, the more abundant number of individuals can be used as statistically stable information on the appearance of Stutter peaks and the characteristic height ratio information. System. However, instead of registering all height ratios of all populations every time as they are, detection of outliers in the population used for the processing at that time and all data stored in the database In order to construct a database that accumulates statistically more stable data, it is necessary to detect outliers and filter the data to be additionally registered. Filter by two kinds of verification.

1つ目のフィルタリングは、各回の個体群の高さ比全体の分散値について検証することで行なう。各回の個体群の高さ比全体の分散値について、ユーザは閾値を定義できるものとする。この閾値を用いて、その個体群の高さ比の分散値が閾値以下であるかどうかを検証する。分散値が閾値以下の場合にそれらの高さ比を全て追加登録するものとし、分散値が閾値より大きい場合はその旨を表示(後述する図6のステップ603)し、それらの高さ比を1つも追加登録しないものとする。(後述するように、図14は、個体群の全ての高さ比の分散値が閾値より大きい旨の表示例である。)   The first filtering is performed by verifying the variance value of the entire height ratio of each individual group. It is assumed that the user can define a threshold value for the variance value of the entire height ratio of the individual group. Using this threshold value, it is verified whether the variance of the height ratio of the individual group is equal to or less than the threshold value. When the variance value is less than or equal to the threshold value, all the height ratios are additionally registered. When the variance value is greater than the threshold value, this is displayed (step 603 in FIG. 6 described later), and the height ratio is set. No additional registration shall be made. (As will be described later, FIG. 14 is a display example indicating that the variance value of all the height ratios of the population is larger than the threshold value.)

また2つ目のフィルタリングは、各回の個体群の各個体の高さ比の平均値に着目し、各個体の高さ比の平均値が全データの標準偏差に対してどの範囲にあるかを検証することで行なう。ここでの全データとは、データベース内に格納されている全データに加え、この回の個体群を併せた全てを指し、全データの高さ比の平均値と標準偏差を求める(後述する図6のステップ602)。各個体の観察波形の高さ比の平均値が(全データの平均値)±2×(全データの標準偏差)の範囲にある場合のみ、その個体の高さ比を追加登録する。ある高さ比がその範囲外であれば、データベースへ追加登録しないものとする。   The second filtering focuses on the average value of the individual height ratios of each individual group, and in what range the average value of the individual height ratios is relative to the standard deviation of all data. This is done by verifying. The total data here refers to all data stored in the database and all the individual populations at this time, and the average value and standard deviation of the height ratio of all the data are obtained (the figure to be described later). 6 step 602). Only when the average value of the height ratio of the observed waveform of each individual is in the range of (average value of all data) ± 2 × (standard deviation of all data), the height ratio of that individual is additionally registered. If a certain height ratio is outside the range, no additional registration is made in the database.

以上の2通りの検証によるフィルタリングにおいて、妥当とされたものはデータベースへ追加される。この機能により、妥当とされる判定結果のみを用いて高さ比のデータベースを拡充することが可能となる。   In the filtering based on the above two verifications, those that are validated are added to the database. With this function, it is possible to expand the height ratio database using only valid determination results.

ここでは、観察波形がはずれ値であるかどうかを判定してフィルタリングするために全高さ比の平均値と標準偏差による95%信頼区間を用いているが、判定方法の基準の取り方や統計量の選択の仕方は、この限りではない。   Here, a 95% confidence interval based on the average value of the total height ratio and the standard deviation is used to determine whether or not the observed waveform is an outlier, and to perform filtering. This is not the only way to choose.

機能1−2:真のピークに対するStutterピークの高さの比に関する、はずれ値の検出機能
機能1−1において、1つ目または2つ目のフィルタリングにおいて妥当とされなかったものは、2通りの検証結果とともにはずれ値として警告を表示する。この機能により、各回の個体群の遺伝子型の判定結果が妥当かどうかを確認することが可能となる。
Function 1-2: Outlier detection function regarding the ratio of the height of the Stutter peak to the true peak In the function 1-1, there are two types that were not validated in the first or second filtering. A warning is displayed as an outlier with the verification result. This function makes it possible to check whether the genotype determination result of each population is valid.

機能2−1:真のピークに対する+Aピークの高さの比に関する、データベースの拡張機能
真のピークに対する+Aピークの高さ比の再現性を考慮すると、毎回の個体群の波形情報をデータベースに追加していくことで、あるマーカーについての処理を重ねるほど、より豊富な数の個体数のもとで、+Aピークの現れ方や特徴としての高さ比の情報を統計的により安定した情報として利用できるシステムとなる。ただし、毎回の全ての個体群の全ての高さ比をそのまま追加登録するのではなく、その回の処理に用いた個体群の中でのはずれ値の検出、及びデータベースに格納されている全データに対するはずれ値の検出を行なって、追加登録するデータをフィルタリングしておくことが、統計的により安定したデータを蓄積したデータベースを構築する上で必要である。2通りの検証によるフィルタリングを行なう。
Function 2-1: Database expansion function for the ratio of the height of + A peak to the true peak Considering the reproducibility of the height ratio of the + A peak to the true peak, the waveform information of each individual population is database By adding to the above, the more the number of individuals is processed, the more stable the statistical information about how the + A peak appears and the characteristic height ratio. The system can be used as information. However, instead of registering all height ratios of all populations every time as they are, detection of outliers in the population used for the processing at that time and all data stored in the database In order to construct a database that accumulates statistically more stable data, it is necessary to detect outliers and filter the data to be additionally registered. Filter by two kinds of verification.

1つ目のフィルタリングは、各回の個体群の高さ比全体の分散値について検証することで行なう。各回の個体群の高さ比全体の分散値について、ユーザは閾値を定義できるものとする。この閾値を用いて、その個体群の高さ比の分散値が閾値以下であるかどうかを検証する。分散値が閾値以下の場合にそれらの高さ比を全て追加登録するものとし、分散値が閾値より大きい場合は、その旨を表示(後述する図7のステップ703)し、それらの高さ比を1つも追加登録しないものとする。(後述するように、図15は、個体群の全ての高さ比の分散値が閾値より大きい旨の表示例である。)   The first filtering is performed by verifying the variance value of the entire height ratio of each individual group. It is assumed that the user can define a threshold value for the variance value of the entire height ratio of the individual group. Using this threshold value, it is verified whether the variance of the height ratio of the individual group is equal to or less than the threshold value. If the variance value is less than or equal to the threshold value, all of those height ratios are additionally registered. If the variance value is greater than the threshold value, a message to that effect is displayed (step 703 in FIG. 7 described later), and the height ratios are displayed. No additional registration is made. (As will be described later, FIG. 15 is a display example showing that the variance value of all the height ratios of the population is larger than the threshold value.)

また2つ目のフィルタリングは、各回の個体群の各個体の高さ比の平均値に着目し、各個体の観察波形の高さ比の平均値が全データの標準偏差に対してどの範囲にあるかを検証することで行なう。ここでの全データとは、データベース内に格納されている全データに加え、この回の個体群を併せた全てを指し、全データの高さ比の平均値と標準偏差を求める(後述する図7のステップ702)。各個体の高さ比の平均値が(全データの平均値)±2×(全データの標準偏差)の範囲にある場合のみ、その個体の高さ比を追加登録する。ある高さ比がその範囲外であれば、データベースへ追加登録しないものとする。   The second filtering focuses on the average value of the height ratio of each individual in each population, and in what range the average value of the height ratio of each individual observation waveform is relative to the standard deviation of all data. This is done by verifying that it exists. The total data here refers to all data stored in the database and all the individual populations at this time, and the average value and standard deviation of the height ratio of all the data are obtained (the figure to be described later). 7 702). Only when the average value of the height ratio of each individual is in the range of (average value of all data) ± 2 × (standard deviation of all data), the height ratio of that individual is additionally registered. If a certain height ratio is outside the range, no additional registration is made in the database.

以上の2通りの検証によるフィルタリングにおいて、妥当とされたものはデータベースへ追加される。この機能により、妥当とされる判定結果のみを用いて高さ比のデータベースを拡充することが可能となる。   In the filtering based on the above two verifications, those that are validated are added to the database. With this function, it is possible to expand the height ratio database using only valid determination results.

ここでは、観察波形がはずれ値であるかどうかを判定してフィルタリングするために全高さ比の平均値と標準偏差による95%信頼区間を用いているが、判定方法の基準の取り方や統計量の選択の仕方は、この限りではない。   Here, a 95% confidence interval based on the average value of the total height ratio and the standard deviation is used to determine whether or not the observed waveform is an outlier, and to perform filtering. This is not the only way to choose.

機能2−2:真のピークに対する+Aピークの高さの比に関する、はずれ値の検出機能
機能2−1において、1つ目または2つ目のフィルタリングにおいて妥当とされなかったものは、2通りの検証結果とともにはずれ値として警告を表示する。この機能により、各回の個体群の遺伝子型の判定結果が妥当かどうかを確認することが可能となる。
Function 2-2: Outlier detection function regarding the ratio of the height of the + A peak to the true peak In the function 2-1, there are two types that were not validated in the first or second filtering. A warning is displayed as an outlier along with the verification result. This function makes it possible to check whether the genotype determination result of each population is valid.

機能3−1:各回の個体群の断片長値情報の追加による、データベースの拡張機能
真のピーク、Stutterピークおよび+Aピークとしてありうる断片長は既知である場合が多いことを考慮すると、あるマーカーについて処理した個体群で検出されたピークの断片長値のうち妥当と判定されるものをデータベースに格納しておく。そうすれば、各回のある個体で検出したピークの断片長値が妥当かどうかを、データベースに格納されている同じマーカーにおいて検出されうるピークの断片長値の範囲内であるかどうかを調べることにより検証可能である(後述する図8のステップ806)。
Function 3-1: Expanded database function by adding fragment length value information of each time population. Considering that fragment lengths that can be true peaks, Stutter peaks, and + A peaks are often known. Of the fragment length values of the peaks detected in the individual group processed for the marker, those determined to be valid are stored in the database. By doing so, by examining whether the fragment length value of the peak detected in an individual in each round is valid, whether it is within the range of the peak fragment length value that can be detected in the same marker stored in the database Verification is possible (step 806 in FIG. 8 described later).

各回のある個体(検証対象の個体)について得られたピーク情報とデータベース内に格納されているピーク情報との比較は、ユーザがあらかじめ定義したレコード数以上の同じアリルに関するデータがデータベース内に格納されている場合に行なうものとする。   The comparison between the peak information obtained for each individual (individual to be verified) and the peak information stored in the database is stored in the database with the same allele data more than the number of records predefined by the user. Shall be done if

最初に真のピークについて行なう。真のピークどうしが一致した場合、その左右のStutterピークや+Aピークについても検証する。あるStutterピーク又は+Aピークの断片長情報がデータベース内に格納されているが検証対象の個体には検出されない場合、逆に断片長情報がデータベース内に格納されていないが検証対象の個体には検出される場合、システムはユーザに対して警告を表示する。特にあるStutterピーク又は+Aピークの断片長情報がデータベース内に格納されていないが検証対象の個体には検出される場合には単にデータベース内に格納されていないという警告を表示するだけでなく、特徴3で述べた通り、そのマーカーのunit長と真のピークの断片長と比較して、それが「ピークの発生原因の知見」に照合して「ありうる」ピークの断片長値なのかどうかも検証し、その検証結果情報も警告表示に併せて表示する。ここでの「ピークの発生原因の知見」とは、Stutterピークは真のピークの断片長値を基準に左右にunit長の整数倍の断片長値に発生すること、+Aピークは元のピーク(真のピーク又はStutterピーク)の断片長値に1塩基足した断片長値に発生するという知見を指す。   Start with the true peak. If true peaks match, verify the left and right Stutter peaks and + A peaks. If fragment length information of a certain Stutter peak or + A peak is stored in the database but not detected in the individual to be verified, conversely, the fragment length information is not stored in the database, but the individual to be verified If detected, the system displays a warning to the user. Especially when the fragment length information of a certain Stutter peak or + A peak is not stored in the database but is detected in the individual to be verified, not only a warning that it is not stored in the database is displayed, Compared with the unit length of the marker and the fragment length of the true peak, as described in Feature 3, whether it is the fragment length value of the “possible” peak compared to “knowledge of the cause of the peak” The verification result information is also displayed along with the warning display. The “knowledge of the cause of the peak” here means that the Stutter peak occurs at a fragment length value that is an integral multiple of the unit length to the left and right based on the fragment length value of the true peak, and the + A peak is the original peak It refers to the finding that it occurs in the fragment length value obtained by adding one base to the fragment length value of (true peak or Stutter peak).

以上の検証において、妥当とされたものはデータベースへ追加される。この機能により、妥当とされる判定結果のみを用いて断片長のデータベースを拡充することが可能となる。   In the above verification, those validated are added to the database. With this function, it is possible to expand a fragment length database using only valid determination results.

機能3−2:各回の個体群の断片長値情報の追加によるはずれ値の検出機能
機能3−1において、妥当とされなかったものは、検証結果とともにはずれ値として警告を表示する。この機能により、各回の個体群の遺伝子型の判定結果が妥当かどうかを確認することが可能となる。
Function 3-2: Detection of outliers by addition of fragment length value information for each time population In the case of function 3-1 which is not valid, a warning is displayed as an outlier along with the verification result. This function makes it possible to check whether the genotype determination result of each population is valid.

以上のような諸機能の実現形態として、本発明は、次のような遺伝子型判定結果の評価システムを提供するものである。   The present invention provides the following evaluation system for genotype determination results as a form of realizing the various functions as described above.

マイクロサテライトを含むDNA断片のPCR増幅産物について長さを分析した結果を表示するシステムであって、前記PCR増幅産物の検出シグナルを、検出シグナル強度及び断片長を軸にとってグラフ表示するグラフ表示処理部と、前記PCR増幅産物の検出シグナルにおいて、DNA断片端に1つのアデニンが付加したPCR増幅産物の検出シグナルに対応する+Aピークと、+Aピーク以外のピークとを判定する第1の判定処理部と、前記PCR増幅産物の検出シグナルにおいて、前記DNA断片のPCR増幅産物の検出シグナルに対応する真のピークと、マイクロサテライトの繰り返し配列が1単位以上増加又は減少したPCR増幅産物の検出シグナルに相当するStutterピークとを判定する第2の判定処理部と、前記+Aピークと+Aピーク以外のピークとの判定結果、及び前記真のピークとStutterピークとの判定結果を前記グラフとともに表示する判定結果表示処理部とを有するシステムにおいて、さらに、複数の個体について、マイクロサテライトを含むDNA断片のPCR増幅産物について長さを分析した結果を蓄積したデータベースを有しており、前記第1の判定処理部及び第2の判定処理部による判定結果に対して、以下のうち少なくとも1つの判断基準に基づいて、判定結果の評価を行うことを特徴とするシステム。   A system for displaying the result of analyzing the length of a PCR amplification product of a DNA fragment containing microsatellite, and displaying the detection signal of the PCR amplification product in a graph with the detection signal intensity and the fragment length as axes. And a first determination process for determining a + A peak corresponding to the detection signal of the PCR amplification product in which one adenine is added to the end of the DNA fragment and a peak other than the + A peak in the detection signal of the PCR amplification product In the detection signal of the PCR amplification product, the true peak corresponding to the detection signal of the PCR amplification product of the DNA fragment, and the detection signal of the PCR amplification product in which the repetitive sequence of the microsatellite is increased or decreased by 1 unit or more. A second determination processing unit for determining the corresponding Stutter peak, the + A peak and the + A peak And a determination result display processing unit for displaying the determination result of the true peak and the Stutter peak together with the graph, and further, for a plurality of individuals, a DNA fragment containing microsatellite It has a database that accumulates the results of analyzing the length of PCR amplification products, and the determination result by the first determination processing unit and the second determination processing unit is based on at least one of the following criteria A system characterized in that a determination result is evaluated based on the evaluation result.

(1)判定された真のピークとStutterピークとの高さ比は、前記データベースに蓄積された複数個体についての同比と著しく異なっていないか。
(2)判定された真のピークと+Aピークとの高さ比は、前記データベースに蓄積された複数個体についての同比と著しく異なっていないか。
(3)判定された真のピーク、Stutterピーク及び+Aピークの断片長は、前記データベースに蓄積された複数個体についての同長さと著しく異なっていないか。
(1) Is the height ratio between the determined true peak and the Stutter peak not significantly different from the same ratio for a plurality of individuals accumulated in the database?
(2) Is the height ratio between the determined true peak and + A peak not significantly different from the same ratio for a plurality of individuals accumulated in the database?
(3) Are the determined true peak, Stutter peak, and + A peak fragment lengths not significantly different from the same length for multiple individuals accumulated in the database?

本発明の遺伝子型判定結果の評価システムにおいて、前記データベースは、さらに、個体ごとに前記分析結果とともに前記分析を行った際の実験プロトコルを蓄積しており、前記判定結果の評価においては、前記データベースに蓄積されたデータのうち、判定対象と実験プロトコルが所定程度一致するデータのみを前記判断基準に用いることを特徴とする。   In the evaluation system for genotyping results of the present invention, the database further stores an experimental protocol when the analysis is performed together with the analysis results for each individual. In the evaluation of the determination results, the database Of the data stored in the database, only data for which the determination target and the experimental protocol match to a certain extent are used as the determination criterion.

本発明の遺伝子型判定結果の評価システムにおいて、前記判定結果の評価において判定結果が妥当であると評価された場合には、当該判定対象の分析結果を前記データベースに蓄積することを特徴とする。   In the evaluation system for genotype determination results of the present invention, when the determination result is evaluated to be valid in the evaluation of the determination result, the analysis result of the determination target is stored in the database.

以上で説明したように、本発明の遺伝子型判定結果の評価方法及び評価システムによれば、PCR増幅産物の蛍光分析結果を示すグラフについてStutterピークや+Aピークのノイズピークから真のピークを判定する処理において、過去に同マーカーの同アリルで処理したデータが十分ある場合には、ある1回の処理で用いる個体数が十分に多くない場合でもノイズピークの特徴の情報に関する質の高い情報を得ることができるとともに、その回の処理で用いた個体群及びその遺伝子型の判定結果が妥当か妥当でないか(はずれ値であるか)の情報も併せて得ることができる。これにより、各回の個体群に対する遺伝子型判定処理を、個体数が少なくても余計な実験・処理コストを加えることなしに精度高く行なうことが可能になる。   As described above, according to the evaluation method and evaluation system of the genotyping result of the present invention, the true peak is determined from the noise peak of the Stutter peak or + A peak for the graph showing the fluorescence analysis result of the PCR amplification product. If there is enough data processed with the same allele of the same marker in the past, even if the number of individuals used in a single process is not large enough, high-quality information on noise peak feature information It is possible to obtain information on whether the determination result of the population and the genotype used in the processing at that time are valid or invalid (whether they are outliers). As a result, the genotype determination process for each individual group can be performed with high accuracy without adding extra experiment and processing costs even if the number of individuals is small.

以下、添付図面を参照しながら、本発明の遺伝子型判定結果の評価方法及び評価システムを実施するための最良の形態を詳細に説明する。図2〜図17は、本発明の実施の形態を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表わし、基本的な構成及び動作は同様であるものとする。   Hereinafter, the best mode for carrying out the genotyping result evaluation method and evaluation system of the present invention will be described in detail with reference to the accompanying drawings. 2 to 17 are diagrams illustrating embodiments of the present invention. In these drawings, the same reference numerals denote the same components, and the basic configuration and operation are the same. To do.

システム構成
図2は、本発明の一実施形態として構築される遺伝子型判定結果の評価システムの内部構成を概略的に示す機能ブロック図である。この遺伝子型判定結果の評価システムは、各回のPCR及び電気泳動実験の後PCR増幅産物を蛍光分析した結果得られる波形データ(対象個体群の波形データ)を保存した波形データDB200、波形データ及びその遺伝子型判定結果を表示するための表示装置201、表示された波形データや遺伝子型判定結果に対して個体やピークを選択するなどの操作を行うためのキーボード202とマウスなどのポインティングデバイス203、必要な演算処理、制御処理等を行う中央処理装置204、さらに過去に行なった処理で用いた波形データでの高さ比を格納したDB205を備えている。
System Configuration FIG. 2 is a functional block diagram schematically showing the internal configuration of the genotype determination result evaluation system constructed as an embodiment of the present invention. This evaluation system for genotyping results includes a waveform data DB 200 storing waveform data (waveform data of a target population) obtained as a result of fluorescence analysis of PCR amplification products after each PCR and electrophoresis experiment, Display device 201 for displaying genotyping results, keyboard 202 for performing operations such as selecting individuals and peaks for the displayed waveform data and genotyping results, and pointing device 203 such as a mouse, necessary A central processing unit 204 that performs various arithmetic processing, control processing, and the like, and a DB 205 that stores height ratios of waveform data used in processing performed in the past.

中央処理装置204は、波形データに現れるピークを遺伝子型判定処理の中で元のピークと+Aピークの対に組分けする+Aピーク分離処理部206と、遺伝子型判定処理の中で元のピークが真のピークであるかStutterピークであるかを判定する真のピーク分離処理部207と、上記の機能1、機能2または機能3において、妥当とされた個体をデータベースへ追加し、処理対象の個体群あるいは各個体が全データに対してはずれ値である旨を表示する警告表示処理部208を含んでいる。波形データDB200と、過去に行なった処理で用いた波形データでの高さ比を格納したDB205とは、それぞれ、個体毎に波形データを保持する個体の波形データ209と、各波形データについてピークデータを保持するピークデータ210と、実験プロトコル入力データ211とを含んでいる。   The central processing unit 204 groups a peak appearing in the waveform data into a pair of the original peak and the + A peak in the genotyping process, and a + A peak separation processing unit 206, and the original peak in the genotyping process. A true peak separation processing unit 207 for determining whether a peak is a true peak or a Stutter peak, and an individual validated in the above function 1, function 2 or function 3 is added to the database and processed A warning display processing unit 208 is displayed for displaying that the individual group or each individual is an outlier for all data. The waveform data DB 200 and the DB 205 storing the height ratio of the waveform data used in the processing performed in the past are the individual waveform data 209 that holds the waveform data for each individual, and the peak data for each waveform data. Peak data 210 and experimental protocol input data 211 are included.

図3は、波形データDB200や過去に行なった処理で用いた波形データでの高さ比を格納したDB205に含まれる個体毎の波形データ構造群を示す図である。この波形データ構造群WaveFormData[]は、j個の個体群について、それぞれの個体が各個体を識別する個体ID300、波形データ301(図4に示すデータ相当)、真のピークとその+Aピークの比のデータ302、実験プロトコル情報303を含んでいる。データ302に格納されている値は、波形データに関する計算がまだ行なわれていない時点ではNULL値である。   FIG. 3 is a diagram showing a waveform data structure group for each individual included in the waveform data DB 200 and the DB 205 storing the height ratio of the waveform data used in the processing performed in the past. This waveform data structure group WaveFormData [] includes, for each of j individual groups, an individual ID 300 for identifying each individual, waveform data 301 (corresponding to the data shown in FIG. 4), a true peak, and its + A peak. Ratio data 302 and experimental protocol information 303 are included. The value stored in the data 302 is a null value when the calculation related to the waveform data has not yet been performed.

図4は、波形データDB200や過去に行なった処理で用いた波形データでの高さ比を格納したDB205に含まれる波形データのピークデータ構造群を示す図である。このデータ構造群PeakData[]は、k個のピークについて、各ピークの断片長400、各ピークの高さ401、各ピークが真のピークか真のピークの+Aピークか、それ以外のStutterピークか+Aピークかを表わすラベル402のデータを含んでいる。データ402には、真のピークの場合は“Selected”が、真のピークの+Aピークの場合は“Selected +A”が、真のピークでないStutterピークの場合は“Stutter”が、真のピークでないStutterピークに対する+Aピークの場合は“+A”が格納されている。   FIG. 4 is a diagram showing a peak data structure group of waveform data included in the waveform data DB 200 and the DB 205 storing the height ratio of the waveform data used in the processing performed in the past. This data structure group PeakData [] includes, for k peaks, a fragment length 400 of each peak, a height 401 of each peak, whether each peak is a true peak or a true peak + A peak, or other Stutter peaks Or the data of the label 402 representing the + A peak. The data 402 includes “Selected” for a true peak, “Selected + A” for a true peak + A peak, and “Stutter” for a stutter peak that is not a true peak. “+ A” is stored in the case of the + A peak for the non-Stutter peak.

システムによる処理手順
次に、この遺伝子型判定結果の評価システムにおいて行われる処理の流れについて、図5、図6、図7、図8に示すフローチャートを参照しながら説明する。
Processing Procedure by System Next, the flow of processing performed in this genotype determination result evaluation system will be described with reference to the flowcharts shown in FIG. 5, FIG. 6, FIG. 7, and FIG.

まず、波形データDB200から、各個体の波形データが読み込まれる(ステップ500)。ここでは、波形データDB200に記憶されている対象マイクロサテライトマーカーについての全個体の波形データが読み込まれ、波形データDB200や過去に行なった処理で用いた波形データでの高さ比を格納したDB205において個体の波形データ209及びピークデータ210として保持されることとなる。また実験プロトコルの入力データが読み込まれ、波形データDB200や過去に行なった処理で用いた波形データでの高さ比を格納したDB205において実験プロトコルの入力データ211として保持されることになる。次に、それぞれの個体について、+Aピークと元のピークとを組分けする(ステップ501)。この処理は、中央処理装置204の+Aピーク分離処理部206により実行されるものであり、ピークの判定方法は従来技術を利用したものである。+Aピークと判断されたピークについてはピークデータ210のピークラベル402に+Aピークであることを示す値が書き込まれ、また、元のピークと判断されたピークについてはピークデータ210のピークラベル402に真のピークまたはStutterピークであることを示す値が書き込まれる。また、組分けされた各組の元のピークとその+Aピークの高さの比がピークデータ210のデータ302に書き込まれる。さらに実験プロトコルの入力データがデータ303に書き込まれる。   First, the waveform data of each individual is read from the waveform data DB 200 (step 500). Here, the waveform data of all individuals for the target microsatellite marker stored in the waveform data DB 200 is read, and in the waveform data DB 200 and the DB 205 storing the height ratio in the waveform data used in the processing performed in the past. Individual waveform data 209 and peak data 210 are held. The experimental protocol input data is read and held as the experimental protocol input data 211 in the waveform data DB 200 or the DB 205 storing the height ratio of the waveform data used in the processing performed in the past. Next, the + A peak and the original peak are grouped for each individual (step 501). This process is executed by the + A peak separation processing unit 206 of the central processing unit 204, and the peak determination method uses a conventional technique. For a peak determined to be a + A peak, a value indicating that it is a + A peak is written in a peak label 402 of the peak data 210, and for a peak determined to be an original peak, a peak label 402 of the peak data 210 is written. Is written with a value indicating that it is a true peak or a Stutter peak. Further, the ratio of the height of the original peak of each group and the + A peak is written in the data 302 of the peak data 210. Further, experimental protocol input data is written to data 303.

このようにして各個体の波形データに含まれるピークを元のピークとその+Aピークとに組分けした結果は、図9に示すように波形として表示される(ステップ502)。図9に示す表示画面には、ある個体の波形データについて各ピークを元のピークと+Aピークとに組分けした結果900と、各ピークの組の断片長及び高さ比を示したテーブル901と、最も高いピークを+Aピークとしない場合/する場合のそれぞれの組分け方法による各高さ比の分散値の計算結果902とが表示されている。   The result of grouping the peaks included in the waveform data of each individual in this way into the original peak and its + A peak is displayed as a waveform as shown in FIG. 9 (step 502). The display screen shown in FIG. 9 shows a result 900 obtained by grouping each peak into the original peak and + A peak for the waveform data of a certain individual, and a table 901 showing the fragment length and height ratio of each peak group. And the calculation result 902 of the dispersion value of each height ratio according to each grouping method when the highest peak is not the + A peak is displayed.

続いて、ステップ501において+Aピーク以外のピーク(元のピーク)であると判定されたピークのそれぞれについて、真のピークであるかStutterピークであるかが判定される(ステップ503)。この処理は、中央処理装置204の真のピーク分離処理部207により実行されるものであり、ピークの判定方法は従来技術を利用したものである。各ピークの判定結果は、ピークデータ210のピークラベル402に書き込まれる。また、各個体について真のピークとその+Aピークとの高さ比が算出され、個体の波形データ209のデータ302の各要素値として順次追加される。   Subsequently, for each peak determined to be a peak other than the + A peak (original peak) in Step 501, it is determined whether it is a true peak or a Stutter peak (Step 503). This processing is executed by the true peak separation processing unit 207 of the central processing unit 204, and the peak determination method uses a conventional technique. The determination result of each peak is written in the peak label 402 of the peak data 210. In addition, the height ratio between the true peak and the + A peak is calculated for each individual, and sequentially added as each element value of the data 302 of the waveform data 209 of the individual.

このようにして各個体の波形データに含まれる元のピークを真のピークとStutterピークとに判定した結果は、図10に示すようにしてグラフ表示される。図10に示す表示画面には、ある個体の波形データについて各ピークを+Aピークと真のピークとStutterピークとに判定した結果1000と、各ピークの組の断片長及び高さ比を示したテーブル1001と、最も高いピークを+Aピークとしない場合/する場合のそれぞれの組分け方法による各高さ比の分散値の計算結果1002と、真のピークと各+Aピークとの高さ比1003とが表示されている。   The result of determining the original peak included in the waveform data of each individual as the true peak and the Stutter peak in this way is displayed in a graph as shown in FIG. The display screen shown in FIG. 10 shows the result 1000 of determining each peak as + A peak, true peak and Stutter peak for the waveform data of a certain individual, and the fragment length and height ratio of each peak set. Table 1001, calculation result 1002 of the dispersion value of each height ratio according to each grouping method when the highest peak is not + A peak, and the height ratio between the true peak and each + A peak 1003 is displayed.

続くステップ504の真のピークと各Stutterピークの高さの比が妥当かどうかの確認処理(図6に示す、後に説明する処理)において、真のピークと各Stutterピークの高さの比がDB205に格納されている対応する値と比較して大きく外れている(妥当でない)と判定する場合には、中央処理装置204の警告表示処理部208により、所定の警告が表示される(図6のステップ610における処理)。この場合の警告表示画面の例を図11に示す。図11に示す警告表示画面には、ある個体の波形データについて各ピークを+Aピークと真のピークとStutterピークとに判定した結果1100と、各ピークの組の断片長及び高さ比を示したテーブル1101と、最も高いピークを+Aピークとしない場合/する場合のそれぞれの組分け方法による各高さ比の分散値の計算結果1102と、真のピークと各+Aピークとの高さ比1103と、この個体及び他の個体における真のピークと各Stutterピークとの高さ比のヒストグラムと所定の警告表示1104とが表示されている。   In the subsequent confirmation processing of whether or not the ratio of the true peak to the height of each Stutter peak in step 504 (the process described later shown in FIG. 6), the ratio of the height of the true peak to each Stutter peak is DB205. 6, the warning display processing unit 208 of the central processing unit 204 displays a predetermined warning (see FIG. 6). Process in step 610). An example of the warning display screen in this case is shown in FIG. The warning display screen shown in FIG. 11 shows the result of determining each peak as + A peak, true peak, and Stutter peak for the waveform data of a certain individual, and the fragment length and height ratio of each peak set. Table 1101, the calculation result 1102 of the dispersion value of each height ratio by each grouping method when the highest peak is not + A peak, and the height of the true peak and each + A peak A ratio 1103, a histogram of the height ratio between the true peak and each Stutter peak in this individual and other individuals, and a predetermined warning display 1104 are displayed.

続くステップ505の真のピークと各+Aピークの高さの比が妥当かどうかの確認処理(図7に示す、後に説明する処理)において、真のピークと各+Aピークの高さの比がDB205に格納されている対応する値と比較して大きく外れている(妥当でない)と判定する場合には、中央処理装置204の警告表示処理部208により、所定の警告が表示される(図7のステップ710における処理)。この場合の警告表示画面の例を図12に示す。図12に示す警告表示画面には、ある個体の波形データについて各ピークを+Aピークと真のピークとStutterピークとに判定した結果1200と、各ピークの組の断片長及び高さ比を示したテーブル1201と、最も高いピークを+Aピークとしない場合/する場合のそれぞれの組分け方法による各高さ比の分散値の計算結果1202と、真のピークと各+Aピークとの高さ比1203と、この個体及び他の個体における真のピークと各+Aピークとの高さ比のヒストグラムと所定の警告表示1204とが表示されている。   In the subsequent confirmation processing (step 505 shown in FIG. 7, which will be described later) for checking whether the ratio of the height of the true peak to each + A peak is appropriate in step 505, the ratio between the height of the true peak and each + A peak Is determined to be significantly different (invalid) from the corresponding value stored in the DB 205, the warning display processing unit 208 of the central processing unit 204 displays a predetermined warning (FIG. 7 in step 710). An example of the warning display screen in this case is shown in FIG. The warning display screen shown in FIG. 12 shows the result 1200 of determining each peak as + A peak, true peak and Stutter peak for the waveform data of a certain individual, and the fragment length and height ratio of each peak set. Table 1201, the calculation result 1202 of the dispersion value of each height ratio by each grouping method when the highest peak is not + A peak, and the height of the true peak and each + A peak A ratio 1203, a histogram of the height ratio between the true peak and each + A peak in this individual and other individuals, and a predetermined warning display 1204 are displayed.

最後のステップ506の元のピークと+Aピークの断片長値が妥当かどうかの確認処理(図8に示す、後に説明する処理)の結果、元のピークまたは+Aピークの断片長値がDB205に格納されている対応する値と比較して大きく外れている(妥当でない)と判定する場合には、中央処理装置204の警告表示処理部208により、所定の警告が表示される(図8のステップ810における処理)。この場合の警告表示画面の例を図13に示す。図13に示す警告表示画面には、ある個体の波形データについて各ピークを+Aピークと真のピークとStutterピークとに判定した結果1300と、各ピークの組の断片長及び高さ比を示したテーブル1301と、最も高いピークを+Aピークとしない場合/する場合のそれぞれの組分け方法による各高さ比の分散値の計算結果1302と、真のピークと各+Aピークとの高さ比1303と、この個体及び他の個体におけるあるピークの断片長値(この例では真のピークの断片長値)のヒストグラムと所定の警告表示1304とが表示されている。   As a result of the process of confirming whether or not the fragment length value of the original peak and the + A peak in the last step 506 is valid (the process described later in FIG. 8), the fragment length value of the original peak or + A peak is DB205. 8, a predetermined warning is displayed by the warning display processing unit 208 of the central processing unit 204 (see FIG. 8). Step 810). An example of the warning display screen in this case is shown in FIG. The warning display screen shown in FIG. 13 shows the result 1300 of determining each peak as + A peak, true peak and Stutter peak for the waveform data of an individual, and the fragment length and height ratio of each peak set. Table 1301, the calculation result 1302 of the dispersion value of each height ratio according to each grouping method when the highest peak is not + A peak, and the height of the true peak and each + A peak A ratio 1303, a histogram of fragment length values of a certain peak in this individual and other individuals (a fragment length value of a true peak in this example), and a predetermined warning display 1304 are displayed.

図6は、図5のステップ504における真のピークと各Stutterピークの高さ比の妥当性確認処理を詳細に示すフローチャートである。このフローチャートでは全個体分の処理を示している。まず、全個体に含まれる全ての高さ比の分散Vallを計算する(ステップ600)。そして、全ての高さ比の分散Vallがユーザが定義した値Vdef以下かどうかを判定する(ステップ601)。ステップ601での判定結果がNoであれば、個体群の全ての高さ比の分散値がはずれ値であることを表示する(ステップ603)。図14はステップ603で表示するダイアログの例を示し、警告メッセージとOKボタンを含む1400からなる。ステップ601での判定結果がYesであれば、個体群及びDB205に格納されている対応する全ての高さ比の平均値Aall及び標準偏差Sallを計算する(ステップ602)。   FIG. 6 is a flowchart showing in detail the validity confirmation processing of the height ratio between the true peak and each Stutter peak in step 504 of FIG. This flowchart shows processing for all individuals. First, the variance Vall of all height ratios included in all individuals is calculated (step 600). Then, it is determined whether or not the variance Vall of all height ratios is equal to or less than a value Vdef defined by the user (step 601). If the determination result in step 601 is No, it is displayed that the variance values of all the height ratios of the population are outliers (step 603). FIG. 14 shows an example of the dialog displayed in step 603, which consists of 1400 including a warning message and an OK button. If the determination result in step 601 is Yes, the average value Aall and the standard deviation Sall of all the height ratios stored in the population and the DB 205 are calculated (step 602).

続いて、全個体について以下に説明する処理をループして行なう(ステップ604とステップ609の間に含まれる処理)。まず、各個体についてその波形での高さ比の平均値Athisを計算する(ステップ605)。そして、Athisが先にステップ602にて計算済みのAall及びSallについてAall±2×Sallの範囲内であるかどうかを判定する(ステップ606)。判定結果がNoであればはずれ値の波形データとして蓄積し(ステップ608)、判定結果がYesであればDB205に追加登録する妥当な波形データとして蓄積する(ステップ607)。以上を全個体分ループして行ない、はずれ値の波形データ群とDB205に追加登録する妥当な波形データ群をそれぞれ蓄積する。最後に、はずれ値の波形データの情報を表示する(ステップ610)とともに、妥当と判定された波形データ群をDB205に追加登録する(ステップ611)。ステップ610で表示する画面は、ステップ504で述べたとおり図11に示す画面であり、この処理は機能1−2に該当する。また、ステップ611は機能1−1に該当する。   Subsequently, the processing described below is performed in a loop for all individuals (processing included between step 604 and step 609). First, the average value Athis of the height ratio in the waveform is calculated for each individual (step 605). Then, it is determined whether or not Athis is within the range of Aall ± 2 × Sall for Aall and Sall calculated in step 602 (step 606). If the determination result is No, it is stored as waveform data of an outlier (Step 608), and if the determination result is Yes, it is stored as valid waveform data to be additionally registered in the DB 205 (Step 607). The above is performed in a loop for all individuals, and a waveform data group of outliers and an appropriate waveform data group to be additionally registered in the DB 205 are accumulated. Finally, information on the waveform data of the outliers is displayed (step 610), and the waveform data group determined to be valid is additionally registered in the DB 205 (step 611). The screen displayed in step 610 is the screen shown in FIG. 11 as described in step 504, and this processing corresponds to function 1-2. Step 611 corresponds to function 1-1.

ここでは、観察波形がはずれ値であるかどうかを判定するために全高さ比の平均値と標準偏差による95%信頼区間を用いているが、判定方法の基準の取り方や統計量の選択の仕方は、この限りではない。   Here, a 95% confidence interval based on the average value of the total height ratio and the standard deviation is used to determine whether the observed waveform is an outlier. This is not the case.

図7は、図5のステップ505における真のピークと各+Aピークの高さ比の妥当性確認処理を詳細に示すフローチャートである。このフローチャートでは全個体分の処理を示している。まず、全個体に含まれる全ての高さ比の分散Vallを計算する(ステップ700)。そして、全ての高さ比の分散Vallがユーザが定義した値Vdef以下かどうかを判定する(ステップ701)。ステップ701での判定結果がNoであれば、個体群の全ての高さ比の分散値がはずれ値であることを表示する(ステップ703)。図15はステップ703で表示するダイアログの例を示し、警告メッセージとOKボタンを含む1500からなる。ステップ701での判定結果がYesであれば、個体群及びDB205に格納されている対応する全ての高さ比の平均値Aall及び標準偏差Sallを計算する(ステップ702)。   FIG. 7 is a flowchart showing in detail the validity confirmation process of the height ratio between the true peak and each + A peak in step 505 of FIG. This flowchart shows processing for all individuals. First, the variance Vall of all height ratios included in all individuals is calculated (step 700). Then, it is determined whether or not the variance Vall of all height ratios is equal to or less than a value Vdef defined by the user (step 701). If the determination result in step 701 is No, it is displayed that the variance values of all the height ratios of the population are outliers (step 703). FIG. 15 shows an example of a dialog displayed in step 703, which is composed of 1500 including a warning message and an OK button. If the determination result in Step 701 is Yes, the average value Aall and the standard deviation Sall of all the height ratios stored in the population and the DB 205 are calculated (Step 702).

続いて、全個体について以下に説明する処理をループして行なう(ステップ704とステップ709の間に含まれる処理)。まず、各個体についてその波形での高さ比の平均値Athisを計算する(ステップ705)。そして、Athisが先にステップ702にて計算済みのAall及びSallについてAall±2×Sallの範囲内であるかどうかを判定する(ステップ706)。ステップ706での判定結果がNoであればはずれ値の波形データとして蓄積し(ステップ708)、ステップ706での判定結果がYesであればDB205に追加登録する妥当な波形データとして蓄積する(ステップ707)。以上を全個体分ループして行ない、はずれ値の波形データ群をDB205に追加登録する妥当な波形データ群をそれぞれ蓄積する。最後に、はずれ値の波形データの情報を表示する(ステップ710)とともに、妥当と判定された波形データ群をDB205に追加登録する(ステップ711)。ステップ710で表示する画面は、ステップ505で述べたとおり図12に示す画面であり、この処理は機能2−2に該当する。また、ステップ711は機能2−1に該当する。   Subsequently, the processing described below is performed in a loop for all individuals (processing included between step 704 and step 709). First, for each individual, an average value Athis of the height ratio in the waveform is calculated (step 705). Then, it is determined whether or not Athis is within the range of Aall ± 2 × Sall for Aall and Sall calculated in step 702 (step 706). If the determination result in step 706 is No, it is stored as outlier waveform data (step 708), and if the determination result in step 706 is Yes, it is stored as valid waveform data to be additionally registered in the DB 205 (step 707). ). The above is performed in a loop for all individuals, and appropriate waveform data groups for additionally registering waveform data groups of outliers in the DB 205 are accumulated. Finally, information on the waveform data of the outliers is displayed (step 710), and the waveform data group determined to be valid is additionally registered in the DB 205 (step 711). The screen displayed in step 710 is the screen shown in FIG. 12 as described in step 505, and this processing corresponds to function 2-2. Step 711 corresponds to function 2-1.

図8は、図5のステップ506におけるそれぞれの元のピークまたは+Aピークの断片長値の妥当性確認処理を詳細に示すフローチャートである。このフローチャートでは全個体分の処理を示している。以下に説明する処理をループして行なう(ステップ800とステップ809の間に含まれる処理)。まず、DB205に登録済みの対応する同マーカー、同アリルの波形データ数(断片長値データ数)がユーザ定義値Ndef以上かどうかを判定する(ステップ801)。ステップ801での判定結果がNoであれば、DB205に登録済みの対応する波形データ数が定義値Ndef未満である旨のメッセージと波形を表示する(ステップ802)。図16は、ステップ802の表示画面の例を示し、波形データ表示部1600と警告メッセージ表示部1601を含む。同時に、観察波形データをDB205に追加登録するかどうかのユーザへの確認ダイアログを表示する(ステップ803)。図17はステップ802で表示する確認ダイアログの例を示し、この確認ダイアログは確認メッセージとYesボタン、Noボタンを含む1700からなる。ステップ803で表示する確認ダイアログで、ユーザが追加登録すること(Yes)を選択した場合には観察波形をデータベースへ格納する波形データとして蓄積する(ステップ804)。   FIG. 8 is a flowchart showing in detail the validity confirmation processing of the fragment length value of each original peak or + A peak in step 506 of FIG. This flowchart shows processing for all individuals. The processing described below is performed in a loop (processing included between step 800 and step 809). First, it is determined whether the number of waveform data (number of fragment length data) of the corresponding marker and allele registered in the DB 205 is equal to or greater than the user-defined value Ndef (step 801). If the determination result in step 801 is No, a message and a waveform indicating that the number of corresponding waveform data registered in the DB 205 is less than the defined value Ndef are displayed (step 802). FIG. 16 shows an example of the display screen in step 802, which includes a waveform data display unit 1600 and a warning message display unit 1601. At the same time, a confirmation dialog to the user as to whether to additionally register the observation waveform data in the DB 205 is displayed (step 803). FIG. 17 shows an example of a confirmation dialog displayed in step 802, which consists of 1700 including a confirmation message, a Yes button, and a No button. If the user selects additional registration (Yes) in the confirmation dialog displayed in step 803, the observed waveform is accumulated as waveform data to be stored in the database (step 804).

一方、ステップ801での判定結果がYesであれば、観察波形の各ピークをDB205に登録済みの対応する波形データの各ピークとの間で比較する(ステップ805)。そして観察波形とDB205に登録済みの対応する波形データの各ピークの断片長値が合致するかを判定する。この際には、一方にしか存在しないピークもありうるので、その場合には、機能3−1で述べたとおり、そのピークがStutterピークか+Aピークかに応じてピーク発生原因の知見に照合してピークの妥当性を踏まえた上で判定する(ステップ806)。判定結果がNoであれば、観察波形の波形データをはずれ値の波形データとしてその判定内容情報と併せて蓄積する(ステップ808)。判定結果がYesであれば、観察波形データをDB205に追加登録する波形データとして蓄積する(ステップ807)。以上を全個体分ループして行ない、はずれ値の波形データ群とDB205に追加登録する妥当な波形データ群をそれぞれ蓄積する。最後に、はずれ値の波形データの情報を表示する(ステップ810)とともに、妥当と判定された波形データ群をDB205に追加登録する(ステップ811)。ステップ810は機能3−2に該当する。また、ステップ811は機能3−1に該当する。   On the other hand, if the determination result in Step 801 is Yes, each peak of the observed waveform is compared with each peak of the corresponding waveform data registered in the DB 205 (Step 805). Then, it is determined whether or not the observed waveform matches the fragment length value of each peak of the corresponding waveform data registered in the DB 205. In this case, there may be a peak that exists only on one side. In this case, as described in Function 3-1, the peak generation cause is checked according to whether the peak is a Stutter peak or a + A peak. The determination is made based on the validity of the peak (step 806). If the determination result is No, the waveform data of the observed waveform is accumulated as the outlier value waveform data together with the determination content information (step 808). If the determination result is Yes, the observed waveform data is accumulated as waveform data to be additionally registered in the DB 205 (step 807). The above is performed in a loop for all individuals, and a waveform data group of outliers and an appropriate waveform data group to be additionally registered in the DB 205 are accumulated. Finally, information on the waveform data of the outliers is displayed (step 810), and the waveform data group determined to be valid is additionally registered in the DB 205 (step 811). Step 810 corresponds to function 3-2. Step 811 corresponds to function 3-1.

以上、本発明の遺伝子型判定結果の評価方法及び評価システムについて、具体的な実施の形態を示して説明したが、本発明はこれらに限定されるものではない。当業者であれば、本発明の要旨を逸脱しない範囲内において、上記各実施形態又は他の実施形態にかかる発明の構成及び機能に様々な変更・改良を加えることが可能である。   As mentioned above, although the specific embodiment was shown and demonstrated about the evaluation method and evaluation system of the genotype determination result of this invention, this invention is not limited to these. A person skilled in the art can make various changes and improvements to the configurations and functions of the invention according to the above-described embodiments or other embodiments without departing from the gist of the present invention.

本発明の遺伝子型判定結果の評価システムは、真のピークに対する高さ比やStutterピークと+Aピークの高さ比を、真のピークに対するStutterピークや+Aピークの現れ方の傾向を利用して遺伝子型を判定するシステムに付随して、例えば実験データ解析システムとして用いられるパーソナルコンピュータなどに実装されて利用され得るものである。   The genotyping result evaluation system of the present invention uses the height ratio of the true peak and the height ratio of the Stutter peak and + A peak, and the tendency of the appearance of the Stutter peak and + A peak to the true peak. The genotype determination system can be used by being mounted on, for example, a personal computer used as an experimental data analysis system.

真のピークに対するStutterピークの高さの比、真のピークに対する+Aピークの高さの比に再現性があることを示す図である。It is a figure which shows that the ratio of the height of a Stutter peak with respect to a true peak and the ratio of the height of a + A peak with respect to a true peak are reproducible. 本発明の一実施形態として構築される遺伝子型判定結果の評価システムの内部構成を概略的に示す機能ブロック図である。It is a functional block diagram which shows roughly the internal structure of the evaluation system of the genotype determination result constructed | assembled as one Embodiment of this invention. 図2に示す遺伝子情報表示システムの波形データDB200や過去に行なった処理で用いた波形データでの高さ比を格納したDB205に含まれる個体の波形データ209のデータ構造を示す図である。It is a figure which shows the data structure of the waveform data 209 of the individual contained in DB205 which stored height ratio in the waveform data DB200 of the gene information display system shown in FIG. 2, and the waveform data used by the process performed in the past. 図2に示す遺伝子情報表示システムの波形データDB200や過去に行なった処理で用いた波形データでの高さ比を格納したDB205に含まれるピークデータ210のデータ構造を示す図である。It is a figure which shows the data structure of the peak data 210 contained in DB205 which stored the height ratio in the waveform data DB200 of the gene information display system shown in FIG.2, and the waveform data used by the process performed in the past. 図2に示す遺伝子型判定結果の評価システムにおいて行われる処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process performed in the evaluation system of the genotype determination result shown in FIG. 図5のステップ504における真のピークと各Stutterピークの高さ比の妥当性確認処理を詳細に示すフローチャートである。It is a flowchart which shows the validity confirmation process of the height ratio of a true peak and each Stutter peak in step 504 of FIG. 5 in detail. 図5のステップ505における真のピークと各+Aピークの高さ比の妥当性確認処理を詳細に示すフローチャートである。6 is a flowchart showing in detail the validity confirmation processing of the height ratio between a true peak and each + A peak in step 505 of FIG. 5. 図5のステップ506における断片長値の妥当性確認処理を詳細に示すフローチャートである。6 is a flowchart showing in detail a fragment length value validity confirmation process in step 506 of FIG. 5. +Aピーク分離処理部により各個体の波形データについて各ピークを+Aピークと元のピークとに組分けした結果をグラフ表示する画面を示す図である。It is a figure which shows the screen which carries out the graph display of the result which grouped each peak into + A peak and the original peak about the waveform data of each individual | organism | solid by the + A peak isolation | separation processing part. 真のピーク分離処理部により各個体の波形データに含まれる元のピークを真のピークとStutterピークとに判定した結果をグラフ表示する画面を示す図である。It is a figure which shows the screen which carries out the graph display of the result of having determined the original peak contained in the waveform data of each individual into the true peak and the Stutter peak by the true peak separation processing unit. 真のピークと各Stutterピークとの高さ比がDB205に格納されている対応する値と比較して大きく外れている(妥当でない)場合に、警告表示処理部により所定の警告を表示する画面の例を示す図である。When the height ratio between the true peak and each Stutter peak is significantly different from the corresponding value stored in the DB 205 (invalid), the warning display processing unit displays a predetermined warning. It is a figure which shows an example. 真のピークと各+Aピークとの高さ比がDB205に格納されている対応する値と比較して大きく外れている(妥当でない)場合に、警告表示処理部により所定の警告を表示する画面の例を示す図である。A screen for displaying a predetermined warning by the warning display processing unit when the height ratio between the true peak and each + A peak is significantly different from the corresponding value stored in the DB 205 (invalid) It is a figure which shows the example of. 元のピークまたは+Aピークの断片長値がDB205に格納されている対応する値と比較して大きく外れている(妥当でない)場合に、警告表示処理部により所定の警告を表示する画面の例を示す図である。Example of a screen for displaying a predetermined warning by the warning display processing unit when the fragment length value of the original peak or + A peak is significantly different (invalid) from the corresponding value stored in the DB 205 FIG. 個体群に含まれる全ての真のピークとStutterピークの高さの比の分散値がはずれ値であることを表示するダイアログの例を示す図である。It is a figure which shows the example of the dialog which displays that the dispersion | distribution value of the ratio of the height of all the true peaks contained in a population and a Stutter peak is an outlier. 個体群に含まれる全ての真のピークと+Aピークの高さの比の分散値がはずれ値であることを表示するダイアログの例を示す図である。It is a figure which shows the example of the dialog which displays that the dispersion | distribution value of the ratio of the height of all the true peaks contained in a population and + A peak is an outlier. 観察波形に対応するデータベース内の波形データ数がユーザ定義値未満であることを表示する画面の例を示す図である。It is a figure which shows the example of the screen which displays that the waveform data number in the database corresponding to an observation waveform is less than a user-defined value. 観察波形に対応するデータベース内の波形データ数がユーザ定義値未満である場合に、観察波形データをデータベースへ登録するかどうかを確認するダイアログの例を示す図である。It is a figure which shows the example of the dialog which confirms whether observation waveform data is registered into a database, when the number of waveform data in the database corresponding to an observation waveform is less than a user-defined value. 個体毎、相同染色体毎にマイクロサテライトの繰り返し数に多型性が見られることを示す図である。It is a figure which shows that the polymorphism is seen in the repetition number of a microsatellite for every individual and every homologous chromosome. PCR及び電気泳動により、マイクロサテライト部分のDNA断片を抽出し増幅する実験手順を模式的に示す図である。It is a figure which shows typically the experimental procedure which extracts and amplifies the DNA fragment of a microsatellite part by PCR and electrophoresis. Stutterピークの発生原因としてのPCRでのslippage現象を示す図である。It is a figure which shows the slippage phenomenon in PCR as a cause of generation of a Stutter peak. 一般的な波形について、真のピークとその左右にunit長分ずつ離れた位置のStutterピーク、また真のピーク及びStutterピークのそれぞれの1塩基右位置の+Aピークについて示す図である。この図では、個体の波形が2つの真のピークについて2つのピークの塊として観察される場合の例を示している。It is a figure which shows about a general waveform, about the true peak, the Stutter peak of the position left | separated by unit length to the right and left, and the + A peak of the true peak and the Stutter peak at the 1 base right position of each. This figure shows an example in which the waveform of an individual is observed as a cluster of two peaks for two true peaks.

符号の説明Explanation of symbols

200 対象個体群毎の波形データを格納したDB
201 表示装置
202 キーボード
203 ポインティングデバイス
204 中央処理装置
205 過去に処理した波形データを格納したDB
206 +Aピーク分離処理部
207 真のピーク分離処理部
208 警告表示処理部
209 個体の波形データ
210 ピークデータ
211 実験プロトコル入力データ
200 DB that stores waveform data for each target population
201 Display device 202 Keyboard 203 Pointing device 204 Central processing unit 205 DB storing waveform data processed in the past
206 + A Peak separation processing unit 207 True peak separation processing unit 208 Warning display processing unit 209 Individual waveform data 210 Peak data 211 Experimental protocol input data

Claims (3)

マイクロサテライトを含むDNA断片のPCR増幅産物について長さを分析した結果を表示するシステムであって、
前記PCR増幅産物の検出シグナルを、検出シグナル強度及び断片長を軸にとってグラフ表示するグラフ表示処理部と、
前記PCR増幅産物の検出シグナルにおいて、DNA断片端に1つのアデニンが付加したPCR増幅産物の検出シグナルに対応する+Aピークと、+Aピーク以外のピークとを判定する第1の判定処理部と、
前記PCR増幅産物の検出シグナルにおいて、前記DNA断片のPCR増幅産物の検出シグナルに対応する真のピークと、マイクロサテライトの繰り返し配列が1単位以上増加又は減少したPCR増幅産物の検出シグナルに相当するStutterピークとを判定する第2の判定処理部と、
前記+Aピークと+Aピーク以外のピークとの判定結果、及び前記真のピークとStutterピークとの判定結果を前記グラフとともに表示する判定結果表示処理部とを有するシステムにおいて、
さらに、複数の個体について、マイクロサテライトを含むDNA断片のPCR増幅産物について長さを分析した結果であって、過去に処理した複数の個体の真のピーク、+Aピーク、及びStutterピークと、過去に処理した複数の個体の断片長と、を蓄積したデータベースを有しており、
前記第1の判定処理部及び第2の判定処理部による判定結果に対して、以下のうち少なくとも1つの判断基準に基づいて、判定結果の評価を行うことを特徴とするシステム。
(1)判定された真のピークとStutterピークとの高さ比は、前記データベースに蓄積された複数個体についての同比と著しく異なっていないか。
(2)判定された真のピークと+Aピークとの高さ比は、前記データベースに蓄積された複数個体についての同比と著しく異なっていないか。
(3)判定された真のピーク、Stutterピーク及び+Aピークの断片長は、前記データベースに蓄積された複数個体についての同長さと著しく異なっていないか。
A system for displaying the result of analyzing the length of a PCR amplification product of a DNA fragment containing microsatellite,
A graph display processing unit for displaying the detection signal of the PCR amplification product in a graph with the detection signal intensity and the fragment length as axes;
A first determination processing unit for determining a + A peak corresponding to the detection signal of the PCR amplification product in which one adenine is added to the end of the DNA fragment and a peak other than the + A peak in the detection signal of the PCR amplification product; ,
In the detection signal of the PCR amplification product, a true peak corresponding to the detection signal of the PCR amplification product of the DNA fragment and a Stutter corresponding to the detection signal of the PCR amplification product in which the repetitive sequence of the microsatellite is increased or decreased by 1 unit or more. A second determination processing unit for determining a peak;
In the system having the determination result of the + A peak and the peak other than the + A peak, and the determination result display processing unit for displaying the determination result of the true peak and the Stutter peak together with the graph,
Furthermore, the results of analyzing the length of PCR amplification products of DNA fragments containing microsatellite for a plurality of individuals, including the true peak, + A peak, and Stutter peak of a plurality of individuals processed in the past, And a database that stores the fragment lengths of multiple individuals processed in
A system for evaluating a determination result based on at least one of the following determination results for the determination results by the first determination processing unit and the second determination processing unit.
(1) Is the height ratio between the determined true peak and the Stutter peak not significantly different from the same ratio for a plurality of individuals accumulated in the database?
(2) Is the height ratio between the determined true peak and + A peak not significantly different from the same ratio for a plurality of individuals accumulated in the database?
(3) Are the determined true peak, Stutter peak, and + A peak fragment lengths not significantly different from the same length for multiple individuals accumulated in the database?
前記データベースは、さらに、個体ごとに前記分析結果とともに前記分析を行った際の実験プロトコルを蓄積しており、
前記判定結果の評価においては、前記データベースに蓄積されたデータのうち、判定対象と実験プロトコルが所定程度一致するデータのみを前記判断基準に用いることを特徴とする請求項1に記載の評価システム。
The database further stores an experimental protocol when the analysis is performed together with the analysis result for each individual,
2. The evaluation system according to claim 1, wherein, in the evaluation of the determination result, only data in which a determination target and an experimental protocol coincide to a predetermined extent are used as the determination criterion among data stored in the database.
前記判定結果の評価において判定結果が妥当であると評価された場合には、当該判定対象の分析結果を前記データベースに蓄積することを特徴とする請求項1又は2に記載の評価システム。   3. The evaluation system according to claim 1, wherein when the determination result is evaluated to be valid in the evaluation of the determination result, the analysis result of the determination target is accumulated in the database.
JP2007018965A 2006-02-28 2007-01-30 Method and system for evaluating genotyping results Expired - Fee Related JP5065694B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007018965A JP5065694B2 (en) 2006-02-28 2007-01-30 Method and system for evaluating genotyping results

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006051846 2006-02-28
JP2006051846 2006-02-28
JP2007018965A JP5065694B2 (en) 2006-02-28 2007-01-30 Method and system for evaluating genotyping results

Publications (2)

Publication Number Publication Date
JP2007259847A JP2007259847A (en) 2007-10-11
JP5065694B2 true JP5065694B2 (en) 2012-11-07

Family

ID=38633466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007018965A Expired - Fee Related JP5065694B2 (en) 2006-02-28 2007-01-30 Method and system for evaluating genotyping results

Country Status (1)

Country Link
JP (1) JP5065694B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10041884B2 (en) 2013-05-24 2018-08-07 Hitachi High-Technologies Corporation Nucleic acid analyzer and nucleic acid analysis method using same
WO2022196041A1 (en) * 2021-03-15 2022-09-22 日本電気株式会社 Genetic information processing device, genetic information processing method, and recording medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4414823B2 (en) * 2004-06-30 2010-02-10 日立ソフトウエアエンジニアリング株式会社 Gene information display method and display device
JP4468773B2 (en) * 2004-09-09 2010-05-26 日立ソフトウエアエンジニアリング株式会社 Gene information display method and display device
JP4713138B2 (en) * 2004-12-06 2011-06-29 株式会社日立ソリューションズ Gene information display method, display apparatus, and program

Also Published As

Publication number Publication date
JP2007259847A (en) 2007-10-11

Similar Documents

Publication Publication Date Title
Zhao et al. Expectations and blind spots for structural variation detection from long-read assemblies and short-read genome sequencing technologies
Pushkarev et al. Single-molecule sequencing of an individual human genome
KR102028375B1 (en) Systems and methods to detect rare mutations and copy number variation
US20180018422A1 (en) Systems and methods for nucleic acid-based identification
CN110021351B (en) Method and system for analyzing base linkage strength and genotyping
US7783430B2 (en) Genotyping result evaluation method and system
Desjardins et al. Fine-scale mapping of the Nasonia genome to chromosomes using a high-density genotyping microarray
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
US20090228213A1 (en) Display method and display apparatus of gene information
JP5065694B2 (en) Method and system for evaluating genotyping results
US7912652B2 (en) System and method for mutation detection and identification using mixed-base frequencies
JP2017532699A (en) Systems and methods for origin determination
JP4713138B2 (en) Gene information display method, display apparatus, and program
JP4922646B2 (en) Gene information display method and display device
JP2020517304A (en) Use of off-target sequences for DNA analysis
CN105838720A (en) PTPRQ gene mutant and application thereof
Gautier Microbial forensics: what we've learned from Amerithrax and beyond
JP4414823B2 (en) Gene information display method and display device
JP2020178555A (en) Method for determining the risk of glaucoma
JP2021534803A (en) Methods and systems for detecting allelic imbalances in cell-free nucleic acid samples
KR20210022622A (en) Method for fingerprinting biological samples
EP2979168A1 (en) Systems, algorithms, and software for molecular inversion probe (mip) design
US20230054019A1 (en) Calculation method for base methylation degree and program
Hathaway A suite of computational tools to interrogate sequence data with local haplotype analysis within complex​ Plasmodium​ infections and other microbial mixtures
Symons et al. ResqMi-a versatile algorithm and software for Resequencing Microarrays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120810

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees