TWI740647B

TWI740647B - 疾病分類方法及疾病分類裝置

Info

Publication number: TWI740647B
Application number: TW109131748A
Authority: TW
Inventors: 陳駿宏; 蔡宗憲; 李俊賢; 王維庭; 李穎灝; 鄭浩民
Original assignee: 宏碁股份有限公司; 宏碁智醫股份有限公司; 臺北榮民總醫院
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2021-09-21
Also published as: US11830589B2; EP3968334A1; CN114188030A; TW202213383A; US20220084635A1

Abstract

本揭露提出一種疾病分類方法及疾病分類裝置。疾病分類方法包括：將樣本輸入第一階段模型並獲得一階判斷結果；將模型判斷為陽性的第一樣本輸入第二階段高特異度模型以獲得判斷為陽性的第二樣本及判斷為陰性的第三樣本並確認第二樣本；將第一階段模型判斷為陰性的第四樣本輸入第二階段高靈敏度模型以獲得判斷為陽性的第五樣本及判斷為陰性的第六樣本並排除第六樣本；獲得第二樣本及第六樣本的二階判斷結果；將未被確認或排除的第三樣本及第五樣本輸入第三階段模型，並獲得第三樣本及第五樣本的三階判斷結果。

Description

疾病分類方法及疾病分類裝置

本揭露是有關於一種疾病分類方法及疾病分類裝置，且特別是有關於一種利用多個模型提高疾病分類準確度的疾病分類方法及疾病分類裝置。

醫學上針對一種疾病，有許多種不同的檢測工具可以使用，而每種檢測工具擁有不同特性。舉例來說，高靈敏度的檢測方法傾向為把結果判定成陽性，若此檢測方法檢測結果為陰性，則可信度會較高。高特異度的檢測方法傾向為把結果判定成陰性，若此檢測方法檢測結果為陽性，則可信度會較高。

通常醫生不會僅憑單一種工具診斷病人是否得到某種疾病，而會做許多測試再綜合各項結果。不同測試所需要輸入的資訊亦不相同，例如：病人的基本資料、疾病史、以及做某項測試得到的數值，可能是心跳、血壓、ECG連續數值或X光圖片等，其中有的需要靠醫生人工判定，有的則需要機器給出結果。因此，如何透過各種模型來準確地判定病人的檢測結果是本領域技術人員應致力的目標。

有鑑於此，本揭露提供一種疾病分類方法及疾病分類裝置，利用多個模型提高疾病分類準確度。

本揭露提出一種疾病分類方法，包括：將多個樣本輸入第一階段模型並獲得一階判斷結果；將第一階段模型判斷為陽性的多個第一樣本輸入第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認第二樣本；將第一階段模型判斷為陰性的多個第四樣本輸入第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除第六樣本；獲得第二樣本及第六樣本的二階判斷結果；將未被確認或排除的第三樣本及第五樣本輸入第三階段模型，並獲得第三樣本及第五樣本的三階判斷結果；根據一階判斷結果計算第一準確度並根據二階判斷結果及三階判斷結果計算第二準確度；以及當第二準確度大於第一準確度時，套用第二階段高特異度模型、第二階段高靈敏度模型及第三階段模型。

本揭露提出一種疾病分類裝置，包括處理器及記憶體耦接到處理器。處理器將多個樣本輸入第一階段模型並獲得一階判斷結果；將第一階段模型判斷為陽性的多個第一樣本輸入第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認第二樣本；將第一階段模型判斷為陰性的多個第四樣本輸入第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除第六樣本；獲得第二樣本及第六樣本的二階判斷結果；將未被確認或排除的第三樣本及第五樣本輸入第三階段模型，並獲得第三樣本及第五樣本的三階判斷結果；根據一階判斷結果計算第一準確度並根據二階判斷結果及三階判斷結果計算第二準確度；以及當第二準確度大於第一準確度時，套用第二階段高特異度模型、第二階段高靈敏度模型及第三階段模型。

基於上述，本揭露的疾病分類方法及疾病分類裝置利用第一階段模型獲得多個樣本的一階判斷結果。第一階段模型判斷為陽性的第一樣本會輸入第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認第二樣本。第一階段模型判斷為陰性的第四樣本會被輸入第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除第六樣本。未被確認或排除的第三樣本及第五樣本會被輸入第三階段模型。當第二階段模型結合第三階段模型判斷結果的準確度大於第一階段模型判斷結果的準確度時，套用第二階段高特異度模型、第二階段高靈敏度模型及第三階段模型以提供疾病預測結果。

在一實施例中，本揭露的疾病分類方法可包括：將多個樣本輸入第一階段模型並獲得一階判斷結果；將第一階段模型判斷為陽性的多個第一樣本輸入第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認(Rule In)第二樣本；將第一階段模型判斷為陰性的多個第四樣本輸入第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除(Rule Out)第六樣本；獲得第二樣本及第六樣本的二階判斷結果；將未被確認或排除的第三樣本及第五樣本輸入第三階段模型，並獲得第三樣本及第五樣本的三階判斷結果；根據一階判斷結果計算第一準確度並根據二階判斷結果及三階判斷結果計算第二準確度；以及當第二準確度大於第一準確度時，套用第二階段高特異度模型、第二階段高靈敏度模型及第三階段模型。值得注意的是，確認第二樣本代表第二樣本在高特異度模型中檢測結果為陽性，排除第六樣本代表第六樣本在高靈敏度模型中檢測結果為陰性。第二階段高特異度模型的特異度大於第一門檻值。第二階段高靈敏度模型的靈敏度大於第二門檻值。第一樣本及第四樣本的數量總合等於樣本的數量。一階判斷結果、二階判斷結果及三階判斷結果包括陽性及陰性。第一準確度根據一階判斷結果及樣本的實際陽性屬性或實際陰性屬性來計算。

在一實施例中，本揭露的疾病分類裝置可包括處理器及記憶體。記憶體耦接到處理器。記憶體可儲存或暫存第一階段模型、第二階段高特異度模型、第二階段高靈敏度模型及第三階段模型。處理器可執行上述疾病分類方法的步驟。

圖1為根據本揭露一實施例的疾病分類方法的流程圖。

請參照圖1，本揭露一實施例的疾病分類方法可先進行資料處理(S101)並利用處理後的資料來訓練模型(S102)。模型訓練完成之後可進行第一階段測試(S103)並對應第一階段測試來計算機率(104)及計算損失(S105)。機率可為第一階段測試所用的第一階段模型對每個樣本輸出的機率，當一個樣本的機率大於或等於切點則代表此樣本在第一階段模型的判斷結果為陽性，當一個樣本的機率小於切點則代表此樣本在第一階模型的判斷結果為陰性。損失可相關於第一階段模型的準確性。舉例來說，第一階段模型的準確性越高則損失越小。準確性例如是多個樣本透過第一階段模型正確判斷出陽性或陰性的百分比。

在計算完第一階段測試的機率及損失之後可進行第二階段測試(S106)。第二階段測試可包括利用第二階段高特異度模型及第二階段高靈敏度模型分別對第一階段測試結果為陽性及陰性的樣本進行測試。在第二階段測試中會進行樣本的確認及排除。未被確認或排除的樣本將進入第三階段測試(S107)並調整機率(S108)。此外，還會針對第二階段測試及第三階段測試來調整機率(S109)並判斷與第一階段測試相比損失是否下降(S110)。若損失下降則保留第二階段模型及第三階段模型(S111)。若損失沒有下降則捨棄第二階段模型及第三階段模型(S112)，最後再提供疾病預測結果(S113)。

圖2為根據本揭露一實施例的資料處理的流程圖。

請參照圖2，本揭露一實施例的資料處理擷取可將輸入資料(S201)分成數值型資料(S202)、類別型資料(S203)及連續型資料(S204)。數值型資料、類別型資料及連續型資料可分別進行標準化(S205)、獨熱編碼(S206)及二元分類(S207)與特徵擷取(S208)等處理再進行整合輸入。二元分類例如包括長短期記憶(Long Short Term Memory，LSTM)與邏輯回歸(Logistic Regression，LR)。特徵擷取可包括擷取連續型資料的最大值、最小值、平均值及中位數等。

在一實施例中，為了建立模型，可收集數千位病患進行冠心病診斷的詳細資料及診斷結果。除了病患基本資料、疾病史之外，亦有進行運動心電圖測試額外收集資料並做處理及統整。

表一為進行冠心病診斷之病患基本臨床資料範例。

表一

年齡	77
性別	男
身高	176
體重	70.7
血型	A
抽菸	是
高血脂	是
高血壓	是
糖尿病	否

對於數值型資料，以年齡為例，設每個人的年齡為y，所有人平均為u，標準差為s，則將每個人的年齡轉換為z，z = (y – u) / s。此標準化數值的實際意義為數值與平均相差幾個標準差，此作法有助於降低不同欄位間單位或者全距差異所造成的影響。表1中病患之年齡為77歲，若平均為59歲，標準差為11，則轉換後結果為(77 – 59) / 11 = 1.64。

關於類別型資料，以血型為例，血型共有A、B、O、AB型4種，若直接轉換為代碼1、2、3、4則模型會誤認為A型與AB型距離最遠，但實際上任兩血型應為等距，因此我們將血型代碼轉換為如下表2。

表2

A	1	0	0	0
B	0	1	0	0
O	0	0	1	0
AB	0	0	0	1

因此，血型將會由1個欄位轉變為4個欄位。表1中病患血型為A，則轉換後之血型為[1, 0, 0, 0]，以4個欄位儲存。

表3

時間	I_ST	I_Slope	II_ST	II_Slope	III_ST	III_Slope
1	-0.15	-0.03	0.15	0.04	0.25	-0.01
2	-0.25	-1.41	-0.05	-0.28	0.25	-0.03
3	0.2	-2.45	0.65	-0.45	0.4	1.04
4	-0.05	-0.36	-0.25	-0.44	-0.2	0.21
5	0	-1.19	0.5	-0.49	-0.3	0.78
6	-0.3	-0.73	-0.9	-0.26	-0.55	-0.96
7	-0.1	0.44	-0.85	1	-0.75	-0.86
8	-0.15	-0.5	-1.4	-0.55	-1.25	-0.1
9	-0.05	-0.28	-1.5	-0.7	-1.45	-0.73

對於連續型資料，進行統計特徵提取以及使用模型進行初步預測。範例如表3，病患於運動心電圖測試期間各階段之心電圖(Electrocardiography，ECG)ST段數值，實際共有12個導層(即，電極貼片貼在受測者12個部位)，每個導層有ST段時間差以及Slope。表3所示為其中前3個導層I_ST、I_Slope、II_ST、II_Slope、III_ST、III_Slope於各階段之數值。

以I_ST舉例，取整個測試過程平均值、最大值、最小值，以及中位數，如下表4。

表4

mean_I_ST	-0.094
max_I_ST	0.2
min_I_ST	-0.3
med_I_ST	-0.1

連續型資料亦可用來建立簡單的LR模型或LSTM模型，或是一維的卷積神經網路(Convolutional Neural Network，CNN)深度學習模型，並進行預測以得到一初步的機率，可當作其中一個輸入的欄位。處理完後就可捨棄掉原始的連續型資料，由提取出的特徵作為後面的輸入。

圖3為根據本揭露一實施例的訓練模型的流程圖。

請參照圖3，在一實施例中，整合輸入(S301)的資料可作為訓練資料(S302)、驗證資料(S303)及測試資料(S304)。訓練資料可用來訓練模型(S305)且訓練好的模型可利用驗證資料來計算切點(S306)、計算LR+(S307)及計算LR-(S308)。最終訓練好的模型(S309)就可包括資料的輸入格式(S310)、LR+(S311)、切點(S312)及LR-(S313)等資訊。

舉例來說，整合每位病患資料後，可將病患資料分為65%訓練資料、15%驗證資料及20%測試資料。訓練資料用來訓練模型。驗證資料用來決定模型切點及參數。測試資料則在後續用來評估模型最終效果。

在一實施例中，可使用訓練資料建立多種機器學習模型。不同模型亦可以依照需求有不同的輸入，模型能預測病患是否為陽性，並輸出機率。表5為模型清單。

表5

模型	種類
決策樹(Decision Tree)	基於樹(Treebase)
隨機森林 (Random Forest)	整體基於樹(Treebase Ensemble)
極限梯度增加(XGBoost)	整體基於樹(Treebase Ensemble)
梯度增加(GradientBoosting)	整體基於樹(Treebase Ensemble)
額外樹(Extra Tree)	整體基於樹(Treebase Ensemble)
適應性增加(AdaBoost)	整體基於樹(Treebase Ensemble)
K最近鄰居(K-Nearest Neighbors)	最近鄰居(Nearest Neighbors)
支持向量機(SVM)	支持向量機(Support Vector Machine)
邏輯回歸(LogisticRegression)	線性(Linear)
深度神經網路(DNN)	深度學習(Deep Learning)

關於切點的計算，模型輸出機率須由切點決定為陽性/陰性。切點為0到1之間的數值。模型輸出機率大於或等於切點則為陽性，模型輸出機率小於切點則為陰性。切點可以由手動設定的目標來決定。下表6為醫學上/分類時常用的目標。

表6

目標	說明
TP	實際陽性且模型判定亦為陽性
FP	實際陰性但模型判定為陽性
TN	實際陰性且模型判定亦為陰性
FN	實際陽性但模型判定為陰性
靈敏度(Sensitivity)	TP / (TP + FN)
特異度(Specificity)	TN / (TN + FP)
PPV	TP / (TP + FP)
NPV	TN / (TN + FN)
準確度(Accuracy)	(TP + TN) / (TP + TN + FP + FN)
LR+	Sensitivity / (1 - Specificity)
LR-	(1 - Sensitivity) / Specificity
LR+ / LR-	(TP * TN) / (FP * FN)

下表7為驗證資料中10位病患使用隨機森林(Random Forest)演算法模型預測得到的機率。舉例來說，挑選靈敏度以及特異度作為目標，並給予0.4及0.6的權重。

表7

病患實際屬性	隨機森林演算法模型輸出機率
0	0.6
0	0
0	0.9
1	0.8
1	0.3
0	0.2
1	0
1	0.9
0	0.2
0	0.7

將切點由0.1每次增加0.1，調高至0.9，並測試靈敏度及特異度，依照權重計算分數，結果如下表8。

表8

切點	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
靈敏度	0.75	0.75	0.75	0.50	0.50	0.50	0.50	0.50	0.25
特異度	0.17	0.17	0.50	0.50	0.50	0.50	0.67	0.83	0.83
分數	0.4	0.4	0.6	0.5	0.5	0.5	0.6	0.7	0.6

由表8得到，切點為0.8時分數最高。因此最後選擇切點為0.8，並記錄隨機森林演算法模型切點0.8及LR+為3，LR-為0.6。

圖4為根據本揭露一實施例的第一階段測試的流程圖。

請參照圖4，驗證資料(S401)會被輸入到第一階段模型(S402)，以輸出樣本機率(S403)及輸出樣本分類(S404)。輸出樣本分類可包括陽性(S405)及陰性(S406)。

舉例來說，第一階段模型測試中以隨機森林演算法模型為第一階段模型。下表9為驗證資料中的兩個樣本(即，切點為0.8的樣本)。除了判定結果外，第一階段模型輸出的機率(即，前測機率)也會被記錄。

表9

樣本	隨機森林演算法模型預測機率	判定結果
1	0.6	0(陰性)
2	0.9	1(陽性)

在進入第二階段及第三階段前，可先計算目前第一階段模型的準確度。若第二階段及第三階段的準確度並無改善，則放棄第二階段及第三階段模型。表10記錄驗證資料於第一階段的結果，並以表6中的準確度對應損失(LOSS)的衡量數值，準確度越高越好。

表10

病患實際屬性	第一階段模型判定結果	隨機森林演算法模型輸出機率
0	0	0.6
0	0	0
0	1	0.9
1	1	0.8
1	0	0.3
0	0	0.2
1	0	0
1	1	0.9
0	0	0.2
0	0	0.7

由表10可得知，準確度為70%。也就是說，10筆資料中有7筆資料的病患實際屬性與一階判定結果相同。

圖5為根據本揭露一實施例的第二階段確認及排除的流程圖。

請參照圖5，第一階段判斷出的陽性資料(S501)可被輸入第二階段高特異度模型(S502)以產生輸出樣本機率(S503)及輸出樣本分類(S504)，輸出樣本分類可包括陽性樣本(S505)及陰性樣本(S506)。在高特異度模型所輸出的陽性樣本可被確認(Rule In)。第一階段判斷出的陰性資料(S507)可被輸入第二階段高靈敏度模型(S508)以產生輸出樣本機率(S509)及輸出樣本分類(S510)，輸出樣本分類可包括陽性樣本(S511)及陰性樣本(S512)。在高靈敏度模型所輸出的陰性樣本可被排除(Rule Out)。也就是說，在第二階段中會將陽性資料送進高特異度的模型(即，傾向判定為陰性的模型)，且第二階段模型亦有切點以及LR+、LR-。第二階段模型輸出的機率可用以決定第二階段判定結果。若第二階段高特異度的模型判定亦為陽性，則有很高機率其陽性為真(即，確認)。類似地，在第二階段中會將陰性資料送進高靈敏度的模型(即，傾向判定為陽性的模型) ，若第二階段高靈敏度的模型判定亦為陰性，則有很高機率其陰性為真(即，排除)。

在一實施例中，可依照第二階段模型之LR+、LR-對第一階段輸出的機率作調整，而不是直接以第二階段模型輸出的機率為預測機率。圖6為根據本揭露一實施例計算第二階段模型調整後機率或第三階段模型調整後機率的流程圖。請參照圖6，第一階段模型輸出的樣本機率可作為第二階段模型及第三階段模型的前測機率P(S601)。前測機率P可被換算成前測勝算比=P/1-P(S602)。新模型(例如，第二階段模型或第三階段模型)可判斷是否為陽性(S603)。若新模型判斷為陽性則將前測勝算比乘新模型的LR+(S604)。若新模型判斷為陰性則將前測勝算比乘新模型的LR-(S605)。接著，判斷是否還有新模型(S606)。若還有新模型，例如還有第三階段模型，則回到步驟S603繼續判斷第三階段模型判斷是否為陽性。若沒有新模型，則得到前測勝算比乘LR+或乘LR-的後測勝算比(S607)，並利用後測勝算比換算回後測機率=後測勝算比/(後測勝算比+1)。

舉例來說，假設第二階段高靈敏度模型的切點為0.3，LR+ = 1.5，LR- = 0.3。第二階段高特異度模型的切點為0.8，LR+ = 3，LR- = 0.6，在此省略第二階段輸出之機率，只列出第二階段判定之結果。以下為調整第二階段輸出機率的範例。

[調整第二階段輸出機率的範例]

步驟1：一階輸出機率為0.6(或稱為第一輸出機率)。

步驟2：一階勝算比=0.6 / 0.4 = 1.5(或稱為第一勝算比)。

步驟3：一階判定為陰性，送進二階高靈敏度模型，判定為陽性，高靈敏度模型之LR+為1.5。二階勝算比=1.5*1.5 = 2.25(或稱為第二勝算比)。

步驟4：二階調整後輸出機率=2.25 / (2.25 + 1) = 0.69(或稱為第二輸出機率)。

表11為二階調整後輸出機率(即，後測機率)的範例。

表11

病患實際屬性	一階判定結果	一階輸出機率	二階判定結果	二階調整後機率
0	0	0.6	1	0.69
0	0	0	0 (Rule Out)	0
0	1	0.9	1 (Rule In)	0.96
1	1	0.8	1 (Rule In)	0.92
1	0	0.3	1	0.39
0	0	0.2	0 (Rule Out)	0.07
1	0	0	1	0
1	1	0.9	1 (Rule In)	0.96
0	0	0.2	0 (Rule Out)	0.07
0	0	0.7	1	0.78

圖7為根據本揭露一實施例的第三階段測試的流程圖。

請參照圖7，第二階段模型輸出的樣本分類可包括第二階段高特異度模型所輸出且被確認(Rule In)的陽性樣本(S701)及第二階段高特異度模型所輸出的陰性樣本(S702)。第二階段模型輸出的樣本分類還可包括第二階段高靈敏度模型所輸出的陽性樣本(S703)及第二階段高特異度模型所輸出且被排除(Rule Out)的陰性樣本(S704)。只有在第二階段中沒被確認或排除的第二階段高特異度模型所輸出的陰性樣本及第二階段高靈敏度模型所輸出的陽性樣本會被輸入第三階段模型(S705)並產生輸出樣本機率(S706)及輸出樣本分類(S707)。輸出樣本分類可包括陽性樣本(S708)及陰性樣本(S709)。

舉例來說，設第三階段模型切點為0.5，LR+ = 2，LR- = 0.5。以下為調整第三階段輸出機率的範例。

[調整第三階段輸出機率的範例]

步驟1：一階輸出機率為0.6。

步驟2：一階勝算比=0.6 / 0.4 = 1.5。

步驟3：一階判定為陰性，送進二階高靈敏度模型，判定為陽性。二階高靈敏度模型之LR+為1.5。三階模型判定為陰性，三階模型LR-為0.5。三階勝算比=1.5*1.5*0.5 = 1.125(或稱為第三勝算比)。

步驟4：三階調整後輸出機率=1.125 / (1.125 + 1) = 0.53(或稱為第三輸出機率)。

表12為三階調整後輸出機率(即，後測機率)的範例。

表12

實際屬性	一階結果	一階機率	二階結果	二階調整機率	三階結果	三階調整機率
0	0	0.6	1	0.69	0	0.53
1	0	0.3	1	0.39	1	0.56
1	0	0	1	0	0	0
0	0	0.7	1	0.78	0	0.64

根據表12及表11中二階判定結果被確認或移除的資訊，可得到結合第二階段模型及第三階段模型的判斷結果的準確度為80%。由於結合第二階段模型及第三階段模型的判斷結果的準確度(例如，80%)大於第一階段模型的判斷結果的準確度(例如，70%)，因此第二階段模型及第三階段模型可被套用以進行更多個資料驗證。若結合第二階段模型及第三階段模型的判斷結果的準確度小於等於第一階段模型的判斷結果的準確度，則捨棄第二階段模型及第三階段模型，並可尋找其他模型來作為新的第二階段模型及第三階段模型。

在一實施例中，一模型也可設定一個陽性門檻值及一個陰性門檻值。舉例來說，被模型判定為陽性的樣本的後測機率必須大於陽性門檻值最後才判定為陽性。被模型判定為陰性的樣本的後測機率必須小於陰性門檻值最後才判定為陰性。

綜上所述，本揭露的疾病分類方法及疾病分類裝置利用第一階段模型獲得多個樣本的一階判斷結果。第一階段模型判斷為陽性的第一樣本會輸入第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認第二樣本。第一階段模型判斷為陰性的第四樣本會被輸入第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除第六樣本。未被確認或排除的第三樣本及第五樣本會被輸入第三階段模型。當第二階段模型結合第三階段模型判斷結果的準確度大於第一階段模型判斷結果的準確度時，套用第二階段高特異度模型、第二階段高靈敏度模型及第三階段模型以提供疾病預測結果。

雖然本揭露已以實施例揭露如上，然其並非用以限定本揭露，任何所屬技術領域中具有通常知識者，在不脫離本揭露的精神和範圍內，當可作些許的更動與潤飾，故本揭露的保護範圍當視後附的申請專利範圍所界定者為準。

S101~S113:步驟 S201~S209:步驟 S301~S313:步驟 S401~S406:步驟 S501~S512:步驟 S601~S608:步驟 S701~S709:步驟

圖1為根據本揭露一實施例的疾病分類方法的流程圖。圖2為根據本揭露一實施例的資料處理的流程圖。圖3為根據本揭露一實施例的訓練模型的流程圖。圖4為根據本揭露一實施例的第一階段測試的流程圖。圖5為根據本揭露一實施例的第二階段確認及排除的流程圖。圖6為根據本揭露一實施例計算第二階段模型調整後機率或第三階段模型調整後機率的流程圖。圖7為根據本揭露一實施例的第三階段測試的流程圖。

S101~S113:步驟

Claims

一種疾病分類方法，包括：一處理器將多個樣本輸入一第一階段模型並獲得一一階判斷結果；該處理器將該第一階段模型判斷為陽性的多個第一樣本輸入一第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認(Rule In)該些第二樣本；該處理器將該第一階段模型判斷為陰性的多個第四樣本輸入一第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除(Rule Out)該些第六樣本；該處理器獲得該些第二樣本及該些第六樣本的一二階判斷結果；該處理器將未被確認或排除的該些第三樣本及該些第五樣本輸入一第三階段模型，並獲得該些第三樣本及該些第五樣本的一三階判斷結果；該處理器根據該一階判斷結果計算一第一準確度並根據該二階判斷結果及該三階判斷結果計算一第二準確度；以及當該第二準確度大於該第一準確度時，該處理器套用該第二階段高特異度模型、該第二階段高靈敏度模型及該第三階段模型。
如請求項1所述的疾病分類方法，其中該第二階段高特異度模型的一特異度大於一第一門檻值，該第二階段高靈敏度模型的一靈敏度大於一第二門檻值，該些第一樣本及該些第四樣本的數量總合等於該些樣本的數量。
如請求項1所述的疾病分類方法，其中該一階判斷結果、該二階判斷結果及該三階判斷結果包括陽性及陰性，且該第一準確度根據該一階判斷結果及該些樣本的實際陽性屬性或實際陰性屬性來計算。
如請求項1所述的疾病分類方法，其中當該第二準確度不大於該第一準確度時，該處理器捨棄該第二階段高特異度模型、該第二階段高靈敏度模型及該第三階段模型，所述第一準確度係根據該一階判斷結果與該些樣本實際陰性或陽性屬性相符的所占比例計算而得。
如請求項1所述的疾病分類方法，更包括：該處理器根據該第一階段模型的一第一輸出機率及該第二階段高特異度模型或該第二階段高靈敏度模型的LR+或LR-來計算該第二階段高特異度模型或該第二階段高靈敏度模型的一第二輸出機率，並該處理器根據該第二輸出機率獲得該二階判斷結果，該二階判斷結果係藉由比較切點與第二輸出機率數值大小而得，所述切點係利用驗證資料來計算。
如請求項5所述的疾病分類方法，更包括：該處理器根據該些樣本的一第七樣本在該第一階段模型的一第一輸出機率計算一第一勝算比(Odds Ratio)，當該處理器判斷該第七樣本在該第二階段高特異度模型或該第二階段高靈敏度模型為陽性時一第二勝算比為該第一勝算比乘以該第二階段高特異度模型或該第二階段高靈敏度模型的LR+，當該處理器判斷該第七樣本在該第二階段高特異度模型或該第二階段高靈敏度模型為陰性時該第二勝算比為該第一勝算比乘以該第二階段高特異度模型或該第二階段高靈敏度模型的LR-，並根據該第二勝算比計算一第二輸出機率，該第一勝算比=第一輸出機率/(1-第一輸出機率)，且第二輸出機率=第二勝算比/(第二勝算比+1)，所述第一輸出機率係小於1。
如請求項6所述的疾病分類方法，其中該第七樣本在該第二階段高特異度模型或該第二階段高靈敏度模型中未該處理器被排除或確認，當該處理器判斷該第七樣本在該第三階段模型為陽性時一第三勝算比為該第二勝算比乘以該第三階段模型的LR+，當該處理器判斷該第七樣本在該第三階段模型為陰性時該第三勝算比為該第二勝算比乘以該第三階段模型的LR-，並該處理器根據該第三勝算比計算一第三輸出機率，其中該第三輸出機率=該第三勝算比/(該第三勝算比+1)。
一種疾病分類裝置，包括：一處理器；以及一記憶體，耦接到該處理器，其中該處理器將多個樣本輸入一第一階段模型並獲得一一階判斷結果；將該第一階段模型判斷為陽性的多個第一樣本輸入一第二階段高特異度模型以獲得判斷為陽性的多個第二樣本及判斷為陰性的多個第三樣本並確認該些第二樣本，將該第一階段模型判斷為陰性的多個第四樣本輸入一第二階段高靈敏度模型以獲得判斷為陽性的多個第五樣本及判斷為陰性的多個第六樣本並排除該些第六樣本；獲得該些第二樣本及該些第六樣本的一二階判斷結果；將未被確認或排除的該些第三樣本及該些第五樣本輸入一第三階段模型，並獲得該些第三樣本及該些第五樣本的一三階判斷結果；根據該一階判斷結果計算一第一準確度並根據該二階判斷結果及該三階判斷結果計算一第二準確度；以及當該第二準確度大於該第一準確度時，套用該第二階段高特異度模型、該第二階段高靈敏度模型及該第三階段模型。