TWI775050B

TWI775050B - 訓練資料處理方法與電子裝置

Info

Publication number: TWI775050B
Application number: TW109105456A
Authority: TW
Inventors: 陳陪蓉; 蔡宗憲; 陳亮恭; 彭莉甯; 蕭斐元; 黃世宗
Original assignee: 宏碁股份有限公司; 國立陽明大學
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2022-08-21
Also published as: EP3869514A1; US20240257978A1; TW202133186A; US11996195B2; US20210265058A1

Abstract

訓練資料處理方法與電子裝置。所述方法包括：獲得包括一使用者所罹患的至少一第一疾病的一病史資料；根據一目標疾病設置多個疾病種類；設置一時間區間；從所述病史資料中獲得位於所述時間區間內的至少一第二疾病；根據所述疾病種類對所述第二疾病執行一前處理操作以獲得一處理後資料；以及將所述處理後資料輸入至一神經網路以訓練所述神經網路。

Description

訓練資料處理方法與電子裝置

本發明是有關於一種訓練資料處理方法與電子裝置。

失智症等疾病，在確診的數年或更早以前發生的其他疾病，可能是失智症的前兆。因此，如何利用疾病的歷史資料預測是否有可能罹患失智症，是本領域技術人員所欲解決的問題之一。

本發明提供一種訓練資料處理方法與電子裝置，可以讓所建立的神經網路模型的預測效果較傳統機器學習方法佳。

本發明提出一種訓練資料處理方法，用於一電子裝置，所述方法包括：獲得包括一使用者所罹患的至少一第一疾病的一病史資料；根據一目標疾病設置多個疾病種類；設置一時間區間；從所述病史資料中獲得位於所述時間區間內的至少一第二疾病；根據所述疾病種類對所述第二疾病執行一前處理操作以獲得一處理後資料；以及將所述處理後資料輸入至一神經網路以訓練所述神經網路。

本發明提出一種電子裝置，包括：輸入電路與處理器。所述輸入電路獲得包括一使用者所罹患的至少一第一疾病的一病史資料。所述處理器根據一目標疾病設置多個疾病種類。所述處理器設置一時間區間。所述處理器從所述病史資料中獲得位於所述時間區間內的至少一第二疾病。所述處理器根據所述疾病種類對所述第二疾病執行一前處理操作以獲得一處理後資料。所述處理器將所述處理後資料輸入至一神經網路以訓練所述神經網路。

基於上述，本發明的訓練資料處理方法與電子裝置用以將用以訓練模型的資料進行前處理，使得使用處理後的資料所建立的神經網路模型的預測效果較傳統機器學習方法佳，並且讓所建立的模型的應用情境符合真實使用情境。

S101、S103、S105、S107、S109、S111:步驟

t0~t4、k:時間點

X、Z:年

DD:病史資料

D1、D2:時間區間內的疾病

E1、E2:詞頻資訊

圖1是依照本發明的一實施例的訓練資料處理方法的示意圖。

圖2A與圖2B是依照本發明的一實施例所繪示的時間區間的示意圖。

圖3是依照本發明的一實施例所繪示的詞頻資訊的產生的示意圖。

本發明的模型訓練方法適用於一電子裝置(未繪示)。電子裝置包括輸入電路(未繪示)與處理器(未繪示)。輸入電路耦接至處理器。輸入電路例如是用於從電子裝置外部或其他來源取得相關資料的輸入介面或電路，在此並不設限。

處理器可以是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。

此外，電子裝置還可以包括儲存電路(未繪示)。儲存電路可以是任何型態的固定或可移動隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)或類似元件或上述元件的組合。

在本範例實施例中，電子裝置的儲存電路中儲存有多個程式碼片段，在上述程式碼片段被安裝後，會由處理器來執行。例如，儲存電路中包括多個模組，藉由這些模組來分別執行應用於電子裝置的各個運作，其中各模組是由一或多個程式碼片段所組成。然而本發明不限於此，電子裝置的各個運作也可以是使用其他硬體形式的方式來實現。

圖1是依照本發明的一實施例的訓練資料處理方法的示意圖。特別是，使用本發明所訓練出的模型(或神經網路)可以用以預測一受測者是否會罹患一目標疾病或罹患此目標疾病的機率。

詳細來說，請參照圖1，首先，輸入電路會獲得包括一使用者所罹患的疾病(亦稱為，第一疾病)的病史資料(步驟S101)。之後，處理器會根據目標疾病設置多個疾病種類(步驟S103)。以下以目標疾病為失智症進行說明，但本發明並不用於限定目標疾病為何。

更詳細來說，處理器會將多種預設疾病轉換成多種類別資料(或多個種類)。處理器會依據欲預測的目標疾病，選取醫學領域中相關程度較高並且數量適中的疾病所對應的疾病種類。例如，處理器可以依據欲預測的目標疾病從前述多種類別資料進行篩選(例如，刪除或加入某些疾病)以得出步驟S103最後使用的疾病種類。須注意的是，當疾病種類的數量太小時，疾病資訊會不足以預測目標疾病；而當疾病種類的數量太大時則是會讓雜訊變多，使得預測準確率反而降低。

舉例來說，假設目標疾病為失智症，處理器可以選擇CCS單階診斷(CCS single level diagnoses)疾病分類，其中共有285種疾病。處理器可以在步驟S103中設置此258種疾病所對應的疾病種類。

在步驟S103後，處理器會設置一時間區間(步驟S105)，並且從病史資料中獲得位於前述時間區間內的第二疾病(步驟 S107)。處理器會根據前述的疾病種類對第二疾病執行前處理操作以獲得處理後資料(步驟S109)。最後，處理器會將處理後資料輸入至神經網路以訓練此神經網路(步驟S111)。

舉例來說，圖2A與圖2B是依照本發明的一實施例所繪示的時間區間的示意圖。須說明的是，在步驟S101所取得病史資料所屬的使用者可能是罹患目標疾病或未罹患目標疾病。而針對此兩種不同的使用者，可以使用不同的方式來獲得時間區間中的第二疾病。

舉例來說，請參照圖2A，圖2A是描述如何定義時間區間以使用此時間區間從罹患目標疾病的使用者的病史資料中取得第二疾病的範例。如圖2A所示，時間點t0例如是使用者罹患(或第一次被診斷出)目標疾病的時間點，時間點t1(亦稱為，第一時間點)距離時間點t0為Z年(即，時間點t1為時間點t0的Z年前)，且時間點t2(亦稱為，第二時間點)距離時間點t1為X年(即，時間點t2為時間點t1的X年前)，Z與X為正數，此設計可因應實際情境需求中，時間單位可能是數年或數個月等。而圖2A中用以取得第二疾病的時間區間是介於時間點t1以及時間點t2之間。

此外，請參照圖2B，圖2B是描述如何定義時間區間以使用此時間區間從未罹患目標疾病的使用者的病史資料中取得第二疾病的範例。如圖2B所示，時間點k例如是獲得使用者的病史資料的時間點，時間點t3(亦稱為，第三時間點)距離時間點k為Z年(即，時間點t3為時間點k的Z年前)，且時間點t4(亦稱為，第四時間點)距離時間點t3為X年(即，時間點t4為時間點t3的X年前)，Z與X為正數，此設計可因應實際情境需求中，時間單位可能是數年或數個月等。而圖2B中用以取得第二疾病的時間區間是介於時間點t3以及時間點t4之間。然而須注意的是，在其他實施例中，時間點t3可以是早於時間點k的其他任意時間點。

須說明的是，上述時間區間的定義方式的意義在於若觀察起點(例如，時間點t1)太早，罹患目標疾病的使用者可能身體狀況差異尚未出現，病史無法用以建模預測；而觀察起點(例如，時間點t1)太晚的話，即使成功預測，距離罹患目標疾病已近，亦無法達到事先預防目標疾病之功效。在本實施例中，由於目標疾病為失智症，處理器可以將前述的Z值設定為5，並將前述的X值設定為1。也就是說，以圖2A的範例為例，時間區間是位於罹患失智症的時間點t0的前五年至前六年之間。

在此說明如何從病史資料中獲得位於時間區間內的第二疾病。在此可以分為兩種方式：(1)疾病序列；以及(2)詞頻資訊等兩種不同的方式，以下分別進行說明。

[疾病序列]

疾病序列的產生方式可以有兩種。在一實施例中，處理器會根據病史資料中的每一疾病(即，第一疾病)的最早發生時間，從此些疾病中找出位於時間區間內的疾病。並從時間區間內的疾病找出由至少一疾病(亦稱為，第二疾病)所組成的疾病序列。特別是，在此疾病序列中的第二疾病是依照最早發生時間排序，第二疾病的數量小於或等於一預設數量，且第二疾病中的每一疾病僅出現一次。

舉例來說，假設預設數量為5，並且假設某人病史中在時間區間內所看診(或患病)的先後「病2→病2→病1→病2→病4→病3→病3」。若使用最早發生時間排序則可以得到「病2→病1→病4→病3」的疾病序列。而在此序列中，疾病的數量(即，4)會小於預設數量(即，5)。而且在此疾病序列中，每一疾病僅出現一次。

第二種方式，處理器會根據病史資料中每一疾病的所有發生時間，從此些疾病中找出位於時間區間內的疾病，並且依照發生時間先後進行排序。此方式產生的疾病序列中的疾病可能重複。

此外，在一實施例中，處理器會刪除病史資料中部分疾病(亦稱為，第三疾病)以獲得由多個疾病(例如，前述的第二疾病)所組成的疾病序列。其中，第三疾病的發生時間是早於疾病序列中的疾病的發生時間。在疾病序列中的疾病是依照最早發生時間排序，且疾病序列中疾病的數量是小於或等於一預設數量。

舉例來說，假設預設數量為5，並且假設採取前述第二種方式，某人病史中在時間區間內所看診(或患病)的先後為「病2→病2→病1→病2→病4→病3→病3」，由於病史資料中的疾病(或看診)數量(即，7)大於預設數量，處理器例如可以刪除病史資料中較早出現的疾病「病2→病2」而得到「病1→病2→病4→病3→病3」的疾病序列。

在經由前述方式獲得時間區間內的第二疾病後，可以在步驟S109中根據疾病種類將疾病序列中的第二疾病編碼為一維或二維的編碼後資料(或稱為，向量)，並將所述編碼後資料作為處理後資料，並在步驟S111中將此處理後資料輸入至神經網路以訓練神經網路。

在此以將第二疾病編碼為一維的編碼後資料為例進行說明。假設疾病類別總共有5種，且「病1」、「病2」、「病3」、「病4」與「病5」會被分別定義為「[1,0,0,0,0]」、「[0,1,0,0,0]」、「[0,0,1,0,0]」、「[0,0,0,1,0]」與「[0,0,0,0,1]」。假設經由前述方式所獲得的疾病序列為「病2→病1→病4→病3」，則處理器可以將疾病序列轉換為：「[0,1,0,0,0]→[1,0,0,0,0]→[0,0,0,1,0]→[0,0,1,0,0]」，並將進而將而產生一維資料「[0,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,1,0,0]」。之後，可以將此一維資料輸入至以一維資料作為輸入的神經網路。

在此以將第二疾病編碼為二維的編碼後資料為例進行說明。假設疾病類別總共有5種，且「病1」、「病2」、「病3」、「病4」與「病5」會被分別定義為「[1,0,0,0,0]」、「[0,1,0,0,0]」、「[0,0,1,0,0]」、「[0,0,0,1,0]」與「[0,0,0,0,1]」。假設經由前述方式所獲得的疾病序列為「病2→病1→病4→病3」，則處理器可以將疾病序列轉換為：「[0,1,0,0,0]→[1,0,0,0,0]→[0,0,0,1,0]→[0,0,1,0,0]」，並進而產生如下述矩陣的二維資料：

之後，可以將此二維資料輸入至以二維資料作為輸入的神經網路(例如，LSTM)。

特別是，由於上述的一維或二維資料是依照時間先後順序的方式來編碼各個疾病，而在編碼後的資料中仍會保留各個疾病間的先後關係。

而在訓練神經網路的過程中，例如可以使用Sentence embedding的方法，設置轉換後向量長度M，與神經網路(例如，LSTM)一起訓練。

[詞頻資訊]

請參照圖3，在一實施例中，處理器可以直接取病史資料DD中位於前述時間區間內的疾病D1~D2作為構成前述疾病序列的第二疾病。處理器會對此些疾病D1~D2加權後(在此不限權重)，將此些疾病視為字詞(word)並使用TF-IDF演算法分別轉換為詞頻資訊E1~E2。

須說明的是，本發明並不用於限定如何對疾病加權。在一實施例中，可以基於是否曾經看過診進行加權。例如，看診過的疾病的權重可以被設為1，否則=0。

在另一實施例中，可以基於看診過的次數進行加權。假設某人病史為：「病2→病2→病1→病2→病4→病3→病3」，則此人病1的權重值為1，病2的權重值為3，病3的權重值為2，病4的權重值為1。

在另一實施例中，可以基於其他病史資訊進行加權。其他病史資料如：個別疾病用藥量、手術資訊、標誌慢性病、其他處置等等，在此並不作限制。

在另一實施例中，也可以使用疾病用藥量進行加權。假設某甲、乙、丙三人曾看過糖尿病，用藥量分別為2單位、1單位、3單位，則三人的糖尿病權重分別為2、1、3。

在另一實施例中，也可以先以其他機器學習方法排序疾病重要性，再以此重要性進行加權。

在分別將加權後的第二疾病轉換為詞頻資訊後，處理器會將詞頻資訊作為處理後資料，並將此處理後資料輸入至神經網路以訓練神經網路。特別是，詞頻資訊的格式通常符合一般機器學習輸入資料格式，故可直接輸入神經網路進行訓練。

在經由上述方式將神經網路訓練完成後，當神經網路收到一受測者的病史資料時，可以藉由此神經網路判斷是否會罹患目標疾病(例如，失智症)或罹患目標疾病的機率。

綜上所述，本發明的訓練資料處理方法與電子裝置用以將用以訓練模型的資料進行前處理，使得使用處理後的資料所建立的神經網路模型的預測效果較傳統機器學習方法佳，並且讓所建立的模型的應用情境符合真實使用情境。

S101、S103、S105、S107、S109、S111:步驟

Claims

一種訓練資料處理方法，用於一電子裝置，所述方法包括：獲得包括一使用者所罹患的至少一第一疾病的一病史資料；根據一目標疾病設置多個疾病種類；設置一時間區間；從所述病史資料中獲得位於所述時間區間內的至少一第二疾病；根據所述疾病種類對所述第二疾病執行一前處理操作以獲得一處理後資料；以及將所述處理後資料輸入至一神經網路以訓練所述神經網路，其中所述神經網路用以預測所述使用者是否會罹患所述目標疾病或罹患所述目標疾病的一機率。
如請求項1所述的訓練資料處理方法，其中所述使用者罹患所述目標疾病，所述時間區間介於一第一時間點以及一第二時間點之間，所述第一時間點為罹患所述目標疾病的時間點的Z年前，且所述第二時間點為所述第一時間點的X年前，Z與X為正數。
如請求項1所述的訓練資料處理方法，其中所述使用者未罹患所述目標疾病，其中所述時間區間介於一第三時間點以及一第四時間點之間，所述第三時間點為獲得所述病史資料的時間點的Z年前或一任意時間點，且所述第四時間點為所述第三時間點的X年前，Z與X為正數。
如請求項1所述的訓練資料處理方法，其中從所述病史資料中獲得位於所述時間區間內的所述第二疾病的步驟包括：根據每一所述第一疾病的最早發生時間從所述第一疾病中獲得由所述第二疾病所組成的一疾病序列，其中在所述疾病序列中的所述第二疾病依照最早發生時間排序，所述第二疾病的數量小於或等於一預設數量，且所述第二疾病中的每一疾病僅出現一次。
如請求項1所述的訓練資料處理方法，其中從所述病史資料中獲得位於所述時間區間內的所述第二疾病的步驟包括：刪除所述病史資料中的至少一第三疾病以獲得由所述第二疾病所組成的一疾病序列，其中所述第三疾病的發生時間早於所述第二疾病的發生時間，在所述疾病序列中的所述第二疾病依照最早發生時間排序，所述第二疾病的數量小於或等於一預設數量。
如請求項5所述的訓練資料處理方法，其中根據所述疾病種類對所述第二疾病執行所述前處理操作以獲得所述處理後資料的步驟包括：根據所述疾病種類將所述疾病序列中的所述第二疾病編碼為一維或二維的編碼後資料，並將所述編碼後資料作為所述處理後資料。
如請求項1所述的訓練資料處理方法，其中根據所述疾病種類對所述第二疾病執行所述前處理操作以獲得所述處理後資料的步驟包括：對每一所述第二疾病加權；分別將加權後的所述第二疾病轉換為至少一詞頻資訊，並將所述詞頻資訊作為所述處理後資料。
一種電子裝置，包括：一輸入電路；以及一處理器，耦接至所述輸入電路，其中所述輸入電路獲得包括一使用者所罹患的至少一第一疾病的一病史資料，所述處理器根據一目標疾病設置多個疾病種類，所述處理器設置一時間區間，所述處理器從所述病史資料中獲得位於所述時間區間內的至少一第二疾病，所述處理器根據所述疾病種類對所述第二疾病執行一前處理操作以獲得一處理後資料，所述處理器將所述處理後資料輸入至一神經網路以訓練所述神經網路，其中所述神經網路用以預測所述使用者是否會罹患所述目標疾病或罹患所述目標疾病的一機率。
如請求項8所述的電子裝置，其中所述使用者罹患所述目標疾病，所述時間區間介於一第一時間點以及一第二時間點之間，所述第一時間點為罹患所述目標疾病的時間點的Z年前，且所述第二時間點為所述第一時間點的X年前，Z與X為正數。
如請求項8所述的電子裝置，其中所述使用者未罹患所述目標疾病，其中所述時間區間介於一第三時間點以及一第四時間點之間，所述第三時間點為獲得所述病史資料的時間點的Z年前或一任意時間點，且所述第四時間點為所述第三時間點的X年前，Z與X為正數。
如請求項8所述的電子裝置，其中在從所述病史資料中獲得位於所述時間區間內的所述第二疾病的運作中，所述處理器根據每一所述第一疾病的最早發生時間從所述第一疾病中獲得由所述第二疾病所組成的一疾病序列，其中在所述疾病序列中的所述第二疾病依照最早發生時間排序，所述第二疾病的數量小於或等於一預設數量，且所述第二疾病中的每一疾病僅出現一次。
如請求項8所述的電子裝置，其中在從所述病史資料中獲得位於所述時間區間內的所述第二疾病的運作中，所述處理器刪除所述病史資料中的至少一第三疾病以獲得由所述第二疾病所組成的一疾病序列，其中所述第三疾病的發生時間早於所述第二疾病的發生時間，在所述疾病序列中的所述第二疾病依照最早發生時間排序，所述第二疾病的數量小於或等於一預設數量。
如請求項12所述的電子裝置，其中在根據所述疾病種類對所述第二疾病執行所述前處理操作以獲得所述處理後資料的運作中，所述處理器根據所述疾病種類將所述疾病序列中的所述第二疾病編碼為一維或二維的編碼後資料，並將所述編碼後資料作為所述處理後資料。
如請求項8所述的電子裝置，其中在根據所述疾病種類對所述第二疾病執行所述前處理操作以獲得所述處理後資料的運作中，所述處理器對每一所述第二疾病加權，所述處理器分別將加權後的所述第二疾病轉換為至少一詞頻資訊，並將所述詞頻資訊作為所述處理後資料。