TWI807467B

TWI807467B - 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法

Info

Publication number: TWI807467B
Application number: TW110140778A
Authority: TW
Inventors: 劉邦旭; 李藝鋒; 宋政隆; 王俊權
Original assignee: 中國信託商業銀行股份有限公司
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2023-07-01
Also published as: TW202319961A

Abstract

一種要項偵測模型建立方法，包括以下步驟：接收多筆訓練用文件影像檔案、對於每一文件影像檔案接收針對複數個業務種類所作的標記以分別形成與該文件影像檔案對應的業務標記檔案，以及使該等文件影像檔案、該等業務標記檔案輸入一神經網路系統進行訓練，針對每一業務種類訓練形成一業務子模型；最終形成包括複數個業務子模型的一要項偵測模型。

Description

要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法

本發明是有關於一種文件辨識方法，尤其是指一種依據業務種類對文件影像進行辨識的方法。

光學字元辨識(Optical Character Recognition，簡稱OCR)技術可針對文件影像進行分析辨識處理，主要包括「文字區域偵測(text detection)」以及「文字辨識(text recognition)」兩大步驟。其中，「文字區域偵測」係針對指定頁或整份文件進行偵測，「文字辨識」則是對偵測到的文字區域進行字元切割以及字元辨識等等。

參閱圖1，當OCR應用來辨識表單文件，會先偵測出文字區域(例如是圖中粗框部分)，接著辨識當中的文字。現有技術中，有些應用程式可依據預設的規則(例如框的距離)判斷出項目，例如「金融機構名稱」、「銀行代碼」及「金融機構存款帳號」等項目，並依據預定的關係取得對應資料，例如判斷各該項目的下方是否有對應的文字或數字，若有則進行辨識。最後，將辨識結果以預設規則(例如「項目」+「：」+「數字」)輸出，例如「銀行代號：456」，「金融機構存款帳號：78910123456789」。

因此，本發明之目的，在於提供一種要項偵測模型建立方法，包括以下步驟：接收多筆訓練用文件影像檔案、對於每一文件影像檔案接收針對複數個業務種類所作的標記以分別形成與該文件影像檔案對應的業務標記檔案，以及使該等文件影像檔案、該等業務標記檔案輸入一神經網路系統進行訓練，針對每一業務種類訓練形成一業務子模型；最終形成包括複數個業務子模型的一要項偵測模型。

在本發明要項偵測模型建立方法的一些實施態樣中，該接收標記的步驟係針對各該業務種類分別建立一個業務標記檔案資料夾，各該業務標記檔案資料夾儲存該等業務標記檔案。

在本發明要項偵測模型建立方法的一些實施態樣中，該接收標記的步驟，係藉由對各該文件影像檔案進行以下操作而達成：一要項鍵標記名稱並框選一要項鍵框以標記要項鍵、紀錄一要項值標記名稱並框選一要項值框以標記要項值，以及紀錄一邊界框名稱並框選涵蓋該要項鍵框與該要項值框的一邊界框。

在本發明要項偵測模型建立方法的一些實施態樣中，各該業務標記檔案紀錄了至少一組的要項鍵標記名稱及要項鍵框的座標資料、要項值標記名稱及要項值框的座標資料，以及邊界框名稱與涵蓋該要項鍵框、要項值框的邊界框的座標資料。

本發明之另一目的在於提供一種業務導向要項鍵值辨識系統，包括一處理器、一與該處理器電連接的電腦可讀媒體，以及利用前述方法所建立的要項偵測模型，該要項偵測模型用於針對一輸入的標的文件影像檔案，按照業務需求偵測出至少一要項鍵以及其對應的要項值。

在本發明業務導向要項鍵值辨識系統的一些實施態樣中，該業務導向要項鍵值辨識系統還包含一光學字元辨識模型，接收來自該要項偵測模型的落在同一個邊界框內的該要項鍵框內之影像以及該要項值框內之影像並進行字元辨識後輸出。

在本發明業務導向要項鍵值辨識系統的一些實施態樣中，該電腦可讀媒體儲存有該要項偵測模型。

本發明之再一目的，在於提供一種業務導向要項鍵值辨識方法。該方法包括：接收一標的文件影像檔案；接收一業務需求的選項輸入；依照該業務需求套用一要項偵測模型中複數個子模型中的一個對應該業務需求的子模型，該子模型已預先依照業務需求完成訓練；該子模型對該標的文件影像檔案進行偵測，從該標的文件影像檔案中偵測出至少一要項鍵影像、其對應的要項值影像，以及給定一偵測邊界框；以及判斷該要項鍵影像、要項值影像是否落在該偵測邊界框內，若是，則將該要項鍵影像、要項值影像帶入一光學字元辨識模組中，得到一辨識結果並輸出。

在本發明業務導向要項鍵值辨識方法的一些實施態樣中，該子模型對該標的文件影像檔案進行偵測的步驟，是偵測該標的文件影像檔案中的要項鍵影像並給定一個圍繞該要項鍵影像周圍的一偵測要項鍵框、偵測要項值影像並給定一個圍繞該要項值影像周圍的一偵測要項值框，以及按照訓練結果給定該偵測邊界框。

在本發明業務導向要項鍵值辨識方法的一些實施態樣中，該判斷該要項鍵、要項值所在範圍是否落在該邊界框內的步驟，是判定該偵測要項鍵框、偵測要項值框是否落在該偵測邊界框內。

本發明之功效在於：可根據業務需求辨識要項鍵及對應的要項值，毋須辨識整份文件影像，大幅減輕硬體負擔以及降低時間成本。

100:業務導向要項鍵值辨識系統

10:要項偵測模型

101:金融業務子模型

102:壽險業務子模型

20:OCR模型

91:處理器

92:電腦可讀媒體

93:輸出裝置

S11~S13:要項偵測模型建立方法之步驟

S121~S123:對文件影像檔案標記之步驟

S21~S26:業務導向要項鍵值辨識方法之步驟

51:要項鍵框

52:要項值框

53:邊界框

本發明之其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是一文件影像檔案的示意圖；圖2是一方塊圖，說明本發明業務導向要項鍵值辨識系統的一實施例；圖3是一流程圖，說明本發明要項偵測模型建立方法的一實施例；圖4是一流程圖，說明本發明業務導向要項鍵值辨識方法的一實施例；及圖5是一訓練用文件影像檔案的示意圖。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖2，本發明業務導向要項鍵值辨識方法的一實施例可根據業務需求辨識要項及對應的鍵值。該實施例可藉由一業務導向要項鍵值辨識系統100執行，該系統100是由一處理器91以及儲存有程式指令且與該處理器91電連接的電腦可讀媒體92來實現，當處理器91執行指令時組配來執行業務導向要項鍵值辨識方法，並透過與該處理器91電連接的輸出裝置93輸出辨識結果。在其他實施例，也可以是利用例如場域可編程邏輯閘陣列(field-programmable gate array，簡稱FPGA)、微型處理器(micro processor)或系統單晶片(system on chip)等硬體或韌體來實現，並且可採用單一裝置或分散式裝置來執行功能。

參閱圖3，本發明業務導向要項鍵值辨識方法的實施例包括步驟S21~S28，且在執行該業務導向要項鍵值辨識方法前，需預先建立一要項偵測模型10。該要項偵測模型10的建立方法可以如圖4所示，包括以下步驟。

步驟S11-接收多筆訓練用文件影像檔案。該等文件影像檔案例如銀行保險業者所使用的各種業務申請書、授權書、等文件的掃描檔案，或是以編輯軟體加入數位手寫輸入的文件檔案。

步驟S12-對於各該文件影像檔案，接收針對複數個業務種類分別作的標記(lable)。下文中，該等業務種類以「第一業務」及「第二業務」舉例說明，其中「第一業務」例如為「金融業務」，「第二業務」例如為「壽險業務」，但不以此為限。

本步驟具體執行方式，可以是針對各種業務分別建立一個「業務標記檔案資料夾」，並儲存與文件影像檔案一對一對應的業務標記檔案。在本實施例，進行標記的操作者使用一自行開發的標記軟體進行標記，可以先建立一包含該等文件影像檔案的影像資料夾，並且預設好一「金融業務」業務標記檔案資料夾及一「壽險業務」業務標記檔案資料夾。接著在標記應用程式介面中設定好資料夾路徑、輸入要項鍵標記名稱之後，即可選擇該影像資料夾中的文件影像檔案逐一進行標記。進行標記的具體步驟包括S121標記要項鍵、步驟S122標記要項值，以及步驟S123形成邊界框。在其他實施例，進行標記的操作者可使用例如LabelImg應用程式來進行標記。

配合參閱圖5，以「壽險業務」來說，步驟S121例如標記影像中一個要項「要保人簽名」，首先設定一要項鍵標記名稱「sig_applicant」，接著在影像上有「要保人簽名」處框選一要項鍵框51，標記應用程式則連同該要項鍵標記名稱記錄該要項鍵框51的座標資料，儲存在一業務標記檔案中。若影像中多處出現「要保人簽名」，操作者就要框選出多個矩形框。前述業務標記檔案依據所設定的資料夾路徑儲存於該「壽險業務」業務標記檔案資料夾內，並且與該文件影像檔案為一對一對應，格式例如為xml或者txt文字檔。該要項鍵框51的座標資料可以是四個角之座標，也可以是矩形框51的中心點座標以及其長度與寬度或其他形式。

接著進行步驟S122，標記該要項鍵對應的要項值。須先說明的是，本發明定義「要項『值』」係泛指書表填寫內容，並不以數值為限。繼續以圖5舉例來說，影像右上角的「要保人簽名」下方空白處，即為預設的要保人簽名處，也就是「要項值」的位置。本步驟例如設定一要項值標記名稱為「sig_applicant_val」，然後操作者在「要保人簽名」下方空白處框選出一要項值框52，標記應用程式則連同該要項值標記名稱記錄該要項值框52的座標資料，儲存在同一個業務標記檔案中。

在步驟S123，進一步取得一「要保人簽名」邊界框(bounding box)53，並將該「要保人簽名」邊界框53紀錄於該業務標記檔案中。具體方式例如將該要項鍵的座標資料與該要項值的座標資料綜合計算得到最大矩形框，作為該「要保人簽名」邊界框(bounding box)53；或者，由操作者設定一邊界框名稱為「sig_applicant_bb」，然後操作者自行框選出涵蓋該要項鍵框51、要項值框52的一邊界框53，標記應用程式則將該邊界框名稱與該邊界框座標資料，共同儲存在同一個業務標記檔案中。

依此類推，要在同一影像標記「保單號碼」時，先設定要項鍵標記名稱為「policy_no.」並在影像上有「保單號碼」處進行框選(步驟S121)，接著設定要項值標記名稱為「policy_no._val」並在影像上保單號碼下方表格處框選(步驟S122)，最後形成「保單號碼」邊界框。完成後，該同一個業務標記檔案即進一步紀錄了要項鍵標記名稱「policy_no.」的要項鍵框座標資料、要項值標記名稱「policy_no._val」的要項鍵框座標資料，以及其邊界框名稱與座標資料。

如此一來，假設要訓練一百份文件影像檔案，則須針對所有業務種類分別進行標記，例如就「金融業務」進行標記而在「金融業務標記資料夾」產生一百個業務標記檔案，就「壽險業務」進行標記而在「壽險業務標記資料夾」產生一百個業務標記檔案。也就是說，每一個文件影像檔案都有對應的業務標記檔案，每一個業務標記檔案包括多組要項鍵標記名稱與座標資料、要項值標記名稱與座標資料，以及邊界框名稱與座標資料。

步驟S13-使該等文件影像檔案、業務標記檔案輸入一神經網路系統進行訓練，定義該訓練完成的神經網路為該要項偵測模型10，該要項偵測模型10儲存於該電腦可讀媒體92中，並包含複數個業務子模型。

本步驟具體來說，可以先建立設定檔(configuration file,cfg檔)資料夾，該設定檔內容可以包括業務種類(例如「金融業務」或「壽險業務」)、標記列表(例如要項鍵標記名稱「sig_applicant」、「policy_no.」)、影像檔列表(檔名)、一預設的權重值資料夾及其路徑、批次大小(batch size)等等。接著，配合參閱圖2，以訓練「金融業務」用之子模型來說，使一神經網路(例如採用神經網路Darknet)按照該設定檔的設定，讀取訓練用的所有文件影像檔案及其對應的「金融業務」標記資料夾中的標記資料進行訓練，訓練完成後建立一金融業務子模型101。訓練完成的該金融業務子模型101用於從輸入的文件影像檔案中偵測出例如「金融機構代號」等要項鍵以及其對應的「要項值」。

以訓練「壽險業務」用之子模型來說，本步驟是使該神經網路按照該設定檔的設定，讀取訓練用的所有文件影像檔案及其對應的「壽險業務」標記資料夾中的標記資料進行訓練，訓練完成後建立一壽險業務子模型102。訓練完成的該壽險業務子模型102用於從輸入的文件影像檔案中偵測出例如「要保人簽名」等要項鍵以及其對應的「要項值」。

當該要項偵測模型10建立完成，即可供該業務導向要項鍵值辨識系統100執行業務導向要項鍵值辨識方法使用。參閱圖2及圖3，首先，在步驟S21，該要項偵測模型10接收一標的文件影像檔案(圖未示，類似於圖5)。

在步驟S22，該要項偵測模型10接收一業務需求的選項輸入，例如「金融業務」或「壽險業務」其中一種。

在步驟S23，該要項偵測模型10依據步驟S22所接收的輸入選項，套用對應的子模型。具體來說，例如，當步驟S22所接收的輸入為「金融業務」則本步驟將該標的文件影像檔案輸入該金融業務子模型101；當步驟S22所接收的輸入為「壽險業務」則本步驟將該標的文件影像檔案輸入該壽險業務子模型102。下文以系統使用者為壽險業務人員、且步驟S22是接收該使用者操作所輸入的「壽險業務」選項來進行說明，在本步驟S23中，該標的文件影像檔案輸入該壽險業務子模型102。

在步驟S24，該壽險業務子模型102對該標的文件影像檔案進行偵測，依據訓練結果偵測影像中的要項鍵影像並給定一個圍繞該要項鍵影像周圍的偵測要項鍵框、偵測要項值影像並給定一個圍繞該要項值影像周圍的偵測要項值框，並且按照訓練結果給定一個偵測邊界框。

在步驟S25，該壽險業務子模型102判定該偵測要項鍵框、偵測要項值框是否完全落在偵測邊界框內？若是，則判定偵測結果符合預期，接著進行步驟S26；若否，則推測所偵測到的要項鍵、要項值並非相關，結束流程。須說明的是，步驟S24與S25所描述之判定方式僅為其中一種舉例，該壽險業務子模型102對於偵測邊界框的給定方式可以加大10%以容納誤差範圍；判斷條件的設定，也可以是例如該偵測要項鍵框、偵測要項值框的範圍的80%以上落在該偵測邊界框內即可。

在步驟S26，將落在同一個偵測邊界框內的要項鍵影像以及要項值影像傳送到一光學字元辨識(Optical Character Recognition，簡稱OCR)模型20進行字元辨識，得到成對的辨識結果。例如辨識出中文字「保單號碼」以及一串手寫數字。

最後，在步驟S27，該處理器91將該OCR模型20的辨識結果依據對應關係以及預設格式，透過該輸出裝置93進行輸出。例如當該OCR模型20辨識得到成對的文字「保單號碼」與一串數字(例如1234567890)，處理器91透過輸出裝置93輸出「保單號碼：1234567890」的結果。

綜上所述，本發明應用人工智慧技術，對於各種文件影像按照業務類別進行要項鍵與要項值預先標記並訓練出該要項偵測模型10，使該要項偵測模型10能夠依據業務需求去偵測文件影像中所需的要項再進行OCR辨識。由於只偵測業務相關的要項，因此本發明可大幅改善傳統OCR文件辨識所耗費的業務處理時間。以圖1所示的「股東領取現金股利方式申請書」舉例來說，若針對甲部門訓練出「甲業務子模型」用來偵測「銀行代號」與「金融機構存款帳號」兩欄；針對乙部門訓練出「乙業務子模型」用來偵測「金融機構存款帳號」一欄。從實測結果發現，使用訓練好的「乙業務子模型」產生輸出結果的時間，比使用訓練好的「甲業務子模型」產生輸出結果的時間縮短了50%；與採用傳統OCR辨識整份文件比起來，更是縮短了90%的時間。再以圖5「保險費付款授權書」舉例來說，由於整份文件影像內容複雜，針對壽險公司訓練的「壽險業務子模型」只偵測要保人資料，比起傳統OCR辨識整份文件的方式，本發明效率提升十倍以上。由此可知，確實能達成本發明之目的。

惟以上所述者，僅為本發明之實施例而已，當不能以此限定本發明實施之範圍，凡是依本發明申請專利範圍及專利說明書內容所作之簡單的等效變化與修飾，皆仍屬本發明專利涵蓋之範圍內。

100····· 業務導向要項鍵值辨識系統 10······ 要項偵測模組 101····· 金融業務子模型 102····· 壽險業務子模型 20······ OCR模型 91······ 處理器 92······ 電腦可讀媒體 93······ 輸出裝置

Claims

一種要項偵測模型建立方法，由一處理器以及儲存有程式指令且與該處理器電連接的電腦可讀媒體來實現，當該處理器執行程式指令時組配來執行以下步驟：接收多筆訓練用文件影像檔案；接收標記：對於每一文件影像檔案，接收針對複數個相關於銀行的業務種類所作的標記，分別形成與該文件影像檔案對應的業務標記檔案；使該等文件影像檔案、該等業務標記檔案輸入一神經網路系統進行訓練，針對每一業務種類訓練形成一業務子模型；最終形成包括複數個業務子模型的一要項偵測模型並儲存於該電腦可讀媒體中；其中，所接收的業務標記檔案是藉由一標記應用程式產生：該標記應用程式紀錄一要項鍵標記名稱並框選一要項鍵框以標記要項鍵；該標記應用程式紀錄一要項值標記名稱並框選一要項值框以標記要項值，以及該標記應用程式紀錄一邊界框名稱並框選涵蓋該要項鍵框與該要項值框的一邊界框。
如請求項1所述的要項偵測模型建立方法，其中該接收標記的步驟係針對各該業務種類分別建立一個業務標記檔案資料夾，各該業務標記檔案資料夾儲存該等業務標記檔案。
如請求項1所述的要項偵測模型建立方法，其中各該業務標記檔案紀錄了至少一組的要項鍵標記名稱及要項鍵框的座標資料、要項值標記名稱及要項值框的座標資料，以及邊界框名稱與涵蓋該要項鍵框、要項值框的邊界框的座標資料。
一種業務導向要項鍵值辨識系統，包含：一處理器；一電腦可讀媒體，與該處理器電連接，並儲存有一要項偵測模型；其中，該要項偵測模型，如請求項1至3中任一項所述的方法建立，用於針對一輸入的標的文件影像檔案，按照業務需求偵測出至少一要項鍵以及其對應的要項值。
如請求項4所述的業務導向要項鍵值辨識系統，還包含：一儲存於該電腦可讀媒體中的光學字元辨識模型，接收來自該要項偵測模型的落在同一個邊界框內的一要項鍵框內之影像以及該要項值框內之影像並進行字元辨識後輸出。
如請求項4所述的業務導向要項鍵值辨識系統，其中，該電腦可讀媒體儲存有該要項偵測模型。
一種業務導向要項鍵值辨識方法，藉由一業務導向要項鍵值辨識系統實施，並包含以下步驟：接收一標的文件影像檔案；接收一業務需求的選項輸入；依照該業務需求套用一要項偵測模型中複數個子模型中的一個對應該業務需求的子模型，該子模型已預先依照業務需求完成訓練；該子模型對該標的文件影像檔案進行偵測，從該標的文件影像檔案中偵測出至少一要項鍵影像、其對應的要項值影像，以及給定一偵測邊界框；以及判斷該要項鍵影像、要項值影像是否落在該偵測邊界框內，若是，則將該要項鍵影像、要項值影像帶入一光學字元辨識模組中，得到一辨識結果並輸出。
如請求項7所述的業務導向要項鍵值辨識方法，其中，該子模型對該標的文件影像檔案進行偵測的步驟，是偵測該標的文件影像檔案中的要項鍵影像並給定一個圍繞該要項鍵影像周圍的一偵測要項鍵框、偵測要項值影像並給定一個圍繞該要項值影像周圍的一偵測要項值框，以及按照訓練結果給定該偵測邊界框。
如請求項8所述的業務導向要項鍵值辨識方法，其中該判斷該要項鍵、要項值所在範圍是否落在該邊界框內的步驟，是判定該偵測要項鍵框、偵測要項值框是否落在該偵測邊界框內。