TWM618756U - 影像識別系統 - Google Patents
影像識別系統 Download PDFInfo
- Publication number
- TWM618756U TWM618756U TW110208671U TW110208671U TWM618756U TW M618756 U TWM618756 U TW M618756U TW 110208671 U TW110208671 U TW 110208671U TW 110208671 U TW110208671 U TW 110208671U TW M618756 U TWM618756 U TW M618756U
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- data
- module
- recognition
- graphic
- Prior art date
Links
Images
Landscapes
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本創作提出一種影像識別系統,其架構包含:控制模組,提供系統的運作與管理;輸入模組,輸入影像資料;影像前處理模組,耦接輸入模組,調整影像資料的資料品質,其中,影像前處理模組包含定位單元,定位影像資料的圖文座標;識別模組,耦接影像前處理模組,藉由圖文座標,調整影像資料中所需處理的圖文區域,並依據圖文區域,輸出識別資料。
Description
本創作涉及一種影像識別系統,更詳而言之,為一種藉由識別模組將所欲識別的影像資料進行比對後,轉譯出影像資料所對應圖文或符號的識別系統。
近年來,隨著硬體運算能力的日益精進,以及掃瞄儀器和手持設備大行其道的情況下,使得圖像識別的技術被廣泛運用於市場。其中,所謂的圖像識別技術,為一種辨識影像資料的技術。一般常見的應用,為透過掃描儀器將已經為電腦列印,具特定格式的文字或圖像,以光學掃描的方式輸入電腦,並經特定的編碼識別後,取代使用者的手動輸入,從而縮短工作時間,這對於處理龐大的印刷資料產生極大的幫助。此外,相對於前述光學掃描,目前市場上對於手寫的字體或符號亦有手寫辨識系統的應用,藉由如手寫板、觸控板、觸控螢幕所輸入的文字,以進行符號或文字的辨識。
光學掃描技術最早被利用來處理大量的報刊雜誌、文件和單據報表等等。對於擁有數量龐大紙本文件的機構而言,利用文字辨識技術將文件電子化,除了減少存放空間,亦可對各類文件設定電子標籤利於分類管理,因此印刷體的文字識別發展相對較早。以漢字印刷體來說,藉由光學掃描技術進行輸入的研究,最早由兩位IBM公司旗下的研究員Casey和Nagy,在1966年於IEEE期刊發表了關於漢字識別的論文。該篇論文中,藉由將印刷體漢字的字型拆分為二極化矩陣的模板建檔為資料庫,接著採用上述資料庫的內容對所需辨識的對象進行模板匹配,最終達成可識別出1000個印刷體漢字的研究成果。
此外,對於在手寫文件上辨識文字的方法,在台灣先前的相關技
術中,工研院亦在台灣專利公告號TW 294804揭示了一種透過OCR進行中英文表單辨識方法。該專利包含利用表單學習模組針對欲辨識的表單進行欄位、字元、格線等位置座標的學習,以加強對欲抽取的字元所位於的欄位加以定位的精準度,校正表單掃描時的傾斜與偏移;在抽取預定欄位的字元後,依照應用的需求以單一比對演算法(如該’804案中,較佳實施例之詳細描述、C.資料萃取、3.字元抽取、(ii)手寫字元抽取小節中所述),或數個比對演算法和資料庫所儲存的字元比對,以其比對後的信心分數決定其是否需要人工更正表單。
承上述,對於光學掃描來說,包含文字或圖像,而影響後續文字辨識之辨識率高低最重要的因素,在於其特徵的萃取,與所述特徵的比對。近年來,機器學習興起加上硬體設備支援,卷積神經網路(Convolutional Neural Networks,CNN)在圖像識別上,成了特徵萃取的主流。常見之卷積神經網路結構多由一個或多個卷積層和頂端的全聯通層組成,同時也常包含關聯權重與池化層(Pooling Layer),藉由在所輸入的像素矩陣上,滑動各個對應不同特徵的卷積核過程中,卷積核與所輸入的像素矩陣之間會進行卷積運算(Convolution),即執行像素矩陣和卷積核對應元素的乘積並求和,以將感像素矩陣上特定區域的資訊投影到特徵矩陣中,萃取出諸如直線、橫線、斜線、圓等特徵。
然而,上述的文字辨識技術儘管在近年來有長足的發展,對於格式固定且工整的圖像或文字印刷體能達到極高的辨識率,但是對於相對潦草或變化較大的情況,尤其是手寫文字的識別,由於每個人書寫的習慣與筆跡皆不相同,其辨識率則偏低,僅能當作娛樂與趣味應用,或在辨識後由人工對辨識結果加以修正,而無法達到能被正式應用的水平,特別是當辨識出的文字需應用於正式的文件,如銀行支票、契約文件、法律文件時尤其如此。此外,在先前的技術中,也較缺乏將所辨識出的文字,在經由判讀文意後,轉換為另一種格式的應用,例如在銀行支票,或買賣契約中,將不同表示方式的手寫的漢字,如「伍仟零壹圓整」、「五仟零一圓整」、「伍仟零壹元」、「五千零一元整」等文字,轉換為對應同一文意的阿拉伯數字「5001」,造成了在商務應用上,依然需要花費大量的人力資源對較常規的文件進行審核。是以,在現時時點上,有關於圖文識別的技術,依然有進一步改善的空間。
有鑒於前述習知技術的缺點,本創作提出一種影像識別系統,其系統的架構,包含:控制模組,提供系統的運作與管理;輸入模組,輸入影像資料;影像前處理模組,耦接輸入模組,調整影像資料的資料品質,其中,影像前處理模組包含定位單元,定位影像資料的圖文座標;識別模組,耦接影像前處理模組,將影像資料分解為多個分解資料,並依據前述的圖文座標,輸出識別資料予控制模組。其中,本創作中所指的影像資料,可包含印刷或手寫於各類文件、物體的文字或符號,例如「伍仟零壹圓整」;此外,本創作中所指的識別資料,包含將上述文字或符號經過影像識別系統識別後,所輸出各種格式,例如txt.、doc.、docx.、xlsx,對應於印刷或手寫的文字或符號,如「伍仟零壹圓整」,或阿拉伯數字「5001」。其中,在本創作一實施例中,阿拉伯數字的長度範圍,可為0-20位。
根據本創作之內容,上述影像前處理模組更包含裁切單元,將影像資料依照圖文座標切出所需識別的圖文區域,並將圖文區域的識別結果傳輸回識別模組,提高圖文區域以及定位單元所定位圖文座標的精準度。
根據本創作之內容,上述影像前處理模組更包含校正單元,將影像資料依照圖文座標判定影像資料的圖文角度或圖文色彩,並將圖文角度或圖文色彩的識別結果傳輸回識別模組,提高識別精準度。
根據本創作之內容,上述影像前處理模組更包含分類單元,將影像資料依照圖文座標判定影像資料的圖文類型,並將圖文類型的識別結果傳輸回識別模組,提高圖文類型的識別精準度。
根據本創作之內容,所述的識別模組,基於編碼-解碼架構(Encoder-Decoder),包含編碼單元,藉由特徵提取矩陣將影像資料轉換為向量形式的編碼資料;解碼單元,依據編碼資料,計算出編碼資料的特徵向量,並輸出為解碼資料。
根據本創作之一實施例,影像識別系統可以根據應用的需要,選擇包含資料儲存模組,耦接控制模組,將解碼資料與/或識別資料儲存為訓練資料。其中,解碼資料中,包含圖文座標、圖文區域、圖文角度、圖文色彩、圖文類型。
在本創作一實施例,上述的定位單元以一應用的情境舉例,可具有一自動定位辨識目標位置(Automatic Positioning)的步驟,可先將輸入的影像資料(例如支票),先依據應用的需要透過裁切單元裁切出一部分,例如上半部,或下半部。定位單元則依照裁切單元所裁切的區域,輸出一圖文座標,例如(x,y),並由該圖文座標為基準,上下左右依據一預設值進行裁切需要辨識的範圍,例如橫軸自x-△x至x+△x,縱軸自y-△y至y+△y,識別此一範圍可表示例如「伍仟零壹圓整」或阿拉伯數字「5001」的圖文範圍,並再以裁切單元所裁切出的範圍進行後續的辨識流程。
此外,為了改善習知技術的缺點,本創作同時提出了一種影像識別方法,其方法步驟,包含藉由輸入模組輸入待辨識的影像資料與訓練資料;將影像資料與訓練資料輸入識別模組,並藉由比對影像資料與訓練資料,以調整編碼單元、解碼單元中的向量權重;識別模組將依據向量權重與影像資料,判讀對應於影像資料的識別資料並加以輸出至所需的終端,該終端可為但不限於智慧手機、平板、筆記型電腦、桌上型電腦或是智慧穿戴裝置。
其中,在本創作內容中,上述的步驟包含於影像前處理的過程中,裁切所需識別的圖文區域。
根據本創作一實施例,影像識別方法的方法步驟中,包含將識別資料再次儲存為訓練資料。
根據本創作之一實施例,影像識別方法的方法步驟於訓練的過程中,更包含將所述識別資料比對訓練資料,並輸出一相關係數α,並計算相關係
數α是否大於一預設值K。
根據本創作之內容,影像識別方法的方法步驟中,更包含定位影像資料的圖文座標。
根據本創作之內容,影像識別方法的方法步驟中,更包含分類影像資料的圖文類型。
根據本創作之內容,影像識別方法的方法步驟中,更包含校正影像資料的圖文角度。
根據本創作之內容,影像識別方法的方法步驟中,更包含藉由識別模組,將上述的識別資料轉換為對應的文字或符號。
以上所述係用以說明本創作之目的、技術手段以及其可達成之功效,相關領域內熟悉此技術之人可經由以下實施例之示範與伴隨之圖式說明及
申請專利範圍更清楚明瞭本創作。
100:影像識別系統
101:控制模組
103:輸入模組
105:影像前處理模組
105a:裁切單元
105c:校正單元
105e:分類單元
105g:定位單元
107:資料儲存模組
109:識別模組
109a:編碼單元
109c:解碼單元
201:影像資料
203:分解資料
205:編碼資料
207:解碼資料
400:影像識別方法
S401-S407:方法步驟
S501-S507:方法步驟
如下所述之對本創作的詳細描述與實施例之示意圖,應使本創作更被充分地理解;然而,應可理解此僅限於作為理解本創作應用之參考,而非限制本創作於一特定實施例之中。
圖1係說明影像識別系統的系統架構。
圖2顯示識別模組中,編碼單元與解碼單元對所輸入的影像資料的處理方式。
圖3A係說明所輸入的影像資料,如何為影像識別系統轉換為編碼資料。
圖3B係說明所輸入的影像資料,如何為影像識別系統轉換為編碼資料。
圖4係說明影像識別方法的方法步驟。
圖5係進一步說明如何藉由機器學習達到影像識別的方法步驟。
本創作將以較佳之實施例及觀點加以詳細敘述。下列描述提供本創作特定的施行細節,俾使閱者徹底瞭解這些實施例之實行方式。然該領域之熟習技藝者須瞭解本創作亦可在不具備這些細節之條件下實行。此外,本創作亦可藉由其他具體實施例加以運用及實施,本說明書所闡述之各項細節亦可基於不同需求而應用,且在不悖離本創作之精神下進行各種不同的修飾或變更。本創作將以較佳實施例及觀點加以敘述,此類敘述係解釋本創作之結構,僅用以說明而非用以限制本創作之申請專利範圍,在本創作的方法中,各個步驟的執行順序,可為前後執行,亦可為同時執行,其可依照本領域實際應用的需要進行調整。以下描述中使用之術語將以最廣義的合理方式解釋,即使其與本創作某特定實施例之細節描述一起使用。
本創作之目的,在於試圖改善過往圖文識別的技術,其雖然對於格式固定工整的圖像或文字可以達到良好的辨識率,但對於書寫潦草,或所辨識的文字具有多種表達方式但代表同一文意時,則辨識率會大幅下降的缺失。本創作具體改善上述缺失的技術手段,在於使用機器學習的方式,藉由找出最佳化的演算法架構與所搭配的演算模型,以及整體所需的參數範圍,諸如考量包含如何於有限記憶體大小的情況下,於訓練與辨識效率中求取平衡、如何在演算模型進行影像資料的特徵萃取時能較快的收斂到最佳解、如何調整各個特徵萃取時的權重,以及圖文資料的辨識位置,以達成更好的辨識率,使圖文識別的技術亦能應用於較正式的文件,如銀行支票、契約文件、法律文件的識別,本創作進一步的技術手段,則將詳如下述。
為了達到上述目的,在本創作的策略中,為了使影像識別系統(100)得以分辨出輸入的影像資料(201),影像識別系統(100)須先藉由機器學習的技術手段,先行訓練出一演算模型。該演算模型包含了判斷影像資料(201)中,需判讀的圖文所在之座標、區域、角度、類型(例如,銀行支票、契約文件、法律文件等等。若為銀行支票,則可能為VIP支票、非VIP支票,或其他種類支票)、該圖文呈現之型態(如,印刷、手寫),及此些圖文表達的識別資料,(例如,「伍仟零壹圓整」、「伍千零壹元」,代表了阿拉伯數字「5001」)。由於不同座標、區域、角度、類型在真正執行辨識影像資料(201)前已經被影像識別系統(100)學習,其特徵萃取與特徵向量的運算將更有效率,以精準的探知影像資料(201)中待識別的資料。
因此,基於上述策略,請參閱圖1,本創作提出一種影像識別系統(100),其系統的架構包含:控制模組(101),提供系統的運作與管理;輸入模組(103),輸入影像資料(201);影像前處理模組(105),耦接輸入模組(103),調整影像資料(201)的資料品質,其中,影像前處理模組(105)包含定位單元(105g),定位影像資料(201)的圖文座標;識別模組(109),耦接影像前處理模組(105),將影像資料(201)分解為多個分解資料(203),藉由定位單元(105g)所定位的圖文座標,調整所需處理的圖文區域,並將資料座標傳輸回影像前處理模組(105),並依據前述的圖文區域輸出識別資料予控制模組(101)。其中,在本創作中,所述之控制模組(101),通常包含處理晶片、記憶體、顯示裝置、網路通訊模組、作業系統及應用程式等等,以通常已知方式相互連接,執行運算、暫存、顯示及資料傳輸,提供影像識別系統(100)之運作與管理協調等功能,基於控制模組(101)屬於通常已知的架構,故在此即不再贅述。
此外,在本創作之一實施例中,所述的識別資料可被人工比對或自動化的進一步回饋至識別模組(109)中,以進一步訓練機器學習的演算模型,改善資料識別的精準度。根據本創作之一觀點,除了識別資料外,本創作中的圖文座標、圖文區域、圖文角度、圖文色彩、圖文類型,亦可視應用的需要多次回饋至識別模組(109),以改善裁切單元(105a)、校正單元(105c)、分類單元(105e)、
定位單元(105g)的精準度。
其中,上述的影像識別系統(100)包含資料儲存模組(107),儲存由輸入模組(103)所輸入的訓練資料。在本創作之較佳的實施例中,所述的訓練資料來源,可包含圖文中任意表達型式的識別資料(例如,前述的銀行支票、契約文件、法律文件等等,或是圖文中的文字類型,如「伍仟零壹圓整」、「伍千零壹元」,代表了阿拉伯數字「5001」),以及事先已被標記出圖文座標、圖文區域、圖文角度、圖文色彩、圖文類型的影像資料(201);或是,識別模組(109)將每一次所輸出的識別資料再度回饋至識別模組(109),以進一步修正前述的圖文座標、圖文區域、圖文角度、圖文色彩,與圖文類型。亦即,在每一次的識別資料產生後,其辨識的結果經修正後(人工或由影像識別系統100自動化),均會被用於改進下一次識別資料辨識的精準度。
請參閱圖2、圖3A與圖3B,根據本創作之一觀點,為了較佳的對應「將影像資料(201)轉換為向量形式表達的編碼資料(205),再由編碼資料(205)經由特徵提取矩陣運算出解碼資料(207),並最終由識別模組(109)轉換為識別資料」此一序列至序列(Sequence to Sequence)形式的問題,在本創作較佳地實施例中,識別模組(109)採用基於編碼-解碼(Encoder-Decoder)的訓練架構,因此在識別模組(109)中,包含了編碼單元(109a)與解碼單元(109c)的系統元件。其中,編碼單元(109a)將數個分解資料(203)編碼為編碼資料(205),以及編碼單元(109a)將編碼資料(205)解碼為解碼資料(207)的過程中,編碼單元(109a)與解碼單元(109c)的演算模型,各自可以依照應用的需要,選擇例如卷積神經網路(Convolutional Neural Networks,CNN)、遞歸神經網路(Recurrent Neural Network,RNN)、長短期記憶網路(Long Short-Term Memory,LSTM)、雙向遞歸神經網路(Bidirectional RNN,BiRNN)、循環門控網路(Gated Recurrent Unit,GRU)、注意力模型(Attention)等等。舉例來說,該識別模組可採用循環門控網路作為編碼單元(109a),但於解碼單元(109c)採用雙向遞歸神經網路。其中,在本創作中所述的編碼資料(205)、解碼資料(207)可被表示為一高維度的向量。以編碼資料(205)而言,在本創作的一個實施例中,其可依據每個分解資料(203)的灰階色彩,將其表示為一二元值的矩陣。例如,將灰階色彩較高的部分,表示為1,而灰階色彩
較低之處表示為零。則在圖文「伍」中,編碼資料(205)的表達方式,則可為一u x v的矩陣,其中,u與v係不為0的正整數,並可依應用的需要選擇其大小。
承上述,在本案較佳的實施例中,編碼單元(109a)採用卷積神經網路,解碼單元(109c)則採用長短期記憶網路,並以注意力模型強化編碼資料(205)中特徵向量的向量權重,避免當所需學習的影像資料(201)與訓練資料數量龐大時,識別模組其特徵向量可能會有弱化的現象。此外,根據本創作之一觀點,為了較佳的使本創作中的編碼單元(109a)與解碼單元(109c)在應用於影像識別系統(100)的過程中,諸如訓練資料的建立、影像前處理模組(105)中的判斷執行(例如圖文座標、圖文區域、圖文角度、圖文色彩、圖文類型等前處理)、識別模組(109)依據前述的資料,輸出為識別資料的過程,能取得較好的訓練效率與辨識效率,其影像識別系統(100)的各種參數可設定為以下:Epoch(訓練次數):5-65;Batch Size(批次大小):10-1024;Early Stop(早停值):5-30;Learning Rate(學習率):10-2-10-6。其中,上列參數的設定,其優勢是可在記憶體的效率與記憶體容量間取得平衡,並同時達到辨識效率、特徵萃取、以及辨識率的優化,使影像識別系統(100)得以應用於正式文件的識別,例如銀行支票、契約文件,或法律文件。
根據本創作內容,影像前處理模組(105)包含裁切單元(105a),其裁切影像資料(201)的方式,請參閱圖3A。在本創作之實施例中,當所需辨識的影像資料(201)中具有多個圖文時,裁切單元(105a)依據資料儲存模組(107)中所儲存的訓練資料,裁切出與欲辨識圖文適當大小的圖文區域(如欄位、範圍),以先行篩選出每個圖文所存在的圖文區域。在本創作較佳地實施例中,圖文的整體被視為一個完整的輸入,裁切單元(105a)依照圖文座標,將圖文所在的圖文區域自原圖中分開,其無須針對不同圖文中的各別字元進行裁切(例如,將伍、仟、零、壹、圓、整各別切開)。而於演算模型建立的過程中,則同樣以圖文的整體,如「伍仟零一圓整」,使識別模組(109)得以分辨出其整體的文意,而非個別不相關的文字。此外,在本創作的另一實施例中,裁切單元(105a)亦可依照應用的需
要將字元間各別裁切,以避免圖文與圖文之間,因筆畫彼此連接,使影像識別系統(100)將兩個欲辨識的圖文視作一個圖文,而使後續識別模組(109)在識別上出現錯誤。例如將「伍」、「仟」兩個文字的視作一個文字,而非獨立的兩個文字。當裁切單元(105a)將適當的圖文區域裁切完畢後,其每一次的結果可被再度傳輸回識別模組(109),以進一步修正定位單元(105g)下一次所定位的圖文區域,提高圖文區域的定位的精準度(人工或由影像識別系統100自動化修正)。
根據本創作一實施例,上述裁切單元(105a)的裁切方式,稱為自動定位辨識,其詳細的實施方式,請參閱圖3A。其可先將輸入的影像資料(例如支票),依據應用的需要裁切出一部分,例如上半部,或下半部。舉例來說,在圖3A中,可依照一支票的通常位置,由裁切單單元(109a)裁切出欲辨識的圖文區域,例如面額大小的欄位。具體的做法,為透過定位單元(105g)自動定位圖文座標(x,y),並由該(x,y)為基準,上下左右由一範圍△x與△y進行裁切需要辨識的範圍,例如橫軸自x-△x至x+△x,縱軸自y-△y至y+△y,以切出「伍仟零壹圓整」的圖文區域。爾後再由識別模組(109)依照裁切單元(109a)所裁切的位置,進行後續的辨識流程。
根據本創作內容,影像前處理模組(105)包含校正單元(105c),用於校正影像資料(201)的色彩,例如RGB三色的強度。在本創作一實施例中,當所需辨識的影像資料(201)中的圖文,其RGB三色中的任意訊號強度過強,例如,當「伍仟零壹圓整」圖文中,其背景的紅色印章強度過強,可能影響到識別模組(109)對於圖文的辨識時,校正單元(105c)可依據資料儲存模組(107)中所儲存的訓練資料,將影像資料(201)的紅色強度降低,避免影像資料(201)中的圖文因背景的色彩太強,導致辨識錯誤。較佳地,當校正單元(105c)將圖文色彩校正完畢後,其每一次的結果則被再度傳輸回識別模組(109),依據識別模組(109)之識別結果,搭配人工或自動化修正,以進一步修正校正單元(105c)下一次的所校正圖文色彩,提高其校正的精準度。
根據本創作另一實施例,校正單元(105c)亦可被用於校正影像資料(201)角度,其校正的方式請參閱圖3A。在本創作之實施例中,當所需辨識的
影像資料(201),其中的圖文具有一δ的傾斜角度時,校正單元(105c)依據資料儲存模組(107)中所儲存的訓練資料,校正圖文區域中圖文的角度,避免影像資料(201)中的圖文因傾斜角度過大,使圖文中的筆劃識別出現錯誤。較佳地,當校正單元(105c)將圖文區域校正完畢後,其每一次的結果則被再度傳輸回識別模組(109),以進一步修正校正單元(105c)下一次的所校正圖文區域,提高圖文區域的校正的精準度。其中,在本創作一實施例中,該修正可為人工或自動化。
根據本創作內容,影像前處理模組(105)包含分類單元(105e)。在本創作之實施例中,在由識別模組(109)進行影像資料(201)中的圖文辨識前,分類單元(105e)依據資料儲存模組(107)中所儲存的訓練資料,分類影像資料(201)中的文件類型係屬於銀行支票、契約文件,或法律文件。例如,當影像資料(201)的文件屬於銀行支票時,分類單元(105e)將所述的銀行支票藉由訓練資料將其分類為VIP支票、非VIP支票,或它種支票。其每一次的分類結果則被再度傳輸回識別模組(109)與影像前處理模組(105),使裁切單元(105a)、校正單元(105c)、定位單元(105g),能更精確的裁切、校正、定位出圖文座標、圖文區域、圖文角度、圖文色彩,提高影像前處理模組(105)的精準度。
因此,基於本創作之目的與策略,請參閱圖4與圖5,本創作提出一種影像識別方法(400),其方法步驟,包含:於步驟(S405)中,分類影像資料(201)的圖文類型;於步驟(S401)中,藉由輸入模組(103)輸入訓練資料,與待辨識的影像資料(201),標記對應於影像資料(201)的訓練資料;在步驟(S501)中,將訓練資料與影像資料(201)輸入識別模組(109)之編碼單元(109a),並由一特徵提取矩陣轉換為向量形式的編碼資料(205);於步驟(S502)中將編碼資料(205)輸入解碼單元(109c),並由一特徵提取矩陣轉換為向量形式的解碼資料(207);並由步驟(S503)將解碼資料(207)傳送至識別模組(109);執行步驟(S406),藉由識別模組(109),將解碼資料轉換為對應的識別資料。
其中,在本創作一實施例中,影像識別方法,包含本創作於影像前處理時所執行之步驟(S404),亦即裁切出影像資料(201)中所需識別的圖文區域;及步驟(S407),將解碼資料(207)與識別資料,儲存為訓練資料。
其中,在本創作一較佳地實施例中,編碼-解碼網路中,其編碼架構使用卷積神經網路,解碼架構則使用長短期記憶網路,並以注意力模型強化編碼資料(205)中特徵向量的向量權重,避免當所訓練的影像資料(201)數量龐大時,識別模組其特徵向量可能產生弱化的現象。
在本創作一較佳地實施例中,影像資料(201)與識別資料的比對方式,為藉由步驟(S504)中,對應於影像資料(201)的識別資料與訓練資料比對,並輸出一相關係數α。其中,於步驟(S505),判斷所述的相關係數α是否大於一預設值K,若是,則執行步驟(S507),將解碼資料(207)儲存為訓練資料,並決定是否接受、通過或是保留、儲存該向量權重,若否,則於步驟(S506)中,執行步驟(S404),以重新調整特徵向量權重,並決定是否停止或拒絕後續執行步驟。
根據本創作之內容,影像識別方法(400)中,更包含執行步驟(S402),藉由定位單元(105g)定位影像資料(201)的圖文座標;於步驟(S403)中,藉由校正單元(105c)校正影像資料(201)的圖文角度和圖文色彩。
以上敘述係為本創作之較佳實施例。此領域之技藝者應得以領會其係用以說明本創作而非用以限定本創作所主張之專利權利範圍。其專利保護範圍當視後附之申請專利範圍及其等同領域而定。凡熟悉此領域之技藝者,在不脫離本專利精神或範圍內,所作之更動或潤飾,均屬於本創作所揭示精神下所完成之等效改變或設計,且應包含在下述之申請專利範圍內。
100:影像識別系統
101:控制模組
103:輸入模組
105:影像前處理模組
105a:裁切單元
105c:校正單元
105e:分類單元
105g:定位單元
107:資料儲存模組
109:識別模組
109a:編碼單元
109c:解碼單元
Claims (10)
- 一種影像識別系統,包含:一控制模組,提供系統的運作與管理;一輸入模組,輸入影像資料;一影像前處理模組,耦接該輸入模組,調整影像資料的資料品質,其中,該影像前處理模組,更包含一定位單元,定位影像資料的至少一圖文座標;以及,一識別模組,耦接該影像前處理模組,將影像資料分解為複數個分解資料,並根據該至少一圖文座標,識別與輸出至少一識別資料。
- 如請求項1所述的影像識別系統,其中該影像前處理模組,更包含一裁切單元,根據該定位單元所定位的至少一圖文座標,將影像資料裁切出至少一圖文區域,藉此調整該影像識別系統所需處理的範圍。
- 如請求項1所述的影像識別系統,其中該影像前處理模組,更包含一校正單元,當圖文資料中一顏色的強度可能影響到該識別模組辨識時,該校正單元調整影像資料中的一圖文顏色。
- 如請求項2所述的影像識別系統,其中該影像前處理模組,更包含一分類單元,依據該至少一圖文區域,分類影像資料中的文件類型。
- 如請求項1所述的影像識別系統,其中該識別模組,更包含一編碼單元,將該複數個分解資料,編碼為向量形式的至少一個編碼資料;以及,一解碼單元,將該至少一個編碼資料輸出為至少一解碼資料。
- 如請求項5所述的影像識別系統,其中該編碼單元的演算模型,為卷積神經網路;該解碼單元的演算模型,為長短期記憶網路。
- 如請求項1所述的影像識別系統,其中該控制模組設定該識別模組的訓練次數(Epoch)為5-65次。
- 如請求項1所述的影像識別系統,其中該控制模組設定該識別模組的批次大小(Batch Size)為10-1024。
- 如請求項1所述的影像識別系統,其中該控制模組設定該識別模組的早停值(Early Stop)為5-30。
- 如請求項1所述的影像識別系統,其中該控制模組設定該識別模組的學習率(Learning Rate)為10-2-10-6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110208671U TWM618756U (zh) | 2021-07-21 | 2021-07-21 | 影像識別系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110208671U TWM618756U (zh) | 2021-07-21 | 2021-07-21 | 影像識別系統 |
Publications (1)
Publication Number | Publication Date |
---|---|
TWM618756U true TWM618756U (zh) | 2021-10-21 |
Family
ID=79603905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110208671U TWM618756U (zh) | 2021-07-21 | 2021-07-21 | 影像識別系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWM618756U (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI807467B (zh) * | 2021-11-02 | 2023-07-01 | 中國信託商業銀行股份有限公司 | 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法 |
-
2021
- 2021-07-21 TW TW110208671U patent/TWM618756U/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI807467B (zh) * | 2021-11-02 | 2023-07-01 | 中國信託商業銀行股份有限公司 | 要項偵測模型建立方法、業務導向要項鍵值辨識系統及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846553B2 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
CN100576233C (zh) | 检测文档图像中的字符的方向 | |
CN103488711B (zh) | 一种快速制作矢量字库的方法及系统 | |
US20240037969A1 (en) | Recognition of handwritten text via neural networks | |
US11837001B2 (en) | Stroke attribute matrices | |
CN111507330A (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN107451582A (zh) | 一种图文识别系统及其识别方法 | |
CN111914825B (zh) | 文字识别方法、装置及电子设备 | |
CN105184329A (zh) | 一种基于云平台的脱机手写识别方法 | |
WO2021143058A1 (zh) | 基于图像的信息比对方法、装置、电子设备及计算机可读存储介质 | |
CN116704523B (zh) | 一种用于出版印刷设备的文字排版图像识别系统 | |
CN113901933B (zh) | 基于人工智能的电子发票信息抽取方法、装置及设备 | |
Husain et al. | Online Urdu Character Recognition System. | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN107463866A (zh) | 一种用于成绩评价的识别手写实验报告的方法 | |
CN109508712A (zh) | 一种基于图像的汉语文字识别方法 | |
Palani et al. | Detecting and extracting information of medicines from a medical prescription using deep learning and computer vision | |
TWM618756U (zh) | 影像識別系統 | |
Al Sayed et al. | Survey on handwritten recognition | |
US20050276480A1 (en) | Handwritten input for Asian languages | |
CN114419636A (zh) | 文本识别方法、装置、设备以及存储介质 | |
US11341760B2 (en) | Form processing and analysis system | |
CN114005127A (zh) | 一种基于深度学习的图像光学文字识别方法,存储装置及服务器 | |
TWI773444B (zh) | 影像識別系統與方法 |