文件檢索裝置、文件檢索系統、文件檢索程式及文件檢索方法
本發明係關於一種文件檢索裝置、文件檢索系統、文件檢索程式及文件檢索方法。
在以高度經濟成長期為中心的時代的技術開發中作成的技術文件,有些是在紙媒體上手寫作成的文獻。這些手寫的技術文件是技術與知識的寶庫,時而應用於解決現時面臨的技術課題。然而,紙文件的形態下,會遇見因倉庫保管而導致索取過程費時、為了獲得目標技術資訊需要逐頁翻查紙文件而導致耗費勞力等困難,造成無法充分有效地利用積累的技術文件的問題。
另一反面,近年來,對於紙文件等中包含的文字資訊,利用光學讀取裝置等將其變換成作為電子資料的影像資料,並對該影像資料進行光學文字辨識(Optical Character Recognition : OCR)處理,作為文字資料提取影像資料中包含的文字資訊,從而實現電子檔案化。關於上述手寫的技術文件也同樣,希望以電子檔案化來推動其迅速檢索、閱覽等利用的要求在高漲。
而當前技術對手寫的技術文件的文字辨識精度尚不充分,提高辨識精度的研究正為盛行。例如,專利文獻1中揭示了一種組合聲音資訊來提高手寫文字的辨識率的技術。專利文獻2中揭示了一種對連體書寫的手寫文字資料進行文字辨識時,透過正確分割文字來提高文字辨識率的技術。
<先前技術文件>
<專利文獻>
專利文獻1:特開2005-258577號公報
專利文獻2:特開平9-6920號公報
<發明所欲解決之問題>
手寫文件的文字辨識精度仍舊不足,在作為對手寫文件進行文字辨識之結果的數位文件資料中,存在文字缺損或誤辨識。因此,即使對數位文件資料進行關鍵字檢索,也無法充分發揮關鍵字檢索功能,而難以迅速檢索、閱覽所希望的手寫文件。
作為手寫文件的文字辨識精度不足的原因之一,可以舉出手寫文字之形狀根據書寫者各自的筆跡而異。文字筆跡為書寫者之固有特點,同一書寫者書寫的文件中可能會有同一誤辨識反復出現。
本發明鑑於上述情形,為了解決這些問題,其目的在於提高關鍵字檢索的發現率。
<用於解決問題之手段>
本發明包括以下所述的結構。
[1] 文件檢索裝置,包括:
輸入接受部,接受輸入關鍵字的輸入;
文件獲取部,從存放有文件檔案及書寫者名稱的數位文件資料庫中,獲取該書寫者名稱及該文件檔案,該文件檔案是對手寫文件之文件影像資料進行文字辨識處理而成的文本資料,該書寫者名稱是書寫該手寫文件之文字的書寫者的名稱;
對應關鍵字獲取部,參照存放有將書寫者名稱、輸入關鍵字、對應關鍵字對應起來的資訊的對應關鍵字資料庫,並根據透過該輸入接受部輸入的該輸入關鍵字、及該文件獲取部獲取的該書寫者名稱,獲取該輸入關鍵字的對應關鍵字;
文件檢索部,根據該輸入關鍵字以及獲取的該對應關鍵字,對該文件獲取部獲取的該文件檔案進行檢索;
檢索結果輸出部,輸出該文件檢索部的檢索結果。
[2] 根據[1]所述的文件檢索裝置,還具備:
文件影像資料庫,存放該手寫文件的文件影像資料;
文件影像輸出部,從該文件影像資料庫獲取與該文件檔案對應的文件影像資料並輸出,
該檢索結果輸出部,從該文件檔案中,作為檢索結果輸出包含該輸入關鍵字或該對應關鍵字的文本資料,
該文件影像輸出部,在該文本資料的一部分被選擇的情形下,獲取與包含該被選擇的文本資料的一部分的文件檔案對應的文件影像資料並輸出。
[3] 根據[1]或[2]所述的文件檢索裝置,
該文件檢索部分別根據該輸入關鍵字及該對應關鍵字進行模糊檢索,
該檢索結果輸出部將該模糊檢索的結果包含在該檢索結果中。
[4] 根據[2]或[3]所述的文件檢索裝置,
對應關鍵字資料庫中存放的資訊包括該對應關鍵字或於模糊檢索中作為檢索關鍵字的關鍵字、由該文件獲取部獲取的書寫者名稱、透過該輸入接受部輸入的輸入關鍵字、以及選擇次數,
該文件檢索裝置還具備對應關鍵字更新部,在該檢索結果中,作為基於該對應關鍵字進行檢索或模糊檢索的結果所輸出的文本資料的一部分被選擇的情形下,更新該選擇次數,並存放到該對應關鍵字資料庫中。
[5] 根據[1]至[4]的任一個所述的文件檢索裝置,
該文件檢索裝置還具備用於使預測模型學習的預測模型學習部,及用於存放該預測模型的模型記憶部,
該預測模型學習部,將該對應關鍵字資料庫中存放的資訊作為訓練資料,使預測模型學習,
該模型記憶部存放學習完的學習完畢預測模型,
該學習完畢預測模型,若有該輸入關鍵字及該獲取的書寫者名稱被輸入,則進行對應關鍵字的預測,並輸出預測出的對應關鍵字,
該文件檢索部,根據該輸入關鍵字及該預測出的對應關鍵字,對該文件獲取部獲取的文件檔案進行檢索。
[6] 根據[4]所述的文件檢索裝置,
該文件檢索裝置具備用於使預測模型學習的預測模型學習部,及用於存放預測模型的模型記憶部,
該預測模型學習部,將該對應關鍵字更新部中存放的更新後對應資訊作為訓練資料,使預測模型學習,
該模型記憶部存放學習完的學習完畢預測模型,
該學習完畢預測模型,如有該輸入關鍵字及該獲取的書寫者名稱被輸入,則進行對應關鍵字的預測,並輸出預測出的對應關鍵字,
該文件檢索部,根據該輸入關鍵字及該預測出的對應關鍵字,對該文件獲取部獲取的文件檔案進行檢索。
[7] 根據[6]所述的文件檢索裝置,
該預測模型學習部,在該檢索結果中的文本資料被選擇後,保持該被選擇的文本資料中包含的,將基於輸入關鍵字生成的關鍵字、書寫者名稱及輸入關鍵字對應起來的對應資訊,
該預測模型學習部,將由該對應資訊構成的對應資訊群作為訓練資料,使預測模型學習,
該模型記憶部存放學習完的學習完畢預測模型,
該學習完畢預測模型被存放到該模型記憶部之後,
該學習完畢預測模型,若有該輸入關鍵字及該獲取的書寫者名稱被輸入,則進行對應關鍵字的預測,並輸出預測的對應關鍵字,
該文件檢索部,根據該輸入關鍵字及該預測出的對應關鍵字,對該文件獲取部獲取的文件檔案進行檢索。
[8] 根據[1]至[7]中的任一個所述的文件檢索裝置,
該對應關鍵字是與該對應關鍵字對應的關鍵字中包含作為該文字辨識處理之實施結果被誤辨識的文字的文字列。
[9] 包括文件檢索裝置及終端裝置的文件檢索系統,
該文件檢索裝置包括:
輸入接受部,接受輸入關鍵字的輸入;
文件獲取部,從存放有文件檔案及書寫者名稱的數位文件資料庫中,獲取該書寫者名稱及該文件檔案,該文件檔案是對手寫文件之文件影像資料進行文字辨識處理而成的文本資料,該書寫者名稱是書寫該手寫文件的文字的書寫者的名稱;
對應關鍵字獲取部,參照存放有將書寫者名稱、輸入關鍵字、對應關鍵字對應起來的資訊的對應關鍵字資料庫,並根據透過該輸入接受部輸入的該輸入關鍵字、及該文件獲取部獲取的該書寫者名稱,獲取該輸入關鍵字的對應關鍵字;
文件檢索部,根據該輸入關鍵字以及獲取的該對應關鍵字,對該文件獲取部獲取的該文件檔案進行檢索;
檢索結果輸出部,將該文件檢索部的檢索結果輸出到該終端裝置。
[10] 文件檢索程式,使電腦執行:
接受輸入關鍵字的輸入的處理;
從存放有文件檔案及書寫者名稱的數位文件資料庫中,獲取該書寫者名稱及該文件檔案的處理,該文件檔案是對手寫文件之文件影像資料進行文字辨識處理而成的文本資料,該書寫者名稱是書寫該手寫文件的文字的書寫者的名稱;
參照存放有將書寫者名稱、輸入關鍵字、對應關鍵字對應起來的資訊的對應關鍵字資料庫,並根據該輸入關鍵字以及獲取的該書寫者名稱,獲取該輸入關鍵字的對應關鍵字的處理;
根據該輸入關鍵字及獲取的該對應關鍵字,對該獲取的文件檔案進行檢索的處理;
輸出檢索結果的處理。
[11] 用於電腦的文件檢索方法,由該電腦執行:
接受輸入關鍵字的輸入的程序;
從存放有文件檔案及書寫者名稱的數位文件資料庫中,獲取該書寫者名稱及該文件檔案的程序,該文件檔案是對手寫文件之文件影像資料進行文字辨識處理而成的文本資料,該書寫者名稱是書寫該手寫文件的文字的書寫者的名稱;
參照存放有將書寫者名稱、輸入關鍵字、對應關鍵字對應起來的資訊的對應關鍵字資料庫,並根據該輸入關鍵字以及獲取的該書寫者名稱,獲取該輸入關鍵字的對應關鍵字的程序;
利用該輸入關鍵字及獲取的該對應關鍵字,對獲取的該文件檔案進行檢索的程序;
輸出檢索結果的程序。
<發明之功效>
能夠提高關鍵字檢索的發現率。
(第一實施形態)
以下,參照附圖,說明第一實施形態。圖1是表示第一實施形態的文件檢索系統的系統結構之一例的圖。
本實施形態之文件檢索系統100包括文件檢索裝置200。文件檢索系統100還包括終端裝置300,文件檢索裝置200與終端裝置300可透過網路連接。終端裝置300除了通信介面裝置等之外,還具備鍵盤等輸入裝置以及液晶顯示器等輸出裝置。
本實施形態之文件檢索裝置200包括數位文件資料庫(data base:DB)210、對應關鍵字資料庫220、文件影像資料庫230及檢索處理部240。
數位文件資料庫210中存放包含文字資訊的數位文件檔案(以下也稱之為文件檔案),該文字資訊是對文件影像資料庫230中存放的紙文件的影像資料進行OCR(Optical character Recognition)處理而獲得的資訊。且,數位文件資料庫210中,將數位文件檔案與紙文件之文件名稱及書寫該紙文件之文字的書寫者的姓名(以下也稱之為書寫者名稱)對應起來存放。
對應關鍵字資料庫220中存放如下對應資訊,即,將書寫了作為文件影像資料庫230中存放的影像之來源的紙文件的文字等的書寫者的名稱、書寫者書寫的文字列中的包含被誤辨識的文字的文字列(如下所述,作為對應關鍵字處理)及正確的文字列(正確文字列,如下所述,與輸入的關鍵字進行對比、參照)對應起來的資訊。可預先以人工方式進行將書寫者名稱、包含被誤辨識文字的文字列及正確的文字列對應起來的對應資訊存放在對應關鍵字資料庫220中,作成對應關鍵字資料庫220的作業。在此,該文字等還包括數字及符號。
文件影像資料庫230用於存放透過光學讀取裝置等讀取到的紙文件之影像資料。
在此,紙文件例如是手寫作成的紙文件等。作為手寫的紙文件,可以舉出涉及特定技術領域的技術文件,包括在紙媒體上手寫作成的紀錄本或報告書等、包含手寫文字資訊的設計圖或照片等、附加有手寫文字資訊的測定記錄紙等。
紙文件還可以是鉛字印刷的紙文件等。作為鉛字印刷的紙文件,可以舉出特定技術領域的技術文件,包括在紙媒體上鉛字印刷的報告書、設計圖等。作為對象的紙文件,還可以組合手寫紙文件與鉛字印刷紙文件。在此,“紙媒體”並非僅限於紙張,還包含塑膠膜(plastic film)、布材、板材、皮革、牆壁等。
本實施形態之數位文件資料庫210、對應關鍵字資料庫220及文件影像資料庫230是預先作成之後設置在文件檢索裝置200中的結構。
本實施形態之檢索處理部240,從終端裝置300或後述的輸入裝置24等接受關鍵字的輸入之後,參照數位文件資料庫210,獲取書寫了手寫文件之文字等的書寫者名稱及文件檔案。然後,檢索處理部240參照對應關鍵字資料庫220,並根據與文件檔案對應的書寫者名稱,獲取與輸入的關鍵字及書寫者名稱對應的對應關鍵字。在以下說明中,將輸入的關鍵字稱為輸入關鍵字。
然後,檢索處理部240根據所獲取的對應關鍵字及輸入關鍵字,對數位文件資料庫210中包含的文件檔案進行檢索,並將檢索結果輸出到終端裝置300。檢索處理部240針對數位文件資料庫210中存放的全部文件檔案進行該處理。
即,本實施形態的檢索處理部240,不僅根據輸入關鍵字對數位文件資料庫210進行檢索,還根據對應關鍵字對數位文件資料庫210進行檢索,該對應關鍵字是指應當作為輸入關鍵字進行參照的文字列,且是包含被誤辨識的文字的文字列。
以下,參照圖2進一步說明檢索處理部240的處理。圖2是說明第一實施形態的檢索處理的圖。
紙文件中手寫記錄的文字,即使是同一個文字,其形狀會根據書寫者之筆跡而不同。具體例如,根據書寫者,會出現偏旁間距離較遠、採用舊字體或簡略字、潦草字等的情形。另外還有書寫者的執念誤解造成寫錯字的情形。
在偏旁間距離較遠的情形下,有時偏旁會被分開誤辨識為文字。此外,舊字體或簡略字、潦草字等會被誤辨識成與原意不同的文字。
圖2中表示了將手寫記錄於紙文件中的手寫文字列、作為對手寫文字列進行OCR處理文字辨識後的結果的數位文字列、手寫文字列所意圖的正確文字列、及手寫文字的筆跡類型對應起來的表。
該表中,例如,書寫者在書寫紙文件的正確文字列“飛行”時,簡化了“飛”字。因此,手寫文字“飛”在文字辨識結果的數位文字中被作為“レ”。從而可知,該書寫者的手寫文字列“飛行”被誤辨識為數位文字列“レ行”。
另外,例如,書寫者在書寫紙文件的正確文字列“問題”時,簡化了“問”字。因此,手寫文字“問”在文字辨識的結果的數位文字中被作為“同”。從而可知,該書寫者的手寫文字列“問題”被誤辨識為數位文字列“同題”。
此外,例如,書寫者將正確文字列“溶液”的三點水偏旁部分別寫得潦草的情形下,被誤辨識為“1容1夜”。此外,書寫者將正確文字列“研究”寫成舊字體的情形下,被誤辨識為“石チキ究”。
如上所述,手寫文件的情形下,書寫者之筆跡(書寫習慣)會導致產生文字的誤辨識。這種誤辨識是書寫者固有的現象,因此,若是同一書寫者書寫的文件,會有同一誤辨識反復出現。
對此,在本實施形態中,針對每個書寫者,預先將正確文字列與數位文字列對應起來存放在對應關鍵字資料庫220中。
例如,在圖2的例子是對某一書寫者x所書寫的紙文件進行文字辨識的結果的情形下,將書寫者x、正確文字列“飛行”、作為誤辨識結果的數位文字列“レ行”對應起來,作成對應資訊,預先存放在對應關鍵字資料庫220中。
且,對應關鍵字資料庫220中還可存放同樣將書寫者x、正確文字列“問題”、作為誤辨識結果的數位文字列“同題”對應起來的對應資訊。
然後,檢索處理部240,例如,在輸入關鍵字“飛行”被輸入的情形下,針對文件檔案,根據輸入關鍵字“飛行”進行檢索,以及根據作為與“飛行”對應的數位文字列的對應關鍵字“レ行”進行檢索。
在本實施形態中,如上所述,利用包含作為手寫文字被誤辨識的結果的文字的文字列(對應關鍵字),及作為表示手寫文字原本意思的詞語的正確文字列(輸入關鍵字),進行檢索處理。
因此,根據本實施形態,例如,在數位文件資料庫210中存放的文件檔案中,即使出現與輸入關鍵字一致的詞語在OCR處理中被錯誤辨識,或者,辨識無誤但文字原本為錯字等的情形下,藉由利用對應關鍵字進行檢索,可提高抽取輸入該輸入關鍵字的用戶所期望的文件的可能性。
從而,根據本實施形態,能夠提高關鍵字檢索的發現率(命中率)的同時防止誤檢。
在此,圖1的例子中,數位文件資料庫210、對應關鍵字資料庫220、文件影像資料庫230被設置在文件檢索裝置200中,但並不限定於此。也可以將數位文件資料庫210、對應關鍵字資料庫220、文件影像資料庫230分別設置在能夠與文件檢索裝置200進行通信的外部裝置。此外,也可以將數位文件資料庫210、對應關鍵字資料庫220、文件影像資料庫230的一部分設置在文件檢索裝置200。
以下,參照圖3,說明本實施形態的文件檢索裝置200的硬體結構。圖3是說明第一實施形態的文件檢索裝置的硬體結構的圖。
本實施形態的文件檢索裝置200是用於處理文件資訊的裝置,包括影像輸入裝置及電腦。換言之,本實施形態之文件檢索裝置200是資訊處理裝置,包括CPU(Central Processing Unit)21、主記憶裝置22、補助記憶裝置23、輸入裝置24、輸出裝置25、通信介面裝置26及驅動裝置27,各部分透過匯流排連接。
CPU21是控制文件檢索裝置200的動作的主控制部,其透過讀取並執行主記憶裝置22中存放的文件檢索程式,實現後文所述的各種功能。
主記憶裝置22,在文件檢索裝置200起動時,從補助記憶裝置23中讀取文件檢索程式並存放。補助記憶裝置23存放被安裝的文件檢索程式,並存放上述各資料庫等的必要檔案、資料等。
輸入裝置24是用於輸入各種資訊的裝置,例如由鍵盤或指向裝置等實現。輸出裝置25是用於輸出各種資訊的裝置,例如由顯示器等實現。通信介面裝置26包含LAN卡等,用於連接網路。
用於實現本實施形態的檢索處理部240的文件檢索程式,是用於控制文件檢索裝置200的各種程式的至少一部分。例如,可透過由記錄媒體28分配或從網路下載等方式,提供文件檢索程式。作為記錄文件檢索程式的記錄媒體28,可以使用CD-ROM、軟性磁碟(flexible disk)、磁光碟(magneto optical disk)等以光學、電子或磁力方式記錄資訊的記錄媒體,或ROM、閃存記憶體等以電子方式記錄資訊的半導體記憶體等各種類型的記錄媒體。
此外,當記錄有文件檢索程式的記錄媒體28被設置在驅動裝置27後,文件檢索程式即從記錄媒體28經由驅動裝置27被安裝到補助記憶裝置23中。從網路下載的文件檢索程式,則經由通信介面裝置26被安裝在補助記憶裝置23中。
以下,參照圖4至圖6,說明本實施形態之各資料庫。本實施形態的各資料庫,例如,可以設置在補助記憶裝置23等的記憶區。
圖4是表是第一實施形態的數位文件資料庫之一例的圖。本實施形態的數位文件資料庫210中,作為對應的資訊項目,設有文件ID、文件名稱、書寫者名稱、文件檔案。數位文件資料庫210中,包含各項目值的資訊是數位文件資訊。
項目“文件ID”的值是用於確定作為影像資料被存放在文件影像資料庫230中的紙文件的識別資訊。在此,項目“文件ID”的值可由製作手寫文件的影像資料的年月日資訊及附加于年月日資訊的分支編號構成。
項目“文件名稱”的值是作為影像資料被存放在文件影像資料庫230中的紙文件的名稱。
項目“書寫者名稱”的值表示書寫了依據文件名稱確定的紙文件的手寫文字的書寫者的姓名。換言之,項目“書寫者名稱”的值是用於確定書寫了紙文件的手寫文字的書寫者的資訊。
項目“文件檔案”的值是對依據文件名稱確定的紙文件的影像資料進行OCR處理所獲得的文件檔案本身。本實施形態的文件檔案是文本資料。
圖4的例中,例如文件名稱為“1960年6月份_月報”的紙文件,可知其由書寫者名稱為“I”的人物所書寫,形成了“1960年6月份_月報文本”的文本資料。
圖5是表是第一實施形態的對應關鍵字資料庫的一例的圖。本實施形態的對應關鍵字資料庫220中,作為資訊的項目設有書寫者名稱、關鍵字及對應關鍵字。對應關鍵字資料庫220中,包含各項目的值資訊是對應資訊。
項目“關鍵字”的值表示依據寫者名稱的確定的書寫者所意圖的關鍵字。換言之,項目“關鍵字”的值是圖2所示的正確文字列。
項目“對應關鍵字”的值是包含由書寫者手寫輸入的文字被誤辨識的結果獲得的文字的文字列。換言之,項目“對應關鍵字”的值是圖2所示的數位文字列。
圖5的例中,例如,書寫者名稱“I”、相應的關鍵字“水酸化”、相應的對應關鍵字“力酸ヒ”彼此對應。其表示,針對書寫者名稱“i”的書寫者所書寫的手寫文字列“水酸化”進行OCR處理的結果,被誤辨識為“力酸ヒ”。
圖6是表示第一實施形態的文件影像資料庫之一例的圖。本實施形態的文件影像資料庫230作為資訊項目包括文件ID、文件名稱及文件影像資料。
項目“文件影像資料”的值是利用光學讀取裝置讀取紙文件而獲得的影像資料。作為本實施形態的文件影像資料,例如可以存放pdf檔案,還可以存放影像資料。
在以下說明中,將文件影像資料庫230中的包含項目“文件ID”的值及其他項目的值的資訊,稱為文件影像資訊。
此外,文件影像資料庫230還可以包含圖6所示項目之外的項目。具體而言,例如,作為文件影像資料庫230的項目,可以包含文件影像資訊被存放到文件影像資料庫230中的年月日、進行文件影像資訊的存放處理的執行者的姓名等。
其次,參照圖7,說明本實施形態的文件檢索裝置200的功能。圖7是說明第一實施形態的文件檢索裝置的功能的圖。
本實施形態的文件檢索裝置200包括數位文件資料庫210、對應關鍵字資料庫220、文件影像資料庫230及檢索處理部240。
本實施形態的檢索處理部240包括輸入接受部241、文件獲取部242、對應關鍵字獲取部244、文件檢索部245、檢索結果輸出部246、選擇接受部247及文件影像輸出部248。
輸入接受部241用於接受對文件檢索裝置200進行的各種輸入。具體而言,輸入接受部241接受根據輸入關鍵字的檢索要求的輸入。
文件獲取部242用於獲取數位文件資料庫210中存放的文件檔案及書寫手寫文件的書寫者名稱。
對應關鍵字獲取部244參照對應關鍵字資料庫220,獲取由文件獲取部242獲取的書寫者名稱及與輸入關鍵字對應的對應關鍵字。
文件檢索部245針對文件獲取部242獲取的文件檔案,進行根據輸入關鍵字的檢索,以及根據對應關鍵字的檢索。另外,文件檢索部245還可以利用輸入關鍵字及對應關鍵字,對文件檔案進行模糊檢索。
更具體為,文件檢索部245可分別針對輸入關鍵字及對應關鍵字,生成將其一部分文字列置換成任意文字列的檢索關鍵字,並根據該生成的關鍵字對文件檔案進行檢索。
檢索結果輸出部246輸出文件檢索部245的檢索結果。具體而言,檢索結果輸出部246,作為檢索結果,將包含檢索時使用的輸入關鍵字或對應關鍵字的文件檔案的文本資料中的,例如包含該關鍵字的文本資料之一部分作成一覽,顯示在終端裝置300等。
選擇接受部247接受在輸出的檢索結果一覽中選擇特定檢索結果的選擇操作。具體而言,選擇接受部247接受針對作為檢索結果被顯示的文件檔案的一部分進行的選擇。
文件影像輸出部248,參照文件影像資料庫230,獲取並輸出與選擇接受部247選擇的檢索結果對應的文件影像資料。具體而言,文件影像輸出部248獲取與檢索結果對應的文件影像資料,並在終端裝置300上顯示例如包含該關鍵字的文件影像的一部分。
以下,參照圖8說明本實施形態的文件檢索裝置200的動作。圖8是說明第一實施形態的文件檢索裝置的動作的流程圖。
本實施形態的文件檢索裝置200的檢索處理部240,透過輸入接受部241接受輸入關鍵字的輸入(步驟S801)。
然後,檢索處理部240透過文件獲取部242,從存放在數位文件資料庫210中的文件檔案中,獲取1個文件檔案及與該文件檔案對應的書寫者名稱(步驟S802)。
然後,檢索處理部240透過對應關鍵字獲取部244,參照對應關鍵字資料庫220,獲取與輸入關鍵字及書寫者名稱對應的對應關鍵字(步驟S803)。
其後,檢索處理部240透過文件檢索部245,根據輸入關鍵字及對應關鍵字,對步驟S802中獲取的文件檔案進行檢索(步驟S804)。在此,也可以由文件檢索部245保持作為檢索結果獲得的文件檔案的文件ID等。
此時,本實施形態的文件檢索部245還可以分别就輸入關鍵字及對應關鍵字,或其中任一方進行模糊檢索。
模糊檢索意指,例如,將文字列的一部分置换成任意文字的通配檢索(wild card search)。在此,通配檢索為一例,也可以採用通配檢索之外的方法進行模糊檢索。具體而言,例如,文件檢索部245還可以執行根據Word2Vec技術或深度學習的詞語類似度檢索。
接下來,文件檢索部245判斷是否已對數位文件資料庫210中存放的全部文件檔案進行了檢索(步驟S805)。在步驟S805中,若尚未對全部文件檔案進行檢索,檢索處理部240返回步驟S802。
在步驟S805中,若已對全部文件檔案進行了檢索,檢索處理部240透過檢索結果輸出部246,判定是否存在作為檢索結果命中的文件檔案(步驟S806)。
在步驟S806中,若不存在符合條件的文件檔案,檢索處理部240就透過檢索結果輸出部246,向終端裝置300輸出表示不存在符合條件的文件檔案的通知(步驟S807),並結束處理。
在步驟S806中,若存在符合條件的文件檔案,檢索結果輸出部246從符合條件的文件檔案中獲取包含命中的關鍵字的文本資料(步驟S808)。
接下來,檢索結果輸出部246將獲取的文本資料中的,例如包含命中的關鍵字的前後文本資料的一部分的一覽,作為檢索結果輸出到終端裝置300(步驟S809)。
接下來,檢索處理部240透過選擇接受部247,判定是否接受了對作為檢索結果輸出的文本資料的選擇操作(步驟S810)。
在步驟S810中,若未接受選擇,檢索處理部240結束處理。
在步驟S810中,若接受到選擇,文件影像輸出部248從文件影像資料庫230中獲取與包含被選文本資料的文件檔案的文件ID對應的文件影像資料,將例如包含該關鍵字的文件影像的一部分輸出到終端裝置300(步驟S811),結束處理。
針對作為檢索結果被輸出的文本資料,進行檢索的利用者,透過選擇包含檢索中命中的關鍵字的文本資料的至少一部分,並顯示與包含被選文本資料的一部分的文件檔案之文件ID對應的文件影像資料,能夠以此確認該命中的文件檔案是否就是所希望文件檔案。即,進行檢索的利用者,獲得該檢索結果之後,藉由對選擇接受部247進行選擇被輸出的文本資料的一部分的選擇手續,從而能夠顯示出與命中的文件檔案對應的文件影像資料,以此確認所獲得的檢索結果是否恰當。
以下,參照圖9,說明圖8的步驟S809中輸出到終端裝置300的檢索結果一覽的顯示例。
圖9是說明第一實施形態的檢索結果一覽的顯示例的第一圖。圖9所示的畫面91中顯示的是,想要檢索“黑鉛電極”時,作為輸入關鍵字輸入了包含“黑鉛”的“黑鉛電極”的情形下的檢索結果一覽之例。在此,以“黑鉛電極”的“電極”作為固定關鍵字,以下是與輸入關鍵字及對應關鍵字等進行組合用於檢索的形態。
在此情形下,檢索處理部240,首先,參照數位文件資料庫210,獲取文件ID“1”的文件檔案,以及與文件ID“1”對應的書寫者名稱“i”(參照圖4)。
其次,檢索處理部240參照對應關鍵字資料庫220,獲取與輸入關鍵字“黑鉛”及書寫者名稱“i”對應的對應關鍵字。在此,從對應關鍵字資料庫220中,作為與文字列“黑鉛”及書寫者名稱“i”對應的對應關鍵字,獲取了“里鉛”(參照圖5)。
檢索處理部240,獲取對應關鍵字之後,分別利用包含輸入關鍵字的“黑鉛電極”以及包含對應關鍵字的“里鉛電極”,對文件ID“1”的文件檔案進行檢索。檢索處理部240對數位文件資料庫210內的全部文件檔案進行該處理。
其結果,在文件名稱“A”的文件檔案中發現了包含輸入關鍵字的“黑鉛電極”,在文件名稱“E”的文件檔案中發現了包含對應關鍵字的“里鉛電極”。
因此,檢索處理部240,作為檢索結果一覽顯示出包括文件名稱“A”與書寫者名稱“i”的資訊92,以及文件名稱“A”的文件檔案中的包含輸入關鍵字“黑鉛電極”及其前後一部分的文本資料93。資訊92附加資訊,其包含用於確定作為文本資料93之來源的文件檔案的文件名稱,以及書寫者名稱。
此外,檢索處理部240,同樣還顯示出包括文件名稱“E”與書寫者名稱“i”的資訊94,以及文件名稱“E”的文件檔案中的包含對應關鍵字“里鉛電極”及其前後一部分的文本資料95。
本實施形態中,如上所述,針對所有的檢索結果,一覽顯示文件名稱、書寫者名稱、以及包括檢索出的關鍵字及其前後一部分的文本資料。
並且,在文本資料中,還可以採用特效顯示或下劃線顯示等方式,強調顯示包含輸入關鍵字或對應關鍵字的文字列。另外,在本實施形態中,可以採用不同方式,對文本資料中的包含輸入關鍵字的文字列及包含對應關鍵字的文字列進行強調顯示。
此外,本實施形態的檢索處理部240,例如,在畫面91中的文本資料93被選擇之後,從文件影像資料庫230中獲取並顯示與文本資料93對應的文件ID“1”的文件影像資料。
在本實施形態中,如上所述,對數位文件資料庫210內存放的文件檔案進行檢索,顯示檢索結果,並在終端裝置300上顯示與從檢索結果中選擇的文本資料對應的文件影像資料。
在本實施形態中,透過上述方式,例如,在與文件影像資料對應的文件檔案中,即使應當作為輸入關鍵字參照的正確文字列被誤認的情形下,也能夠作為檢索結果獲取。
圖10是說明第一實施形態的檢索結果一覽的顯示例的第二圖。圖10所示的畫面91A中,表示了作為輸入關鍵字輸入包含“黑鉛”的“黑鉛電極”的情形下的檢索結果一覽之例。
在圖10所示的畫面91A中,附加在文本資料的資訊不同於圖9之例。畫面91A中,附加在文本資料93的資訊92A表示,文件檔案之文件名稱為“A”,書寫者名稱為“i”、檢索中發現(命中)的關鍵字是輸入關鍵字。
此外,附加在文本資料95的資訊94A表示,文件檔案之文件名稱為“E”,書寫者名稱為“i”,檢索中發現的關鍵字是對應關鍵字。
另外,附加在文本資料97的資訊96表示,文件檔案之文件名稱為“P”,書寫者名稱為“k”,檢索中發現的關鍵字是用於模糊檢索的關鍵字。
如上所述,本實施形態中,檢索結果一覽中還可以包括作為檢索結果獲取的文本資料中的關鍵字種類。
本實施形態中,以這種方式,例如,能夠幫助進行檢索的利用者容易地發現其希望的文件影像資料,還能夠確認利用對應關鍵字獲得的檢索結果是否恰當。
具體而言,例如,假設進行檢索的利用者,希望閱覽由書寫者“i”書寫文字的紙文件之文件影像資料,但並不知情書寫文字的書寫者是“i”。在此情形下,較之於包含輸入關鍵字之文件檔案,包含書寫者“i”的對應關鍵字之文件檔案與利用者所希望的文件影像資料對應的可能性會更高。在此情形下,利用者例如透過選擇文本資料95,即能閱覽到所希望的文件影像資料。
此外,本實施形態中,還可以根據檢索中利用的關鍵字種類,對檢索結果設定優先順序,並在圖9及圖10所示的檢索結果一覽中,按照該優先順序顯示檢索結果。在此,檢索結果包含文本資料以及附加於文本資料的附加資訊。
具體而言,例如,本實施形態中可設定為輸入關鍵字的優先順序最高,其次為對應關鍵字的優先順序,用於模糊檢索的關鍵字的優先順序最低。
在此情形下,如圖10所示,包含輸入關鍵字的檢索結果被顯示在一覽的最上位,包含用於模糊檢索的關鍵字的檢索結果被顯示在一覽的最下位。
本實施形態中,如上所述,藉由對檢索結果之顯示順序設定優先順序,能夠從文字辨識的精度高的文件檔案開始依序向利用者顯示檢索結果。
(第二實施形態)
以下,參照附圖,說明第二實施形態。第二實施形態不同於第一實施形態之處在於,根據對檢索結果一覽中的文本資料的選擇,更新對應關鍵字資料庫。因此,在以下的第二實施形態的說明中,說明與第一實施形態的不同點,而對於具有與第一實施形態相同功能結構的部分,採用第一實施形態的說明中所用的符號,並省略其說明。
圖11是說明第二實施形態的文件檢索裝置的功能的圖。
本實施形態的文件檢索裝置200A包括數位文件資料庫210、對應關鍵字資料庫220A、文件影像資料庫230及檢索處理部240A。
本實施形態中,檢索結果一覽中列出的文本資料每次被選擇時,更新對應關鍵字資料庫220A。關於對應關鍵字資料庫220A詳情後述。
本實施形態之檢索處理部240A,除了具備第一實施形態的檢索處理部240的各部分之外,還具備對應關鍵字更新部249。
對應關鍵字更新部249在選擇接受部247每次接受文本資料選擇時,即,每當有文件影像資料被輸出時,更新對應關鍵字資料庫220A。關於對應關鍵字更新部249的處理詳情後述。
圖12是表示第二實施形態的對應關鍵字資料庫之一例的圖。本實施形態的對應關鍵字資料庫220A中,作為資訊項目設有書寫者名稱、關鍵字、對應關鍵字以及選擇次數。
項目“選擇次數”的值表示從檢索結果一覽中選擇文本資料的次數,該文本資料包括書寫者名稱與輸入關鍵字或對應關鍵字之組合。也可以在顯示檢索結果一覽時,參照項目“選擇次數”的值。
其次,參照圖13,說明本實施形態的文件檢索裝置200A的動作。圖13是說明第二實施形態之文件檢索裝置的動作的流程圖。
圖13的步驟S1301至步驟S1311的處理與圖8的步驟S801至步驟S811的處理相同,因此省略其說明。
檢索處理部240A,在步驟S1311獲取文件影像資料並輸出到終端裝置300之後,判斷對應關鍵字資料庫220A內是否存在與附加於被選文本資料的附加資訊對應的對應資訊(步驟S1312)。
在步驟S1312,若對應關鍵字資料庫220A中存在符合條件的對應資訊,對應關鍵字更新部249對符合條件的對應資訊的選擇次數進行更新,並存放到對應關鍵字資料庫220A(步驟S1313),結束處理。具體而言,對應關鍵字更新部249將符合條件的對應資訊的選擇次數增加1次,並結束處理。
在步驟S1312,若不存在符合條件的對應資訊,檢索處理部240則根據附加資訊生成新的對應資訊,並追加存放到對應關鍵字資料庫220A中(步驟S1314),結束處理。
以下,參照圖9、圖10及圖12,具體說明應關鍵字更新部249的處理。
例如,假設在畫面91中選擇了文本資料95。在此情形下,文本資料95上附加有附加資訊94。
文本資料95是根據關鍵字“里鉛”進行檢索的結果,附加資訊92包含表示書寫者名稱“i”的資訊。因此,選擇了該文本資料95,即意味著選擇了關鍵字“里鉛”與書寫者名稱“i”的組合。
因此,對應關鍵字更新部249,在對應關鍵字資料庫220A的對應資訊121中,向選擇次數追加1。
此外,例如,假設在圖10所示的畫面91A中,選擇了文本資料97。在此情形下,文本資料97上附加有附加資訊96。
文本資料97是根據模糊檢索中生成的關鍵字“白金”進行檢索的結果,附加資訊96包含表示書寫者名稱“k”的資訊。因此,選擇了該文本資料97,即意味著選擇了關鍵字“白金”與書寫者名稱“k”的組合。
對應關鍵字資料庫220A中並未存放將關鍵字“白金”與書寫者名稱“k”對應起來的對應資訊,因此,對應關鍵字更新部249將關鍵字“白金”作為新的對應關鍵字,生成將書寫者名稱“k”、作為輸入關鍵字的關鍵字“黑鉛”、對應關鍵字“白金”對應起來的對應資訊,並將選擇次數作為1次,追加存放在對應關鍵字資料庫220A。
如上所述,本實施形態中,每當從檢索結果中選擇文本資料時,更新對應關鍵字資料庫220A。換言之,本實施形態中,所閱覽的文件影像每次被選擇,都會更新對應關鍵字資料庫220A。
在反復進行檢索處理的情形下,顯示檢索結果時,可以從根據對應關鍵字資料庫220A中選擇次數多的關鍵字檢測出的檢索結果開始,依序進行顯示。
因此,根據本實施形態,越是反復進行檢索處理,越能提高關鍵字檢索的發現率。
例如,關於以“水酸化”作為輸入關鍵字進行檢索處理的情形進行探討。在此情形下,例如,假設根據輸入關鍵字“水酸化”檢測出書寫者名稱“i”的文件檔案,根據對應關鍵字“水酸ヒ”檢測除了書寫者名稱“k”的文件檔案。
在此情形下,文件檢索部245參照對應關鍵字資料庫220A,會優先顯示對應資訊包含的選擇次數較大的對應關鍵字的檢索結果。
在圖12的例子中,包含對應關鍵字“カ酸ヒ”與書寫者名稱“i”之組合的對應資訊122的選擇次數為10次,包含對應關鍵字“水酸ヒ”與書寫者名稱“k”之組合的對應資訊123的選擇次數為12次。
因此,對應關鍵字更新部249會將基於對應關鍵字“水酸ヒ”發現的書寫者名稱“k”的文件檔案的文本資料,顯示在對應關鍵字“カ酸ヒ”、書寫者名稱“i”的文件檔案的文本資料的上位。
本實施形態中,藉由以上述方式決定顯示順序,能夠從進行檢索的利用者選擇的次數較多的組合的文本資料開始,依序進行顯示。
(第三實施形態)
第三實施形態與第一實施形態的不同點在於,以對應關鍵字資料庫220中存放的對應資訊作為訓練資料,供用於預測結果對應關鍵字的預測模型進行學習,以獲取利用預測模型進行預測輸出的預測結果對應關鍵字。因此,在以下的第三實施形態的說明中,說明與第一實施形態的不同點,對於具有與第一實施形態相同功能結構的部分,採用第一實施形態的說明中所用的符號,並省略其說明。
圖14是說明第三實施形態的文件檢索裝置的功能的圖。
本實施形態的文件檢索裝置200B包括數位文件資料庫210、對應關鍵字資料庫220、文件影像資料庫230、檢索處理部240B及模型記憶部250。
檢索處理部240B包括輸入接受部241、文件獲取部242、對應關鍵字獲取部244、文件檢索部245、檢索結果輸出部246、選擇接受部247、文件影像輸出部248及預測模型學習部251。
預測模型學習部251將對應關鍵字資料庫220中存放的對應資訊作為訓練資料輸入到預測模型260,預測模型260透過機械學習等進行學習,並將學習完的學習完畢預測模型260A存放到模型記憶部250中。在此,也可以由模型記憶部250記憶預測模型260。
學習預測模型260A,在輸入關鍵字及書寫者名稱被輸入之後,預測結果對應關鍵字,並輸出預測結果對應關鍵字。可以有複數個預測結果對應關鍵字。
對應關鍵字獲取部244,將文件獲取部242獲取的書寫者名稱及輸入關鍵字,輸入到模型記憶部250所記憶的學習完畢預測模型260A,並獲取作為由學習完畢預測模型260A進行預測的結果的預測結果對應關鍵字。
圖15是說明第三實施形態的文件檢索裝置的動作的流程圖。圖15的步驟S1501及步驟S1502,與圖8的步驟S801及步驟S802同樣,因此省略說明。
檢索處理部240B,透過對應關鍵字獲取部244在步驟S1502獲取書寫者名稱之後,將書寫者名稱及輸入關鍵字輸入到學習完畢預測模型260A,並獲取作為由學習完畢預測模型260A進行預測的結果的預測結果對應關鍵字(步驟S1503)。
接下來,檢索處理部240B,透過文件檢索部245,根據輸入關鍵字及預測結果對應關鍵字,對文件獲取部242獲取的文件檔案進行檢索(步驟S1504)。
步驟S1504至步驟S1511的處理與圖8的步驟S804至步驟S811的處理相同,因此省略其說明。
如上所述,本實施形態中,以對應關鍵字資料庫220中存放的對應資訊作為訓練資料,建立學習完畢預測模型260A。學習完畢預測模型260A,例如,可以根據輸入關鍵字及書寫者的筆跡,將形狀與輸入關鍵字類似的文字列,作為對應關鍵字等預測輸出。
(第四實施形態)
第四實施形態是第二實施形態及第三實施形態的組合實施形態。以下,在第四實施形態的說明中,對於具有與第二實施形態及第三實施形態所需功能結構相同的功能結構的部分,採用第二實施形態及第三實施形態的說明中所用的符號,並省略其說明。
圖16是說明第四實施形態的文件檢索裝置的功能的圖。
本實施形態的文件檢索裝置200C包括數位文件資料庫210、對應關鍵字資料庫220A、文件影像資料庫230、檢索處理部240C及模型記憶部250。
檢索處理部240C包括第三實施形態的檢索處理部240B所具有的各部分以及對應關鍵字更新部249。
以下,參照圖17,說明第四實施形態的文件檢索裝置200C的動作。圖17是說明第四實施形態的文件檢索裝置的動作的流程圖。
圖17的步驟S701至步驟S1711的處理與圖15的步驟S1501至步驟S1511的處理相同,因此省略其說明。
續於步驟S1711之後的步驟S1712至步驟S1714的處理與圖13的步驟S1312至步驟S1314的處理相同,因此省略其說明。
步驟S1713、1714之後,檢索處理部240C,透0過預測模型學習部251,以更新後的對應關鍵字資料庫220A作為訓練資料,使學習完畢預測模型260A進一步學習,更新為學習完畢預測模型260B,並存放在預測模型學習部251中(步驟S1715),結束處理。步驟S1715中的學習完畢預測模型的更新,並非一定要針對文件檢索裝置的每各動作進行,可根據利用者的動作指定,以複數次動作作為單位進行。
本實施形態中,如上所述,利用根據由進行檢索的利用者選擇的檢索結果更新的對應關鍵字資料庫220A,來更新學習完畢預測模型260A。換言之,根據輸入關鍵字與利用者選擇的文本資料的對應資訊來,根性學習完畢預測模型。
因此,本實施形態中,檢索處理進行的越多,越能提高根據對應關鍵字檢索的發現率。
(第五實施形態)
以下參照附圖,說明第五實施形態。第五實施形態與第三實施形態的不同之處在於,不具備對應關鍵字資料庫,而是根據進行檢索的利用者選擇的檢索結果來建立預測模型。因此,以下,在第五實施形態的說明中,對於具有與第三實施形態相同的功能結構的部分,採用與第三實施形態的說明中所用的符號相同的符號,並省略其說明。
圖18是說明第五實施形態的文件檢索裝置之功能的圖。本實施形態的文件檢索裝置200D包括數位文件資料庫210、文件影像資料庫230、檢索處理部240D及模型記憶部250。
檢索處理部240D包括輸入接受部241、文件獲取部242、對應關鍵字獲取部244、文件檢索部245、檢索結果輸出部246、選擇接受部247、文件影像輸出部248及預測模型學習部252。
本實施形態之預測模型學習部252,在檢索結果輸出部246輸出的檢索結果中的文本資料被選擇的情形下,保持將被選文本資料所包含的、檢索中發現的關鍵字、書寫者名稱及輸入關鍵字對應起來的對應資訊。
在建立學習完畢預測模型260A之前的檢索處理中發現的關鍵字是指,輸入關鍵字,以及為了進行模糊檢索而根據輸入關鍵字生成的關鍵字。
然後,積累到規定數量的對應資訊群時,預測模型學習部252將對應資訊群用為訓練資料,供使預測模型260進行學習,並將學習完的學習完畢預測模型260C存放在模型記憶部250。在此,本實施形態之預測模型學習部252,例如,還可以將對應資訊群提供給人工智能等,獲取學習完畢預測模型260C。
檢索處理部240D,在建立學習完畢預測模型260C之後,獲取利用學習完畢預測模型260C預測輸出的對應關鍵字。
以下,參照圖19,說明本實施形態的預測模型學習部252的處理。圖19是說明第五實施形態中的預測模型學習部的處理的流程圖。
本實施形態的預測模型學習部252判斷將書寫者名稱、輸入關鍵字及檢測出的關鍵字對應起來的對應資訊是否積累達到了規定數量(步驟S1901)。規定數量可以是用於建立預測模型260所必須的最低限度的數量,也可以是預先決定的數量。積累的對應資訊群的規定數量優選是2以上,更優選是5以上,進而優選是10以上。
在步驟S1901中,若尚未積累到規定數量的對應資訊,預測模型學習部252待機,直至對應資訊積累達到規定數量。
在步驟S1901中,若積累到了規定數量的對應資訊,預測模型學習部252將對應資訊群用為訓練資料,供預測模型260進行學習,建立學習完畢預測模型260C(步驟S1902),並記憶在模型記憶部250(步驟S1903),結束處理。
如上所述,根據本實施形態,無需預先製作對應關鍵字資料庫220,檢索處理進行的越多,越能夠提高關鍵字檢索的檢測率。
上述各實施形態還能夠應用於手寫記載的紙文件。具體而言,例如,若能夠將書寫者名稱與書寫者書寫的紙文件的影像資料對應起來,則能夠應用於紙文件。
本發明並不限定於具體公開的實施形態,只要不脫離申請專利範圍,可進行各種變形及變更。
本申請根據2019年2月14日提出的日本國專利申請2019-24821號請求優先權,並引用該日本國專利申請2019-24821號的全部內容。
100:文件檢索系統
200,200A,200B,200C,200D:文件檢索裝置
210:數位文件資料庫
220,220A:對應關鍵字資料庫
230:文件影像資料庫
240,240A,240B,240C,240D:檢索處理部
241:輸入接受部
242:文件獲取部
244:對應關鍵字獲取部
245:文件檢索部
246:檢索結果輸出部
247:選擇接受部
248:文件影像輸出部
249:對應關鍵字更新部
250:模型記憶部
251,252:預測模型學習部
260:預測模型
260A,260B,260C:學習完畢預測模型
300:終端裝置
[圖1] 是表示第一實施形態的文件檢索系統的系統結構之一例的圖。
[圖2] 是說明第一實施形態的檢索處理的圖。
[圖3] 是說明第一實施形態的文件檢索裝置之硬體結構的圖。
[圖4] 是表示第一實施形態的數位文件資料庫之一例的圖。
[圖5] 是表示第一實施形態的對應關鍵字資料庫之一例的圖。
[圖6] 是表示第一實施形態的文件影像資料庫之一例的圖。
[圖7] 是說明第一實施形態的文件檢索裝置之功能的圖。
[圖8] 是說明第一實施形態的文件檢索裝置的動作的流程圖。
[圖9] 是說明第一實施形態的檢索結果一覽之顯示例的第一圖。
[圖10] 是說明第一實施形態的檢索結果一覽之顯示例的第二圖。
[圖11] 是說明第二實施形態的文件檢索裝置之功能的圖。
[圖12] 是表示第二實施形態的對應關鍵字資料庫之一例的圖。
[圖13] 是說明第二實施形態的文件檢索裝置的動作的流程圖。
[圖14] 是說明第三實施形態的文件檢索裝置的功能的圖。
[圖15] 是說明第三實施形態的文件檢索裝置的動作的流程圖。
[圖16] 是說明第四實施形態的文件檢索裝置之功能的圖。
[圖17] 是說明第四實施形態的文件檢索裝置的動作的流程圖。
[圖18] 是說明第五實施形態的文件檢索裝置之功能的圖。
[圖19] 是說明第五實施形態中的預測模型學習部的處理的流程圖。