JP7501255B2 - 文書検索システム、文書検索方法およびプログラム - Google Patents
文書検索システム、文書検索方法およびプログラム Download PDFInfo
- Publication number
- JP7501255B2 JP7501255B2 JP2020151219A JP2020151219A JP7501255B2 JP 7501255 B2 JP7501255 B2 JP 7501255B2 JP 2020151219 A JP2020151219 A JP 2020151219A JP 2020151219 A JP2020151219 A JP 2020151219A JP 7501255 B2 JP7501255 B2 JP 7501255B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- image object
- image
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 83
- 230000008569 process Effects 0.000 claims description 63
- 230000004044 response Effects 0.000 claims description 7
- 238000010191 image analysis Methods 0.000 description 56
- 238000000605 extraction Methods 0.000 description 21
- 238000012015 optical character recognition Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- HMUNWXXNJPVALC-UHFFFAOYSA-N 1-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)C(CN1CC2=C(CC1)NN=N2)=O HMUNWXXNJPVALC-UHFFFAOYSA-N 0.000 description 2
- LDXJRKWFNNFDSA-UHFFFAOYSA-N 2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)-1-[4-[2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidin-5-yl]piperazin-1-yl]ethanone Chemical compound C1CN(CC2=NNN=C21)CC(=O)N3CCN(CC3)C4=CN=C(N=C4)NCC5=CC(=CC=C5)OC(F)(F)F LDXJRKWFNNFDSA-UHFFFAOYSA-N 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
Description
[実施の形態1]
<文書検索システムの全体構成>
図1は、文書検索システム1の全体構成を示す図である。本実施の形態の文書検索システム1は、複数の文書データを記憶する文書サーバー20と、ユーザーからの検索指示に応じて、検索処理をする検索サーバー10とを備える。
<インデックス情報について>
検索サーバー10は、文書サーバー20が記憶する複数の文書データを検索するためのインデックス情報を記憶する。インデックス情報とは、検索サーバー10の検索処理の効率を向上させるための複数の文書データに関する索引情報である。
<文書データの関連付け>
以下では、文書データを関連付ける処理について説明する。文書検索システム1では、検索サーバー10がインデックス処理の対象となる文書データに対して、関連付けられることができる他の文書データを特定できた場合、関連付け処理をする。
<文書検索システムの機能ブロック図>
図3は、文書検索システム1が備える機能を示すブロック図である。本実施の形態における文書検索システム1は、少なくとも検索サーバー10と、文書サーバー20とを備える。
図4は、検索サーバー10の内部構成を示す図である。検索サーバー10は、制御部100と、検索受信部110と、検索送信部120と、サーバー通信部130と、文書データ受信部140とを備える。
<検索端末における処理手順>
図5は、検索端末3における処理手順を示すフローチャートである。検索端末3は、検索項目をユーザーから受け付ける(ステップS100)。検索端末3は、検索項目を検索サーバー10へ送信する(ステップS101)。検索端末3は、検索結果を検索サーバー10から受信する(ステップS102)。検索端末3は、受信した検索結果をディスプレイ3dに表示する(ステップS103)。これにより、文書検索システム1の文書検索機能がユーザーに提供される。
<検索サーバー10の関連付け処理手順>
図6は、検索サーバー10の関連付け処理の手順を示すフローチャートである。検索サーバー10は、上述にて説明したインデックス処理をする際に、文書サーバー20が記憶する文書データごとに当該関連付け処理をする。
<検索結果の表示例1>
図7は、検索端末3が表示する検索結果の表示例1である。検索結果は、ウィンドウW1上に表示される。検索端末3は、文書データD1を検索結果として表示する。サムネイル画像T1は、文書データD1のサムネイル画像である。
<検索結果の表示例2>
図8は、検索端末3が表示する検索結果の表示例2である。図8の表示例において、図7の表示例と重複する構成についての説明は、繰り返さない。
<検索結果の表示例3>
以下では、図9および図10を用いて、検索結果の表示例3を説明する。図9および図10の表示例において、図7の表示例と重複する構成の説明については、繰り返さない。
<検索結果の表示例4>
図11は、検索端末3が表示する検索結果の表示例4である。図11の表示例において、図7および図9の表示例と重複する構成に関する説明は、繰り返さない。
<画像解析処理と特定処理について>
以下では、画像解析処理と特定処理について説明する。特定処理とは、画像オブジェクトが表す内容と類似するオブジェクトを含むデータを特定する処理である。検索サーバー10の特定部105の画像解析部1051は、抽出部104が抽出した画像オブジェクトに対して、画像解析処理をする。
画像解析部1051は、画像オブジェクトに対してOCR(Optical Character Recognition)処理をする。画像解析部1051は、OCR処理により、画像オブジェクトから文字を認識できたか否かを判断する。画像解析部1051は、文字を認識できた場合に、認識した文字が画像オブジェクトの領域を占有する割合を算出する。
アート文字は、テキストに含まれる。アート文字とは、装飾が施されたテキストを意味する。したがって、画像解析部1051は、画像オブジェクトに対してOCR処理をしてもアート文字を認識できない場合が考えられる。
画像解析部1051は、画像オブジェクトが含む画素値を解析する。画素値を解析することにより、画像解析部1051は、画像オブジェクトが円グラフ、棒グラフと相似する形状を含むか否かを判断する。
表は、グラフに含まれる。画像解析部1051は、画像オブジェクトが含む画素値を解析する。画素値を解析することにより、画像解析部1051は、画像オブジェクトに直線が含まれているか否かを判断できる。また、画像解析部1051は、ます目状になった複数の直線が画像オブジェクトに含まれているか否かを判断する。
画像解析部1051は、画素値の解析の結果、全ての画素に対して、隣接する画素間の画素値が変化しているか否かを判断する。画像解析部1051は、画像オブジェクトの領域に対して画素値が同一の画素が隣接する領域の割合が、予め定められた割合未満である場合、画像オブジェクトが表す内容が写真であると判断する。予め定められた割合とは、たとえば70%である。すなわち、カメラによって撮影された写真は、階調の変化が激しいため、隣接する画素間の画素値が同一である領域は、文書編集ソフトによって作成されたテキストまたはグラフなどを表す画像と比較して小さくなる。
図13は、画像オブジェクトを強調表示する例を示す図である。検索端末3は、文書データD5を検索結果として表示する。サムネイル画像T5は、文書データD5のサムネイル画像である。
検索サーバー10の生成部107は、ユーザーからの指示により、画像オブジェクトが表す内容に対応する文書編集ソフトで編集可能なデータを生成する。たとえば、図13において、特定部105が、画像オブジェクトPO1,PO2と関連付けられる文書データを特定することができない場合が考えられる。
<小括>
本実施の形態における文書検索システム1は、複数のデータを記憶する文書サーバー20が含む文書記憶部201と、複数のデータのうちから、画像オブジェクトPO1,PO3を含む文書データD1を抽出するための抽出部104と、画像オブジェクトPO1,PO3は、テキストまたはグラフを表し、複数のデータのうちから、画像オブジェクトPO1,PO3と類似するオブジェクトO1,O2を含む文書データD2,D3を特定するための特定部105と、文書データD1が含む画像オブジェクトPO1,PO3のそれぞれと文書データD2,D3とを関連付けるための関連付け部106とを備える。
Claims (18)
- 文書検索システムであって、
複数のデータを記憶する記憶部と、
前記複数のデータのうちから、画像オブジェクトを含む第1データを抽出するための抽出部と、
前記画像オブジェクトは、テキストまたはグラフを表し、
前記複数のデータのうちから、前記画像オブジェクトと類似するオブジェクトを含む1つ以上の第2データを特定するための特定部と、
前記第1データが含む前記画像オブジェクトと前記1つ以上の第2データとを関連付けるための関連付け部とを備える、文書検索システム。 - 前記複数のデータのうちから、ユーザーの検索要求に応じてデータを検索するための検索部と、
前記検索部によって検索されたデータを検索結果として表示する表示部とをさらに備え、
前記表示部は、前記第1データを前記検索結果として表示する場合に、前記第1データが含む前記画像オブジェクトと関連付けられている前記1つ以上の第2データに関する情報をさらに表示する、請求項1に記載の文書検索システム。 - 前記1つ以上の第2データに関する情報は、前記第1データが含む前記画像オブジェクトに前記1つ以上の第2データが関連付けられている旨を示す情報を含む、請求項2に記載の文書検索システム。
- 前記1つ以上の第2データに関する情報は、前記1つ以上の第2データのサムネイル画像を含む、請求項2に記載の文書検索システム。
- 前記表示部は、
前記1つ以上の第2データのうちの一の第2データが文書編集ソフトによって編集可能ではない場合、前記一の第2データに関する情報を非表示にする、請求項2~4のいずれか1項に記載の文書検索システム。 - 前記表示部は、
前記1つ以上の第2データのうちの一の第2データが含む前記オブジェクトが文書編集ソフトによって編集可能ではない場合、前記一の第2データに関する情報を非表示にする、請求項2~4のいずれか1項に記載の文書検索システム。 - 前記表示部は、
前記第1データが含む前記画像オブジェクトに複数の第2データが関連付けられている場合、前記複数の第2データのうち、一の第2データに関する情報を、前記一の第2データと異なる第2データに関する情報よりも強調して表示し、
前記一の第2データと異なる第2データは、文書編集ソフトによって編集可能ではなく、
前記一の第2データは、文書編集ソフトによって編集可能である、請求項2~4のいずれか1項に記載の文書検索システム。 - 前記表示部は、
前記第1データが含む前記画像オブジェクトに複数の第2データが関連付けられている場合、前記複数の第2データのうち、一の第2データに関する情報を、前記一の第2データと異なる第2データに関する情報よりも強調して表示し、
前記一の第2データと異なる第2データは、文書編集ソフトによって編集可能である前記オブジェクトを含まず、
前記一の第2データは、文書編集ソフトによって編集可能である前記オブジェクトを含む、請求項2~4のいずれか1項に記載の文書検索システム。 - 前記特定部は、
予め規定されている複数種類の処理のいずれかで、前記1つ以上の第2データを特定する特定処理をし、
前記画像オブジェクトが表す内容の種類に基づいて、前記特定処理をするための前記複数種類の処理の種類を変更する、請求項2~8のいずれか1項に記載の文書検索システム。 - 前記画像オブジェクトが表す内容の種類は、テキストと、グラフとのうちの少なくとも1つを含む、請求項9に記載の文書検索システム。
- 前記複数種類の処理は、画像検索処理と、テキスト検索処理とのうちの少なくとも1つを含む、請求項9に記載の文書検索システム。
- 前記表示部は、
前記検索結果として表示する前記第1データが含む前記画像オブジェクトを強調して表示する、請求項2~11のいずれか1項に記載の文書検索システム。 - 前記表示部が表示する前記画像オブジェクトのうち、ユーザーによって選択された前記画像オブジェクトを受信する受信部をさらに備え、
前記特定部は、前記複数のデータのうちから、前記受信部が受信した前記画像オブジェクトと類似するオブジェクトを含む前記1つ以上の第2データを特定する、請求項2~11のいずれか1項に記載の文書検索システム。 - 前記第1データに基づいて、第3データを生成するための生成部をさらに備え、
前記第3データは、前記第1データが含む前記画像オブジェクトと類似する前記オブジェクトを含み、
前記オブジェクトは、文書編集ソフトで編集可能なデータである、請求項1~13のいずれか1項に記載の文書検索システム。 - 前記生成部は、
前記特定部が前記画像オブジェクトに類似する前記1つ以上の第2データを特定できなかった場合に前記第3データを生成する、請求項14に記載の文書検索システム。 - 前記特定部は、
前記生成部が前記画像オブジェクトに基づいて前記第3データを生成できなかった場合に前記1つ以上の第2データを特定する、請求項14に記載の文書検索システム。 - 複数のデータを記憶する文書検索システムにおける文書検索方法あって、
前記複数のデータのうちから、画像オブジェクトを含む第1データを抽出するステップと、
前記画像オブジェクトは、テキストまたはグラフを表し、
前記複数のデータのうちから、前記画像オブジェクトに類似するオブジェクトを含む1つ以上の第2データを特定するステップと、
前記第1データが含む前記画像オブジェクトと前記1つ以上の第2データとを関連付けるステップとを含む、文書検索方法。 - 複数のデータを操作可能であるコンピューターに実行されるプログラムあって、
前記プログラムは、前記コンピューターに、
前記複数のデータのうちから、画像オブジェクトを含む第1データを抽出するステップと、
前記画像オブジェクトは、テキストまたはグラフを表し、
前記複数のデータのうちから、前記画像オブジェクトに類似するオブジェクトを含む1つ以上の第2データを特定するステップと、
前記第1データが含む前記画像オブジェクトと前記1つ以上の第2データとを関連付けるステップとを実行させる、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020151219A JP7501255B2 (ja) | 2020-09-09 | 2020-09-09 | 文書検索システム、文書検索方法およびプログラム |
US17/400,837 US20220075930A1 (en) | 2020-09-09 | 2021-08-12 | Document search system and document search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020151219A JP7501255B2 (ja) | 2020-09-09 | 2020-09-09 | 文書検索システム、文書検索方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022045559A JP2022045559A (ja) | 2022-03-22 |
JP7501255B2 true JP7501255B2 (ja) | 2024-06-18 |
Family
ID=80470693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020151219A Active JP7501255B2 (ja) | 2020-09-09 | 2020-09-09 | 文書検索システム、文書検索方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220075930A1 (ja) |
JP (1) | JP7501255B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092852A (ja) | 1999-05-12 | 2001-04-06 | Ricoh Co Ltd | 文書検索システム操作方法、検索キー生成方法、文書管理システム、文書照会システム、文書アーカイブ・システム操作方法、文書データベース閲覧方法及び記憶媒体 |
JP2010086413A (ja) | 2008-10-01 | 2010-04-15 | Canon Inc | 文書処理システム及びその制御方法、プログラム、記憶媒体 |
JP2013016036A (ja) | 2011-07-04 | 2013-01-24 | Hitachi Ltd | 文書部品生成方法及び計算機システム |
-
2020
- 2020-09-09 JP JP2020151219A patent/JP7501255B2/ja active Active
-
2021
- 2021-08-12 US US17/400,837 patent/US20220075930A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092852A (ja) | 1999-05-12 | 2001-04-06 | Ricoh Co Ltd | 文書検索システム操作方法、検索キー生成方法、文書管理システム、文書照会システム、文書アーカイブ・システム操作方法、文書データベース閲覧方法及び記憶媒体 |
JP2010086413A (ja) | 2008-10-01 | 2010-04-15 | Canon Inc | 文書処理システム及びその制御方法、プログラム、記憶媒体 |
JP2013016036A (ja) | 2011-07-04 | 2013-01-24 | Hitachi Ltd | 文書部品生成方法及び計算機システム |
Also Published As
Publication number | Publication date |
---|---|
JP2022045559A (ja) | 2022-03-22 |
US20220075930A1 (en) | 2022-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
CN110705237B (zh) | 文档的自动生成方法、数据处理设备及存储介质 | |
FR2845236A1 (fr) | Systemes et procedes pour inserer une etiquette de metadonnees dans un document | |
US20150058708A1 (en) | Systems and methods of character dialog generation | |
JP2007042092A (ja) | 電子ドキュメント処理装置、方法およびプログラム | |
US20100080493A1 (en) | Associating optical character recognition text data with source images | |
CN109522405A (zh) | 文件信息处理方法、电子设备以及计算机可读存介质 | |
CN112835577A (zh) | 数据处理方法、装置、计算机设备以及可读存储介质 | |
US20070185832A1 (en) | Managing tasks for multiple file types | |
JP6262708B2 (ja) | 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法 | |
US20110231430A1 (en) | Content collecting apparatus, content collecting method, and non-transitory computer-readable recording medium encoded with content collecting program | |
CN107122785B (zh) | 文本识别模型建立方法和装置 | |
CN109062880B (zh) | 电子书文件的制作方法、电子设备、服务器、存储介质 | |
US9798724B2 (en) | Document discovery strategy to find original electronic file from hardcopy version | |
JP7501255B2 (ja) | 文書検索システム、文書検索方法およびプログラム | |
CN110134920A (zh) | 绘文字兼容显示方法、装置、终端及计算机可读存储介质 | |
US20120192046A1 (en) | Generation of a source complex document to facilitate content access in complex document creation | |
US10803308B2 (en) | Apparatus for deciding whether to include text in searchable data, and method and storage medium thereof | |
CN112069236A (zh) | 关联文件的展示方法、装置、设备及存储介质 | |
JP2002024761A (ja) | 画像処理装置及び画像処理方法並びに記憶媒体 | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム | |
KR102583247B1 (ko) | Bom 리스트 생성 시스템, 방법 및 컴퓨터 프로그램 | |
CN113378526A (zh) | Pdf段落处理方法、装置、存储介质及设备 | |
JP2005267057A (ja) | テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム | |
JP6303742B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230627 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240520 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7501255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |