JP2005092824A - Recording medium, program, method and device for document retrieval - Google Patents
Recording medium, program, method and device for document retrieval Download PDFInfo
- Publication number
- JP2005092824A JP2005092824A JP2003329205A JP2003329205A JP2005092824A JP 2005092824 A JP2005092824 A JP 2005092824A JP 2003329205 A JP2003329205 A JP 2003329205A JP 2003329205 A JP2003329205 A JP 2003329205A JP 2005092824 A JP2005092824 A JP 2005092824A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- similar
- predetermined
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、キーワードの入力を行わなくとも元文書から検索条件または再検索条件を自動的に生成して文書データベースを検索し一または複数の類似文書を選出して表示する文書検索装置、文書検索方法、文書検索プログラム、および記録媒体に関する。 The present invention relates to a document search apparatus and document search for automatically generating a search condition or re-search condition from an original document without inputting a keyword, searching a document database, and selecting and displaying one or more similar documents. The present invention relates to a method, a document search program, and a recording medium.
文書を多数集積している文書データベースからユーザの必要とする文書を探し出すための文書検索装置が、近年、広く利用されている。文書検索装置には、任意の文書が指定されたとき、文書データベースからその文書に類似する類似文書を検索する機能(類似文書検索)を備えたものがある(たとえば特許文献1参照。)。 2. Description of the Related Art In recent years, a document search apparatus for searching for a document required by a user from a document database in which a large number of documents are accumulated has been widely used. Some document retrieval devices have a function (similar document retrieval) for retrieving a similar document similar to the document from a document database when an arbitrary document is designated (see, for example, Patent Document 1).
このような類似文書検索においては、一般に、検索の元になる元文書の全体が検索条件として用いられるため、元文書に異なる複数の内容が記述されている場合に、そのうちどれかの内容だけに着目して検索することは困難であった。 In such a similar document search, generally, the entire original document from which the search is based is used as a search condition. Therefore, when multiple different contents are described in the original document, only one of the contents is described. It was difficult to search with attention.
このため、たとえば検索キー文書および検索対象文書から項目の文書を切り出し、検索キー文書/検索対象文書間の類似度をベクトル空間法などを用いて項目の単位で類似文書の検索結果(たとえば文書ID)を判別して出力する類似文書検索装置が提案されている(たとえば特許文献2参照。)。また、自然言語で表現された文字列からなる複数の文書に対して検索条件から抽出された単語の表記と同一の文字列の出現集合を求め、これらの出現集合を基に単語ごとの出現充足度を求め、検索条件から抽出したすべての単語に対して求められた出現度を基に充足度を求め、充足度に応じて検索結果の文書を選択して出力する文書検索装置が提案されている(たとえば特許文献3参照。)。 For this reason, for example, a document of an item is cut out from the search key document and the search target document, and the similarity between the search key document / search target document is searched for similar documents in units of items using a vector space method or the like (for example, document ID ) Has been proposed (for example, see Patent Document 2). In addition, for a plurality of documents composed of character strings expressed in a natural language, an occurrence set of the same character string as the word notation extracted from the search condition is obtained, and the occurrence satisfaction for each word is obtained based on these occurrence sets. A document search device has been proposed that calculates the degree of satisfaction, calculates the sufficiency based on the degree of appearance obtained for all words extracted from the search conditions, and selects and outputs a document as a search result according to the sufficiency. (For example, refer to Patent Document 3).
しかしながら、特許文献2に記載の従来例においては、元文書を項目単位に分割して項目ごとの検索結果を並べて出力するため、一度に、すべての項目について、各項目と検索対象文書との類似を比較することになるので、検索時間が長くなる問題がある。また、各項目ごとに分割するとしても、文書構造をもたない、あるいは文書構造が文書ごとに異なる場合には自動で文書を項目ごとに分割するのは困難である。また、適宜検索条件を変更したい場合、ユーザが検索条件の変更を簡便に指示するという手立てがなく対応し得ない問題があった。また、検索条件の設定変更を自動化して再検索を繰り返すという手立てもなく、検索結果が必ずしも満足するものとは限らないという問題があった。 However, in the conventional example described in Patent Document 2, since the original document is divided into item units and the search results for each item are output side by side, the similarity between each item and the search target document for all items at once. , The search time is long. Even if the document is divided for each item, it is difficult to automatically divide the document for each item when there is no document structure or when the document structure is different for each document. In addition, when it is desired to change the search conditions as appropriate, there is a problem that the user cannot easily cope with the change of the search conditions without a simple method. There is also a problem that the search result is not always satisfactory because there is no way to repeat the re-search by automating the setting change of the search condition.
特許文献3に記載の従来例においては、検索条件中の各単語と文書群中の各文書に対し文字列または単語の文書内での出現集合を求め、文字列または単語の出現度を求めて充足度を求め検索結果の文書を選択するというものであるため、精細な検索が可能ではあるが、検索条件の設定如何により検索内容が限られるという問題があった。また検索後に選択から外れた文書の中にもっともユーザが求める文書があるといった場合も否定し得ず、しかもたとえば検索結果が不満足である場合等に、再度検索条件を設定し直すとしても特許文献2の場合と同様にユーザが検索条件の変更を簡便に指示するという手立てはなく、したがって検索条件の設定を変更する都度、ユーザに面倒な処理を強いらざるを得ないという問題があった。すなわち特許文献3の場合も、検索条件の設定変更を自動化して再検索を繰り返し行えるという手立てはなく、検索結果が必ずしも満足するものとは限らないという問題が内在するものであった。 In the conventional example described in Patent Document 3, a character string or an occurrence set of words in a document is obtained for each word in a search condition and each document in a document group, and the appearance degree of the character string or word is obtained. Since the degree of satisfaction is obtained and a document as a search result is selected, a fine search is possible, but there is a problem that the search content is limited depending on the setting of search conditions. In addition, it cannot be denied that there is a document most desired by the user among documents that are not selected after the search, and even if the search condition is reset, for example, when the search result is unsatisfactory, Patent Document 2 As in the case of the above, there is no way for the user to simply instruct the change of the search condition. Therefore, each time the setting of the search condition is changed, there is a problem that the user has to be troublesome. That is, even in the case of Patent Document 3, there is no way to automate changing the search condition setting and repeat the re-search, and there is an inherent problem that the search result is not always satisfactory.
この発明は、上述した従来技術による問題点を解消するため、最初の検索条件の設定をも自動化することが可能であり、しかもたとえば検索結果が十分に満足できる内容ではない場合等にも、ユーザの簡便な指示で検索条件を自動的に随時変更して信頼度の高い文書検索を行うことができる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体を提供することを目的とする。 In order to solve the above-described problems caused by the conventional technology, the present invention can also automate the setting of the first search condition, and even when the search result is not sufficiently satisfactory, for example, It is an object of the present invention to provide a document search apparatus, a document search method, a document search program, and a recording medium that can perform a document search with high reliability by automatically changing search conditions as needed with simple instructions.
上述した課題を解決し、目的を達成するため、請求項1に記載の発明にかかる文書検索装置は、元文書を指定する元文書指定手段と、指定した前記元文書に類似する文書の検索条件を設定して文書データベースを検索し一または複数の類似文書を選出する文書選出手段と、選出した前記類似文書の中から所定の類似文書を表示する類似文書表示手段と、前記類似文書の表示を次の類似文書の表示に切替えるか、あるいは前記文書選出手段に検索条件の再設定を行わせて前記文書データベースを検索させ、一または複数の類似文書の再選出を行わせるかを指定する文書切替え指示手段とを備えたことを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the document search apparatus according to claim 1 includes an original document specifying means for specifying an original document, and a search condition for a document similar to the specified original document. A document selection means for searching a document database and selecting one or a plurality of similar documents, a similar document display means for displaying a predetermined similar document from the selected similar documents, and display of the similar documents. Switch to display of the next similar document, or switch the document to specify whether the document selection unit resets the search condition to search the document database and reselect one or more similar documents. And an instruction means.
この請求項1に記載の発明によれば、元文書を指定すると、文書選出手段が起動して検索条件を設定し該検索条件に基づいて文書データベースを検索し一または複数の類似文書を選出する。続いて類似文書表示手段が起動して各類似文書のうちたとえば最初の類似文書を画像表示する。しかる後、文書切替え指示手段を操作すると、前記類似文書の表示を次の類似文書の表示に切替えるか、あるいは前記文書選出手段に検索条件の再設定を行わせて前記文書データベースを検索させ、一または複数の類似文書の再選出を行わせるかを選択することができる。 According to the first aspect of the present invention, when an original document is designated, the document selection unit is activated to set a search condition, search the document database based on the search condition, and select one or more similar documents. . Subsequently, the similar document display means is activated to display, for example, the first similar document among the similar documents. Thereafter, when the document switching instruction unit is operated, the display of the similar document is switched to the display of the next similar document, or the document selection unit is reset to search the document database. Alternatively, it is possible to select whether to re-select a plurality of similar documents.
また、請求項2に記載の発明にかかる文書検索装置は、請求項1の発明において、前記文書選出手段は、前記元文書の所定に区切り得る所定の一部分を選択して最初の検索条件の設定を行う他、前記所定の一部分に後続する所定の一部分を必要に応じて順次に選択して前記検索条件の再設定を順次新たに行うことを特徴とする。 According to a second aspect of the present invention, there is provided the document retrieval apparatus according to the first aspect, wherein the document selection means selects a predetermined portion of the original document that can be divided into predetermined portions and sets initial search conditions. In addition, the search condition may be newly reset sequentially by sequentially selecting a predetermined part following the predetermined part as necessary.
また、請求項3に記載の発明にかかる文書検索装置は、請求項1または2に記載の発明おいて、前記文書選出手段は、前記元文書の所定に区切り得る所定の領域を選択して最初の検索条件の設定を行う他、前記所定の領域に後続する所定の領域を必要に応じて順次に選択して前記検索条件の再設定を順次新たに行うことを特徴とする。 According to a third aspect of the present invention, there is provided the document retrieval apparatus according to the first or second aspect, wherein the document selection means first selects a predetermined area that can be delimited in the original document. In addition, the search condition is set, and a predetermined area subsequent to the predetermined area is sequentially selected as necessary, and the search condition is newly reset sequentially.
また、請求項4に記載の発明にかかる文書検索装置は、請求項1または2に記載の発明において、前記文書選出手段は、前記元文書の所定に区切り得る所定の文字数を選択して最初の検索条件の設定を行う他、前記所定の文字数に後続する所定の文字数を必要に応じて順次に選択して前記検索条件の再設定を順次新たに行うことを特徴とする。 According to a fourth aspect of the present invention, there is provided the document search device according to the first or second aspect, wherein the document selection means selects a predetermined number of characters that can be delimited in the original document, In addition to setting the search condition, a predetermined number of characters subsequent to the predetermined number of characters are sequentially selected as necessary, and the search condition is newly reset sequentially.
また、請求項5に記載の発明にかかる文書検索装置は、請求項1〜4のいずれか一つに記載の発明において、前記文書選出手段は、前記検索条件の最初の設定または再設定に際して、前記元文書中から前記選択された文書中のキーワードを抽出するキーワード抽出動作を伴うことを特徴とする。 The document retrieval device according to the invention described in claim 5 is the document retrieval device according to any one of claims 1 to 4, wherein the document selection unit performs the initial setting or resetting of the search condition. A keyword extracting operation for extracting a keyword in the selected document from the original document is included.
また、請求項6に記載の発明にかかる文書検索方法は、元文書を指定する元文書指定工程と、指定した前記元文書に類似する文書の検索条件を設定して文書データベースを検索し一または複数の類似文書を選出する文書選出工程と、選出した前記類似文書の中から所定の類似文書を表示する類似文書表示工程と、前記類似文書の表示を次の類似文書の表示に切替えさせる前記文書切替え工程、あるいは前記文書選出工程に検索条件の再設定を行わせて前記文書データベースを検索させ、一または複数の類似文書の再選出を行わせる類似文書再選出工程のいずれかを選択指定する選択指定工程とを含むことを特徴とする。 According to a sixth aspect of the present invention, there is provided a document retrieval method according to the present invention, wherein an original document designation step for designating an original document and a search condition for documents similar to the designated original document are set to search a document database. A document selection step of selecting a plurality of similar documents, a similar document display step of displaying a predetermined similar document among the selected similar documents, and the document for switching the display of the similar document to the display of the next similar document Selection that selects or designates either a switching step or a similar document re-selection step that causes the document database to be searched by resetting search conditions in the document selection step and to re-select one or a plurality of similar documents. And a designated step.
また、請求項7に記載の発明にかかる文書検索方法は、請求項6に記載の発明において、前記文書選出工程は、前記元文書の所定に区切り得る所定の一部分を選択して最初の検索条件の設定を行う最初設定の工程と、前記所定の一部分に後続する所定の一部分を必要に応じて順次に選択して前記検索条件の再設定を順次新たに行う再設定の工程とのいずれかを行うものであることを特徴とする。 According to a seventh aspect of the present invention, there is provided the document retrieval method according to the sixth aspect, wherein the document selection step selects a predetermined part of the original document that can be divided into a predetermined range and sets the first retrieval condition. One of a first setting step for performing the setting and a resetting step for sequentially selecting a predetermined portion subsequent to the predetermined portion as necessary and resetting the search condition sequentially. It is what is performed.
また、請求項8に記載の発明にかかる文書検索方法は、請求項6または7に記載の発明において、前記文書選出工程は、前記元文書の所定に区切り得る所定の領域を選択して最初の検索条件の設定を行う最初設定の工程と、前記所定の領域に後続する所定の領域を必要に応じて順次に選択して前記検索条件の再設定を順次新たに行う再設定の工程とのいずれかを行うものであることを特徴とする。 The document search method according to the invention described in claim 8 is the document search method according to claim 6 or 7, wherein the document selection step selects a predetermined area that can be divided into predetermined parts of the original document. Either a first setting step for setting search conditions, or a resetting step for sequentially selecting a predetermined area subsequent to the predetermined area as necessary and resetting the search condition in order. It is characterized by the fact that
また、請求項9に記載の発明にかかる文書検索方法は、請求項6または7に記載の発明において、前記文書選出工程は、前記元文書の所定に区切り得る所定の文字数を選択して最初の検索条件の設定を行う最初設定の工程と、前記所定の文字数に後続する所定の文字数を必要に応じて順次に選択して前記検索条件の再設定を順次新たに行い得る再設定の工程とのいずれかを行うものであることを特徴とする。 According to a ninth aspect of the present invention, in the document retrieval method according to the sixth or seventh aspect of the invention, the document selection step selects a predetermined number of characters that can be delimited in the original document, A first setting step for setting search conditions, and a resetting step for sequentially resetting the search conditions by sequentially selecting a predetermined number of characters following the predetermined number of characters as necessary. Any one of them is performed.
また、請求項10に記載の発明にかかる文書検索方法は、請求項6〜9のいずれか一つに記載の発明おいて、前記文書選出工程には、前記検索条件の最初設定または再設定に際して、前記元文書中から前記選択された文書中のキーワードを抽出するキーワード抽出工程を含むことを特徴とする。 According to a tenth aspect of the present invention, there is provided a document retrieval method according to any one of the sixth to ninth aspects, wherein the document selection step includes the initial setting or resetting of the retrieval conditions. And a keyword extracting step of extracting a keyword in the selected document from the original document.
また、請求項11に記載の発明にかかる文書検索プログラムは、前記請求項6〜10のいずれか一つに記載された方法をコンピュータに実行させることを特徴とする。 A document search program according to an invention described in claim 11 causes a computer to execute the method described in any one of claims 6-10.
また、請求項12に記載の発明にかかる記録媒体は、請求項11に記載の文書検索プログラムを記録したことを特徴とする。 A recording medium according to a twelfth aspect of the present invention records the document search program according to the eleventh aspect.
本発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体によれば、元文書を指定することのみで、元文書から所定の一部分として、たとえば所定の領域を特定して、該領域内の文書中のキーワードを抽出し検索条件を自動設定し類似文書を検索するように構成したため、ユーザは元文書を指定するだけで簡単に類似文書を選出することが可能であり、操作性が極めて簡便で非常に利便性に優れるものである。また、検索条件の設定および再設定に際しても複雑な処理や膨大な処理を必要とせず、このため検索時間の短縮化が容易であり、この観点からも使い勝手がよく利便性に優れる効果がある。一方、類似文書の選出が不満足の結果である場合、文書切替え指示手段を用いた簡便な指示で、元文書から次の領域を特定して検索条件を自動的に再設定し、かつ新たな類似文書の再検索を自動的に行うことが可能であるため、ユーザは検索条件の設定に苦慮する必要がなく、極めて簡便に満足度の高い類似文書の選出を得ることが可能であり、高い利便性とともに優れた信頼性を得ることが可能である。 According to the document search device, the document search method, the document search program, and the recording medium according to the present invention, for example, a predetermined region is specified as a predetermined part from the original document only by specifying the original document. Since keywords are extracted from documents in the area and search conditions are automatically set to search for similar documents, the user can easily select similar documents by simply specifying the original document. However, it is extremely simple and very convenient. In addition, complicated processing and enormous processing are not required for setting and resetting the search conditions, so that it is easy to shorten the search time, and from this point of view, there is an advantage that it is convenient and convenient. On the other hand, if the selection of similar documents is unsatisfactory, the search condition is automatically reset by specifying the next area from the original document with a simple instruction using the document switching instruction means, and a new similar Since it is possible to automatically search for documents again, the user does not have to worry about setting search conditions, and can easily select similar documents with high satisfaction. It is possible to obtain excellent reliability as well as performance.
以下に添付図面を参照して、この発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記憶媒体の好適な実施の形態を詳細に説明する。 Exemplary embodiments of a document search apparatus, a document search method, a document search program, and a storage medium according to the present invention will be explained below in detail with reference to the accompanying drawings.
(文書検索装置の概要)
図1は、この発明の実施の形態にかかる文書検索装置100の概略構成を示すブロック図である。文書検索装置100は、図1に示すように、CPU101と、ROM102と、RAM103と、HDD(ハードディスクドライブ)104と、HD(ハードディスク)105と、FDD(フレキシブルディスクドライブ)106と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)107と、ディスプレイ108と、通信I/F(インタフェイス)109と、キーボード110と、マウス111と、スキャナ112と、プリンタ113とを備えている。これら各構成部はバス114によってそれぞれ接続されている。
(Outline of document search device)
FIG. 1 is a block diagram showing a schematic configuration of a
CPU101は、全体の制御を司る。ROM102は、ブートプログラムなどのプログラムが記憶されている。RAM103は、CPU101のワークエリアとして使用される。HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトを制御する。HD105は、HDD104の制御により書き込まれたデータを記憶する。
The
一方、詳しくは図3を参照して後述するが、本実施の形態においては、たとえば、元文書指定プログラムを含む元文書指定部301、文書選出プログラムを含む文書選出部302、類似文書出力プログラムを含む類似文書出力部304、文書切替え指示プログラムを含む文書切替え指示部305を備えるものである。それら元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、文書切替え指示プログラムを含む文書検索プログラムが、ROM102、あるいはHD105などに記憶されている。
On the other hand, although details will be described later with reference to FIG. 3, in the present embodiment, for example, an original
FDD106は、CPU101の制御にしたがってFD107に対するリード/ライトを制御する。FD107は、FDD106で書き込まれたデータを記憶する。
The
着脱可能な記憶媒体として、FD107の他、CD−ROM(CD−R,CD−RW)、MO、DVD(Digital Versatile Disk)、メモリカードなどであってもよい。上述した元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、および文書切替え指示プログラム等は、これらFD107、CD−ROM、MO、DVD、メモリカード等からROM102やHD105にインストールするという態様がある。
In addition to the
ディスプレイ108は、カーソル、アイコン、あるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ108には、たとえばCRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
The
I/F109は、通信回線を通じてインターネットなどのネットワーク(図2参照)201に接続され、このネットワーク201を介して他の装置(たとえば端末装置、携帯端末装置等)に接続される。そして、I/F109は、ネットワーク201と内部のインタフェイスを司り、外部装置(たとえば端末装置、携帯端末装置等)からのデータの入出力を制御する。I/F109には、たとえばモデムやLANアダプタなどを採用することができる。上述した元文書指定プログラム、文書選出プログラム、類似文書出力プログラム、および文書切替え指示プログラムを含む文書検索プログラム等は、I/F109を介してネットワーク201上のたとえばサーバコンピュータ(図2参照)202等からダウンロードすることでROM102やHD105に記憶するという態様がある。
The I /
キーボード110は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス111は、カーソルの移動や範囲選択、あるいはウインドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様の機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
The
スキャナ112は、画像を光学的に読み取った画像データなどをたとえばRAM103やHD107などに取り込む。なお、スキャナ112には、OCR機能をもたせてもよい。プリンタ113は、画像データや文書データを印刷する。プリンタ113には、たとえばレーザプリンタやインクジェットプリンタを採用することができる。
The
(文書検索装置の使用形態の一例)
図2は、文書検索装置100の使用形態の一例を示す説明図である。ネットワーク201には、サーバコンピュータ202、および複数の端末装置203が接続されている。サーバコンピュータ202は、図1に示す構成を備えるものであるが、たとえば大容量化されたHD105、もしくは大容量化された複数のHD105を用いることで文書データベース(図3参照)303Aが構築されている。また、各端末装置203は、図1に示す構成を備えており、したがって各々文書検索装置100とみなすことができる。ただし、各端末装置203にもたとえば大容量化されたHD105、もしくは大容量化された複数のHD105を用いることで文書データベース(図3参照)303を構築することが可能である。なお、文書データベース303A,303に保存される各文書には、たとえば各分野ごとの書籍、雑誌や、特許文献などが好適であるが、ホームページなどを適用することも可能であり、その他任意の文書を適用してもよい。
(Example of usage of document search device)
FIG. 2 is an explanatory diagram illustrating an example of a usage pattern of the
(文書検索装置の主要部)
図3は、文書検索装置100の主要部の構成を示す機能ブロック図である。文書検索装置100は、基本的に、元文書指定部301と、文書選出部302と、文書データベース303(303A)と、類似文書出力部304と、文書切替え指示部305とを備えるものである。
(Main part of the document retrieval device)
FIG. 3 is a functional block diagram showing the configuration of the main part of the
元文書指定部301は、たとえば元文書指定プログラムの実行により元文書すなわちRAM103あるいはHD105などに記憶された検索元となる所定の文書を指定する。文書選出部302は、あらかじめ元文書指定部301が指定した元文書に類似する文書の検索条件を自動的に設定する。文書選出部302は、検索条件の設定後、文書検索装置100内のたとえばHD105により構成される文書データベース303を検索し一または複数の類似文書のデータを取得するか、もしくは、たとえばサーバコンピュータ(図2参照)202にネットワーク201を介してアクセスし、サーバコンピュータ202内のたとえばHDD104に、たとえば大容量化された複数のHD105を用いることで構成された文書データベース303Aを該検索条件に基づいて検索させ、検索結果である一または複数の類似文書のデータをネットワーク201を介して取得する。文書選出部302は、取得した一または複数の類似文書のデータをたとえばRAM103、あるいはHD105に記憶させる処理をCPU101に依頼する信号を出力する。
The original
図4〜図6に元文書から選択される所定の領域の具体例を説明する説明図を示す。文書選出部302は、検索条件を設定する場合、元文書のたとえば所定に区切り得る所定の一部分を選択して、該所定の一部分内の文書中のキーワードを抽出するキーワード抽出動作を行うことで検索条件を自動的に設定する。文書選出部302は、元文書から所定の一部分を選択する場合、各章ごと、あるいは各項目ごとに選択してもよいが、たとえば図4に示すように、元文書のあるページ(最初は1ページ目でよいが、あるいは全ページでもよい)ごとのたとえば所定の行数分(もしくは所定の文字数、たとえば300文字など)の領域Taを指定する。文書選出部302は、該領域Ta内のたとえばすべてのキーワードを抽出することで検索条件を設定する。指定された領域Ta、および設定された検索条件のデータは、たとえばRAM103などに記憶されるとともに、設定後の検索条件のキーワードを含むデータは類似文書の検索に使用される。
FIGS. 4 to 6 are explanatory diagrams for explaining specific examples of a predetermined area selected from the original document. When the search condition is set, the
また、文書選出部302は、文書切替え指示部305からの指定により新たな文書検索を行うべく検索条件の再設定が要求された場合は、たとえばRAM103に記憶された上記領域Taに係るデータに基づいて、たとえば図5に示すように、元文書から該領域Taに後続する所定の領域(たとえば同数の行数分、もしくは同数の文字数分)Tbを指定して、この領域Tbからたとえばすべてのキーワードを抽出し検索条件の再設定を自動的に行う。また、この新たな領域Tbに係るデータもRAM103などにデータとして記憶される。文書選出部302は、文書切替え指示部305からの再度の指定により更に検索条件の再設定が要求された場合は、上述と同様の処理を行なって、たとえば図6に示すように、更に後続する新たな領域(たとえば同数の行数分、もしくは同数の文字数分)Tcを指定して同じくすべてのキーワードを抽出し検索条件の再設定を自動的に行う。以下、文書選出部302はこれを元文書の最後まで繰り返すことが可能である。
In addition, when the
類似文書出力部304は、たとえば類似文書出力プログラムの実行により文書選出部302が選出してRAM103あるいはHD105に記憶された類似文書をたとえば所定の操作に応じて先頭の一文書から順次一文書ずつディスプレイ108に画像表示する。類似文書出力部304は、文書選出部302が再設定の検索条件に基づいて検索した新たな類似文書をもたとえば所定の操作に応じて先頭の一文書から順次一文書ずつディスプレイ108に画像表示する。
The similar
図7に文書切替え指示部305の具体例を説明する説明図を示す。文書切替え指示部305はたとえばディスプレイ108に操作ウインドウ(以下指定インタフェイスと称する)700を表示させることで構成することが可能である。指定インタフェイス700には、「文書切替え」というタイトルが表記されており、ディスプレイ108に画像表示した類似文書がユーザが求める文書に近いことを示すための「近い」操作ボタン703と、ディスプレイ108に画像表示した類似文書がユーザが求める文書から遠いことを示すための「遠い」操作ボタン704とが設定されている。たとえばマウス111により「近い」操作ボタン703をクリックした場合は、検索結果である各類似文書がユーザが求めるものに近いものであることを示すため、RAM103あるいはHD105に記憶された次の類似文書の画像表示に切替えることを促す信号をたとえばCPU101を介し類似文書出力部304に出力する。たとえばマウス111により「遠い」操作ボタン704をクリックした場合は、検索結果である各類似文書がユーザが求めるものから遠いものであることを示すため、検索条件を再設定して新たな類似文書の検索を行うことを促す信号をたとえばCPU101を介し文書選出部302に出力する。
FIG. 7 is an explanatory diagram for explaining a specific example of the document switching
なお、ディスプレイ108には、類似文書出力部304により画像表示した類似文書がユーザの求める類似文書として十分に満足度が高い(すなわち正解)か否かを特定する特定インタフェイス(図示省略)をたとえばツールバーなどに表示することも可能である。特定インタフェイスには、たとえば肯定ボタンと否定ボタンが設定される。
The
一方、元文書指定部301と、文書選出部302と、文書データベース303(303A)と、類似文書出力部304と、文書切替え指示部305とを構成する場合、各々に上記専用のプログラムを用いることなく、たとえばロジックICやロジックカード等を用いて構成してもよいことは勿論である。
On the other hand, when the original
(文書検索プログラム)
図8は、本実施の形態にかかる文書検索プログラムの処理を示すフローチャートである。まずステップS801(元文書指定工程:元文書指定プログラム:元文書指定部301の起動)において、たとえばRAM103あるいはHD105などに記憶された検索元となる所定の文書(元文書)を特定する。ステップS802(文書選出工程:文書選出プログラム:文書選出部302の起動)において、元文書から所定の一部分として、たとえば300文字分の最初の領域(たとえば領域Ta、図4参照)を特定する。ステップS803(文書選出工程:文書選出プログラム:文書選出部302の起動)(類似文書再選出工程)において、特定した領域(たとえば領域Ta)を基に検索条件を生成(設定)して、たとえばサーバコンピュータ202にアクセスし該検索条件に基づいて文書データベース303Aから類似文書を検索させる。検索条件の設定に際しては、特定した文書中のキーワードを抽出することで行う。そして、検索結果である一または複数の類似文書のデータをサーバコンピュータ202から取得すると、類似文書のデータをRAM103あるいはHD105などに記憶する。続いてステップS804(類似文書出力工程:類似文書出力プログラム:類似文書出力部304の起動)において、今回の検索結果である各類似文書のうち最初の類似文書をRAM103あるいはHD105から読み出してディスプレイ108に画像表示する。
(Document search program)
FIG. 8 is a flowchart showing the processing of the document search program according to this embodiment. First, in step S801 (original document specifying step: original document specifying program: starting the original document specifying unit 301), for example, a predetermined document (original document) serving as a search source stored in the
しかる後、ステップS805において、類似文書出力部304により画像表示した類似文書がユーザの求める類似文書として十分に満足度が高い(すなわち正解)か否かを特定する特定インタフェイス(図示省略)の肯定ボタンあるいは否定ボタンがたとえばマウス111によりクリックされたか否かを判定する。特定インタフェイスの肯定ボタンがクリックされた場合(ステップS805:Yes)は、本フローを終了するが、否定ボタンがクリックされた場合(ステップS805:No)は、ステップS806(選択指定工程:文書切替え指示プログラム:文書切替え指示部305の起動)において、指定インタフェイス700の「近い」操作ボタン703がたとえばマウス111によりクリックされたか否かを判定する。
Thereafter, in step S805, an affirmation of a specific interface (not shown) for specifying whether or not the similar document displayed by the similar
「近い」操作ボタン703がクリックされたことを判定した場合(ステップS806:Yes)は、ステップS807(類似文書出力工程:類似文書出力プログラム:類似文書出力部304の起動)において、今回の検索結果である各類似文書のうち次の類似文書をRAM103あるいはHD105から読み出してディスプレイ108に画像表示した後、ステップS805に移行する。しかし、「近い」操作ボタン703がクリックされず、「遠い」操作ボタン704がクリックされたことを判定した場合(ステップS806:No)は、ステップS802(類似文書再選出工程)に移行する。ただし、この場合、ステップS802においては、元文書から新たな領域を特定すべく、たとえばRAM103に記憶された上記領域Taに係るデータに基づいて、元文書から該領域Taに後続する所定の領域(たとえば同数の300文字分:図5参照)Tbを再特定することになり、以下この処理に移行する場合は、順次後続の領域が再特定(類似文書再選出工程)されるものとなる。また、ステップS803(類似文書再選出工程)においても、再特定した領域(たとえば領域Tbなど)を基に検索条件を再生成(再設定)して、たとえばサーバコンピュータ202に再度アクセスし該検索条件の再設定に基づいて文書データベース303Aから新たな類似文書を検索させることになる。
If it is determined that the “close”
本実施の形態においては、元文書を指定すると、元文書から所定の一部分として、たとえば300文字分の所定の領域を特定して、該領域内の文書中のキーワードを抽出することで検索条件を自動設定し類似文書を検索するように構成したため、ユーザは元文書を指定するだけで類似文書を選出することが可能であり、操作性が極めて簡便で非常に利便性に優れるものである。また、検索条件の設定に際しても複雑な処理や膨大な処理を必要とせず、検索時間の短縮化が容易であり、この観点からも使い勝手がよく利便性に優れる効果がある。一方、類似文書の選出が不満足の結果である場合、指定インタフェイス700の「遠い」操作ボタン704をクリックするだけで、元文書から次の領域を特定して検索条件を自動的に再設定し、かつ新たな類似文書の再検索を自動的に行うことが可能であるので、ユーザは検索条件の設定に苦慮する必要がなく、極めて簡便に満足度の高い類似文書の選出を得ることが可能であり、高い利便性とともに優れた信頼性を得ることが可能である。
In the present embodiment, when an original document is specified, a predetermined area of, for example, 300 characters is specified as a predetermined part from the original document, and a keyword in the document in the area is extracted to satisfy the search condition. Since it is configured to automatically search and search for similar documents, the user can select a similar document simply by specifying the original document, and the operability is extremely simple and very convenient. In addition, complicated processing and enormous processing are not required when setting the search conditions, and the search time can be easily shortened. From this viewpoint, there is an advantage in convenience and convenience. On the other hand, if the selection of similar documents is unsatisfactory, simply clicking the “distant”
なお、本実施の形態で説明した文書検索プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録されるが、特にフレキシブルディスク、CD−ROM、MO、DVD等の記録媒体に記録することで一般に配布することが可能であり、あるいはインターネットなどのネットワーク(伝送媒体)を介して一般に配布することも可能である。 The document search program described in this embodiment is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD. In particular, the flexible disk, the CD-ROM, and the MO are recorded. It can be generally distributed by recording on a recording medium such as a DVD, or can be generally distributed via a network (transmission medium) such as the Internet.
以上のように、本発明にかかる文書検索装置、文書検索方法、文書検索プログラム、および記録媒体は、膨大な数の文書検索に有用であり、特に各分野の書籍、雑誌、新聞や特許文献、あるいはホームページなどの検索に適している。 As described above, the document search device, the document search method, the document search program, and the recording medium according to the present invention are useful for searching an enormous number of documents, and in particular, books, magazines, newspapers and patent documents in various fields, Or it is suitable for searching homepages.
100 文書検索装置
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 ディスプレイ
109 I/F
110 キーボード
111 マウス
112 スキャナ
113 プリンタ
114 バス
201 ネットワーク
202 サーバコンピュータ
203 端末装置
301 元文書指定部
302 文書選出部
303,303A 文書データベース
304 類似文書出力部
305 文書切替え指示部
Ta,Tb,Tc 領域
700 操作ウインドウ(指定インタフェイス)
703 「近い」操作ボタン
704 「遠い」操作ボタン
100
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 Display 109 I / F
DESCRIPTION OF
703 “near”
Claims (12)
指定した前記元文書に類似する文書の検索条件を設定して文書データベースを検索し一または複数の類似文書を選出する文書選出手段と、
選出した前記類似文書の中から所定の類似文書を表示する類似文書出力手段と、
前記類似文書の表示を次の類似文書の表示に切替えさせるか、あるいは前記文書選出手段に検索条件の再設定を行わせて前記文書データベースを検索させ、一または複数の類似文書の再選出を行わせるかを指定する文書切替え指示手段と、
を備えたことを特徴とする文書検索装置。 An original document specifying means for specifying the original document;
A document selection means for setting a search condition for documents similar to the specified original document, searching the document database, and selecting one or more similar documents;
Similar document output means for displaying a predetermined similar document from among the selected similar documents;
The display of the similar document is switched to the display of the next similar document, or the document selection unit is made to reset the search condition to search the document database, and one or more similar documents are selected again. Document switching instruction means for specifying whether to
A document retrieval apparatus comprising:
指定した前記元文書に類似する文書の検索条件を設定して文書データベースを検索し一または複数の類似文書を選出する文書選出工程と、
選出した前記類似文書の中から所定の類似文書を表示する類似文書出力工程と、
前記類似文書の表示を次の類似文書の表示に切替えさせる文書切替え工程、あるいは前記文書選出工程に検索条件の再設定を行わせて前記文書データベースを検索させ、一または複数の類似文書の再選出を行わせる類似文書再選出工程のいずれかを選択指定する選択指定工程と、
を含むことを特徴とする文書検索方法。 An original document designating process for designating the original document;
A document selection step of searching a document database by setting search conditions for documents similar to the specified original document and selecting one or more similar documents;
A similar document output step of displaying a predetermined similar document from among the selected similar documents;
Reselecting one or more similar documents by searching the document database by performing a document switching step for switching the display of the similar document to the display of the next similar document, or by causing the document selection step to reset search conditions. A selection and designation process for selecting and designating one of the similar document re-election processes for performing
A document retrieval method comprising:
12. A recording medium on which the document search program according to claim 11 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003329205A JP4344207B2 (en) | 2003-09-19 | 2003-09-19 | Document search device, document search method, document search program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003329205A JP4344207B2 (en) | 2003-09-19 | 2003-09-19 | Document search device, document search method, document search program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005092824A true JP2005092824A (en) | 2005-04-07 |
JP4344207B2 JP4344207B2 (en) | 2009-10-14 |
Family
ID=34458511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003329205A Expired - Fee Related JP4344207B2 (en) | 2003-09-19 | 2003-09-19 | Document search device, document search method, document search program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4344207B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241794A (en) * | 2006-03-10 | 2007-09-20 | National Institute Of Information & Communication Technology | Information search device by multisense word and program |
JP2010211354A (en) * | 2009-03-09 | 2010-09-24 | Nomura Research Institute Ltd | Copyrighted work comparison system |
JPWO2016147220A1 (en) * | 2015-03-18 | 2017-12-07 | 日本電気株式会社 | Text visualization system, text visualization method, and program |
-
2003
- 2003-09-19 JP JP2003329205A patent/JP4344207B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241794A (en) * | 2006-03-10 | 2007-09-20 | National Institute Of Information & Communication Technology | Information search device by multisense word and program |
JP2010211354A (en) * | 2009-03-09 | 2010-09-24 | Nomura Research Institute Ltd | Copyrighted work comparison system |
JPWO2016147220A1 (en) * | 2015-03-18 | 2017-12-07 | 日本電気株式会社 | Text visualization system, text visualization method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4344207B2 (en) | 2009-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7769771B2 (en) | Searching a document using relevance feedback | |
JP5437557B2 (en) | Search processing method and search system | |
JP2007286864A (en) | Image processor, image processing method, program, and recording medium | |
JP5284030B2 (en) | Search condition specifying device, search condition specifying method and program | |
JP2007317034A (en) | Image processing apparatus, image processing method, program, and recording medium | |
JP2667352B2 (en) | Data retrieval apparatus and method | |
JP5494493B2 (en) | Information search apparatus, information search method, and program | |
JP2009069875A (en) | Content retrieval device, content retrieval method, program and recording medium | |
KR101365174B1 (en) | Method for generating the search information and apparatus using the same | |
JP3994188B2 (en) | Multimedia data search system, multimedia search method, and program for realizing the search method | |
JP4344207B2 (en) | Document search device, document search method, document search program, and recording medium | |
JP5640700B2 (en) | Information search device, search input method, and search input program | |
JP2006285656A (en) | Document search system, recording medium, program and document search method | |
JPH1055372A (en) | On-demand interface device and computer-readable recording medium | |
JP3500893B2 (en) | Information processing apparatus and information processing method | |
JP2000029901A (en) | Device for retrieving image and method therefor | |
JP2006163645A (en) | Method, device and program for retrieving information, computer readable recording medium and device recorded with the program | |
JP4574186B2 (en) | Important language identification method, important language identification program, important language identification device, document search device, and keyword extraction device | |
JP2006309509A (en) | Browsing screen reusing device, browsing screen reusing program, and storage medium | |
JP2005327023A (en) | Retrieval system of full-text search using hit number expectancy | |
JP2006120021A (en) | Device, method, and program for supporting problem solution | |
JP3498635B2 (en) | Information retrieval method and apparatus, and computer-readable recording medium | |
JP2000137730A (en) | Document retrieval device, document retrieval method and medium recorded with document retrieval program | |
JP5720511B2 (en) | Information browsing method, information browsing system, server device, and client device | |
JP2009129103A (en) | Information retrieval device and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060615 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090707 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090710 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120717 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130717 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |