JP4525224B2 - Document management program, document management method, and document management apparatus - Google Patents
Document management program, document management method, and document management apparatus Download PDFInfo
- Publication number
- JP4525224B2 JP4525224B2 JP2004216982A JP2004216982A JP4525224B2 JP 4525224 B2 JP4525224 B2 JP 4525224B2 JP 2004216982 A JP2004216982 A JP 2004216982A JP 2004216982 A JP2004216982 A JP 2004216982A JP 4525224 B2 JP4525224 B2 JP 4525224B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- documents
- group
- search keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、複数のドキュメント群から、ドキュメントを検索するドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置に関する。 The present invention relates to a document management program, a document management method, and a document management apparatus for searching for a document from a plurality of document groups.
従来から、文書などのドキュメントをデータベースに登録しておき、当該文書中に含まれる単語をキーワードとしてドキュメントを全文検索する装置が用いられている。 2. Description of the Related Art Conventionally, an apparatus that registers documents such as documents in a database and performs a full text search using a word included in the document as a keyword is used.
例えば特許文献1に開示されている技術によると、かかる検索における場合に、利用者が適切な検索結果を得るまでに繰り返し検索をやり直す手間を削減するため、所定の文書をデータベースに予め登録し、所定の検索条件に関連する文書をこのデータベースから取り出す場合、所定の検索条件を用いた検索によって得られた文書中に存在する単語をピックアップし、次回の検索時に追加すべき新たな検索語の候補として、上記ピックアップされた単語を提示する。
しかしながら、上記従来の検索技術によると、例えば各検索条件に応じて得られる検索の結果に配慮されていないので、検索語の候補としてピックアップされた単語を選択して検索しても、検索結果のドキュメント数が「0」であるという事態も想定されるなど、利便性が低い。 However, according to the above conventional search technology, for example, the search results obtained according to each search condition are not considered, so even if a search is made by selecting a word picked up as a search word candidate, Convenience is low, such as a situation where the number of documents is “0”.
本発明は上記実情に鑑みて為されたもので、利便性を向上できるドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置を提供することを、その目的の一つとする。 The present invention has been made in view of the above circumstances, and an object thereof is to provide a document management program, a document management method, and a document management apparatus that can improve convenience.
請求項1記載の発明は、ドキュメント管理プログラムであって、複数のドキュメントを保持するドキュメント保持手段にアクセス可能に接続されたコンピュータを、当該保持されているドキュメントの少なくとも一部を対象ドキュメント群として選出する対象選出手段と、当該対象ドキュメント群に含まれる個々のドキュメントから所定の単語群を抽出する単語抽出手段と、各単語が含まれているドキュメントの数に基づいて、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する選択手段と、として機能させ、当該選択した検索用キーワード候補を所定の検索処理に供することとしたものである。The invention according to
請求項2記載の発明は、請求項1に記載のドキュメント管理プログラムであって、前記選択手段においては、前記各単語が含まれているドキュメント数が、所定の値の範囲にある場合に、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択するようコンピュータを機能させることとしたものである。Invention of
請求項3記載の発明は、請求項1または2に記載のドキュメント管理プログラムにおいて、前記選択された検索用キーワード候補を単語群に含まれる単語同士の相関値に基づいて階層的にグループ化するクラスタリング手段として、さらにコンピュータを機能させ、当該階層的な単語グループの各階層ごとに、当該階層以下に含まれる単語が、検索条件の単位として利用者に提示されることとしたものである。A third aspect of the present invention is the document management program according to the first or second aspect, wherein the selected search keyword candidates are hierarchically grouped based on a correlation value between words included in a word group. As a means, the computer is further caused to function so that words included in the hierarchy or lower are presented to the user as a search condition unit for each hierarchy of the hierarchical word group.
請求項4記載の発明は、請求項3に記載のドキュメント管理プログラムであって、前記クラスタリング手段においては、前記検索用キーワード候補の組み合わせのうち、当該組み合わせに係る検索用キーワード候補に関係するドキュメントの検索の結果として得られるドキュメントの数が、予め定めたドキュメント数条件を満足する場合に、当該組み合わせに係る検索用キーワード候補に関係するドキュメントを検索するための単語グループを表す情報を生成させるようコンピュータを機能させることとしたものである。The invention according to claim 4 is the document management program according to claim 3, wherein, in the clustering means, of the search keyword candidates related to the search keyword candidate among the search keyword candidate combinations. When the number of documents obtained as a result of the search satisfies a predetermined document number condition, the computer generates information representing a word group for searching for documents related to the search keyword candidates related to the combination. Is supposed to function.
請求項5記載の発明は、請求項4に記載のドキュメント管理プログラムであって、前記ドキュメント数条件は、前記対象ドキュメントの数に対する、前記検索の結果として得られるドキュメントの数の割合が、予め定めた値の範囲にあるとの条件であることとしたものである。A fifth aspect of the present invention is the document management program according to the fourth aspect, wherein the ratio of the number of documents obtained as a result of the search to the number of the target documents is determined in advance as the document number condition. It is assumed that the condition is within the range of the values.
請求項6記載の発明は、請求項5に記載のドキュメント管理プログラムであって、前記値の範囲は、単語グループの階層位置に応じて異なることとしたものである。A sixth aspect of the present invention is the document management program according to the fifth aspect, wherein the range of the values differs depending on the hierarchical position of the word group.
請求項7記載の発明は、請求項3から6のいずれか一項に記載のドキュメント管理プログラムであって、前記単語グループの提示時には、各単語グループに含まれる単語のいずれかを含むとの検索条件とする検索の結果得られるドキュメントの数に関する情報を併せて提示させることとしたものである。The invention according to claim 7 is the document management program according to any one of claims 3 to 6, wherein when the word group is presented, a search for including any of the words included in each word group Information regarding the number of documents obtained as a result of the search as a condition is also presented.
請求項8記載の発明は、請求項1から7のいずれか一項に記載のドキュメント管理プログラムであって、前記ドキュメント保持手段は、ドキュメントを分類して保持しており、前記対象選出手段は、前記分類の少なくとも一部を特定する情報の入力を受けて、当該特定された分類に含まれるドキュメントを対象ドキュメントとして選出することとしたものである。Invention of Claim 8 is the document management program as described in any one of Claim 1-7, Comprising: The said document holding means classify | categorizes and hold | maintains a document, The said object selection means is, In response to input of information specifying at least a part of the classification, a document included in the specified classification is selected as a target document.
請求項9記載の発明は、複数のドキュメントを保持するドキュメント保持手段にアクセス可能に接続されたドキュメント管理装置であって、当該保持されている個々のドキュメントから、単語群を抽出する手段と、各単語が含まれているドキュメントの数に基づいて、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する手段と、を含み、当該選択した検索用キーワード候補が所定の検索処理に供されることとしたものである。The invention described in claim 9 is a document management apparatus connected to a document holding means for holding a plurality of documents, wherein the word management means extracts each word group from the held documents, Means for selecting at least a part of the words included in the word group as search keyword candidates based on the number of documents including the words, and the selected search keyword candidates are subjected to a predetermined search process. It is intended to be used.
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係るドキュメント管理装置1は、図1に示すように、ネットワークを介して、ドキュメント保持手段としてのドキュメントデータベース2と、通信可能に接続されている。またこのドキュメント管理装置1は、図1に示すように制御部11と、記憶部12と、操作部13と、表示部14と、通信部15とを含んで構成されている。
Embodiments of the present invention will be described with reference to the drawings. As shown in FIG. 1, a
制御部11は、CPUなどを用いて実現でき、記憶部12に格納されているプログラムに従って動作している。本実施の形態では、制御部11は、ドキュメントデータベース2に格納されているドキュメントの一部を対象ドキュメント群として選出しておき、この対象ドキュメント群に含まれる各ドキュメントから所定の単語群を抽出する。そして当該単語群に含まれる単語同士の相関値を例えば係り受け解析の結果から演算する。また、各単語の出現頻度(対象ドキュメント群に含まれるドキュメントのうち、各単語の現れるドキュメントの数)を演算し、この出現頻度に基づいて単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する処理を行う。また、出現頻度と相関値に基づいて単語群を再帰的にグループ化し、各レベルの単語グループを検索用キーワード候補とする。制御部11は、さらに当該選択した検索用キーワード候補を所定の検索処理に供する。これらの制御部11の処理の具体的な内容については、後に詳しく述べる。記憶部12は、RAM(Random Access Memory)や、ROM(Read Only Memory)等のメモリ素子、並びにハードディスク等によって実現できる。この記憶部12は、制御部11によって実行されるプログラムが保持されている。また、この記憶部12は、制御部11の処理の過程で利用される種々のデータを保持するワークメモリとしても動作する。
The
操作部13は、マウスやキーボード等によって実現できる。この操作部13は、利用者の操作を受け入れて、当該操作の内容を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示出力する。通信部15は、ネットワークに接続されており、制御部11から入力される指示に従って、ネットワークを介してデータを送信出力する。またこの通信部15は、ネットワークを介して到来するデータを受信して制御部11に出力する。
The
ドキュメントデータベース2は、ドキュメントの実体データを保持している。本実施の形態のドキュメントデータベース2は、各ドキュメントを階層ディレクトリ構造を用いて分類して格納している。例えば利用者は、新たにドキュメントを格納する際には、予め定められた階層ディレクトリ構造に含まれる、いずれかのディレクトリに関連づけて(つまりそのディレクトリに分類して)、当該ドキュメントを格納する。
The
ここで制御部11の処理の内容について説明する。本実施の形態の制御部11は、対象ドキュメント群を選出する選出処理と、単語群を抽出する単語群抽出処理と、単語間の相関値を演算する相関値演算処理と、単語の組み合わせの出現頻度を演算する出現頻度演算処理と、単語の組み合わせから検索用キーワード候補を選択するキーワード選択処理と、選択した検索用キーワード候補を階層的にグループ化するクラスタリング処理と、この階層的にグループ化された検索用キーワード候補を利用者に提示する提示処理とを実行している。また、提示した検索用キーワードの選択操作を受け入れて、当該選択された検索用キーワードに基づく検索処理を実行する。
Here, the content of the process of the
以下、これら各処理の内容について説明する。制御部11は、操作部13を介して利用者から検索の対象とするディレクトリの指定操作を受けて、当該ディレクトリ以下(当該ディレクトリより下位の階層にあるディレクトリ以下をも含む)のドキュメントを対象ドキュメント群として選出する(選出処理)。
Hereinafter, the contents of these processes will be described. Upon receiving an operation for specifying a directory to be searched from the user via the
制御部11は、対象ドキュメント群に含まれる各ドキュメントについて、それぞれに含まれる文章から単語を抽出する。具体的には、各ドキュメントを順次、処理対象として選択しながら、選択対象となったドキュメントに含まれる文章に対して、形態素解析処理を行って単語のリストを生成し、さらにこのリストから重複する単語を除去する処理を行う。さらに制御部11は、この抽出した単語のうち、予め定められた一般単語群(いわゆるストップワードの群)に含まれる単語を取り除く。
The
一例として、「ナレッジマネジメントのツールは、EIPやSFA、CRMツールなどとともに、発展を続けているところである。」との文章については、「ナレッジマネジメント/の/ツール/は/EIP/や/SFA/CRM/ツール/など/と/とも/に/発展/を/続けて/いる/ところ/である/。」のように分割されて、単語のリストが生成される。ここから重複する単語を除去すると、「ナレッジマネジメント/の/ツール/は/EIP/や/SFA/CRM/など/と/とも/に/発展/を/続けて/いる/ところ/である/。」のように重複する「ツール」という単語が除去される。次に、一般単語群に含まれる、助詞(「の」や「は」の類い)や、どの文章にも現れ得ると想定される単語(例えば「発展」、「続けて」の類い)を除去して、「ナレッジマネジメント/ツール/EIP/SFA/CRM」が単語群抽出処理の抽出結果として得られることになる。 As an example, for the sentence “Knowledge management tools are continuing to develop along with EIP, SFA, CRM tools, etc.”, “Knowledge management /// tool / has / EIP /// SFA / CRM / tools / etc. / to / to / to / to / development / to / continue / to / where / is /. ”To generate a list of words. When the duplicate word is removed from this, “Knowledge management /// Tool / has / EIP / or / SFA / CRM / etc. / and / to / to / development / to / continue / to / to /. The word “tool” that overlaps is removed. Next, particles included in the general word group (a kind of “no” or “ha”) and words that are supposed to appear in any sentence (for example, a kind of “development”, “continue”) And “knowledge management / tool / EIP / SFA / CRM” is obtained as an extraction result of the word group extraction process.
さらに制御部11は、得られた単語群のリストに含まれる各単語について、当該単語を含む対象ドキュメントの数(DF(Document Frequency)、いわば出現頻度)を調べ、単語出現頻度情報として記憶部12に格納する。そして制御部11は、このドキュメントの数(DF)が全対象ドキュメントの数に占める割合が所定の値を超えているときには、当該単語をリストから除去してもよい。例えば、上記の例の場合に、単語「ツール」を含む対象ドキュメントの数DFが、対象ドキュメントの総数Nに占める割合DF/Nが例えば0.5(50%)を超えている場合は、当該単語「ツール」を各ドキュメントの単語リストから除去することとしてもよい。
Further, for each word included in the obtained word group list, the
制御部11は、こうして得られる単語群のリストを、それぞれ抽出元のドキュメントを特定する情報に関連づけて、記憶部12に格納する。
The
制御部11は、次に、ドキュメントごとに得られた単語群のリストに含まれる各単語について、単語同士の相関値を演算する。ここで相関値は、例えば係り受けの分析処理によって演算できる。具体的には、骨格構造解析などの方法(例えば兵藤安昭,池田尚志:表層的情報とN近傍ブロック化手法による 日本語長文の骨格構造解析,情報処理学会論文誌,Vol.36,No.9,pp2091−2101(1995))が知られており、相関値の演算方法は当該知られている方法を用いることができるので、ここでの詳細な説明を省略する。この処理により、図2に示すように、単語群に含まれる任意の単語ペアに関する相関値が演算される。
Next, the
制御部11は、ここで、相関値を参照しながら単語の組み合わせを生成する。具体的には、まず、相関の大きい順に単語をグループ化する。ただし、グループ化した単語のDF/Nが所定値を超える場合はそのグループ化を行わない。また、グループに含まれる単語の数が所定値、例えば10語を超える場合はそのグループ化を行わない。DF/Nあるいはグループに含まれる単語の数の制約によりグループ化できなくなるまでグループ化が続く。あるいは、予めしきい値を定め、グループ内の単語の組み合わせの内、相関値が最も低いものが、しきい値を超えるもののみをグループ化してもよい。
Here, the
同様の処理を語のグループに対して再帰的に行い、リストに含まれる最上位のグループが所定値、例えば10グループ以下になるようにする。グループを上位のグループにまとめる場合は、DF/Nの上限値を上げるようにする。同様に、相関の下限値を設定している場合は、相関の下限値を下げるようにする。 The same processing is recursively performed on the word group so that the highest group included in the list becomes a predetermined value, for example, 10 groups or less. When grouping groups into higher groups, the upper limit of DF / N is increased. Similarly, when the lower limit value of the correlation is set, the lower limit value of the correlation is lowered.
具体的に、図3(a)に例示するように単語AからDについての相関値が演算されているとすると、ここから例えばしきい値「0.5」以上の相関値となっている単語の組み合わせを相関値の大きい順に取り出してグループ化する。まず、最も相関値の大きい単語Bと単語Dがグループになる。次に単語Aと単語Bのグループ化を考えるが、単語Aと単語Dの相関値がしきい値より小さいのでグループ化しない。次に単語Cと単語Dのグループ化を考えるが、単語Bと単語Cの相関値はしきい値以上なので、単語B・単語C・単語Dがグループ化される。 Specifically, if the correlation values for the words A to D are calculated as illustrated in FIG. 3A, for example, the word having a correlation value equal to or greater than the threshold value “0.5” from here. Are extracted and grouped in descending order of correlation value. First, the word B and the word D having the largest correlation value are grouped. Next, the grouping of the word A and the word B will be considered, but the group A is not grouped because the correlation value between the word A and the word D is smaller than the threshold value. Next, the grouping of the word C and the word D is considered. Since the correlation value between the word B and the word C is equal to or greater than a threshold value, the word B, the word C, and the word D are grouped.
制御部11は、こうして得られた単語の組み合わせをキーワード候補として記憶部12に格納する。
The
そして、制御部11は、全てのレベルの全ての単語グループについて、そのグループに含まれる単語のいずれかを含む旨の検索条件による検索を行い、その結果として得られるドキュメントの数(ヒット数)を調べ、当該ドキュメントの数が予め定めたドキュメント数条件を満足しない単語グループは作成しない。
Then, the
具体的にドキュメント数条件は、対象ドキュメントの数(N)に対する、ヒット数(DF)の割合が、予め定めた値の範囲にある、つまり
MIN<DF/N<MAX
との条件である。
Specifically, the document number condition is that the ratio of the hit number (DF) to the number of target documents (N) is within a predetermined value range, that is, MIN <DF / N <MAX.
It is a condition.
ここでMINを設けたのは、検索の結果として得られるドキュメントの数が「0」になることを防止するためのものであるが、検索の結果がない場合があっても構わないときには、MINを「0」に設定しておけばよい。 Here, the MIN is provided to prevent the number of documents obtained as a result of the search from becoming “0”. However, if there is a case where there is no result of the search, the MIN is provided. Should be set to “0”.
制御部11は、上記ドキュメント数条件を満足する単語あるいは単語グループのリストを、キーワード候補として記憶部12に格納する。
The
キーワード候補が単語グループである場合は、ドキュメント数条件はグループのレベルに応じて異なることとしてもよい。例えば、単一の単語であれば、MAXを「0.5」とし、グループのレベル(階層位置)が上がるたびにMAXを逓増させて、単語を直接含むグループ(第1階層)の場合「0.75」、単語を直接含むグループを更にグループ化したもの(第2階層)の場合「0.875」、さらにそのグループをグループ化したもの(第3階層)の場合「0.9375」…としてもよい。 When the keyword candidate is a word group, the document number condition may be different depending on the level of the group. For example, in the case of a single word, MAX is set to “0.5”, and MAX is increased every time the group level (hierarchy position) is increased. .75 ”,“ 0.875 ”in the case of further grouping the group including the word directly (second level),“ 0.9375 ”in the case of further grouping the group (third level). Also good.
制御部11は、このようにして対象ドキュメントに現実に含まれる単語をグループ化し、利用者に提示するのである。すなわち制御部11は、上記処理によって得られた単語リストを表示部14に表示する。具体的には、制御部11は、図4(a)に示すように単語リストの一覧と、検索ボタンとを表示部14に表示する。利用者が、この単語リストの一覧から単語あるいは単語グループをマウスクリック操作などで選択し、さらに検索ボタンをクリックすると、制御部11は、当該操作を受け入れて、選択した単語あるいは単語グループに係る検索条件に基づく検索結果(検索の結果となるドキュメントの一覧など)を表示部14に提示する。
In this way, the
また、キーワード候補が選択されたときに、当該キーワード候補が、単語グループである場合は、当該単語グループを構成する単語あるいは単語サブグループの一覧をさらに提示してもよい(図4(b))。図4(b)では、A,B,Cからなる単語グループが、A,Bと、A,Cとの各単語グループのグループ化によって得られたものである場合を示している。この場合「A,B,C」の検索条件が選択されると、「A,B」の検索条件と、「A,C」の検索条件とが個別に提示される。利用者がここで提示された「A,B」の検索条件を選択して、検索ボタンをクリックすると、制御部11は、選択した「A,B」の検索条件に基づく検索結果(検索の結果となるドキュメントの一覧など)を表示部14に提示する。
In addition, when a keyword candidate is selected, if the keyword candidate is a word group, a list of words or word subgroups constituting the word group may be further presented (FIG. 4B). . FIG. 4B shows a case where the word group composed of A, B, and C is obtained by grouping the word groups of A, B, and A, C. In this case, when the search condition “A, B, C” is selected, the search condition “A, B” and the search condition “A, C” are presented individually. When the user selects the search condition “A, B” presented here and clicks the search button, the
さらに制御部11は、提示する検索条件ごとに、各検索条件による検索の結果得られるドキュメントの数に関する情報を併せて提示してもよい。例えば、検索条件の一覧に、当該情報を関連づけて提示する例を図5に示す。また、図5の例では、選択した単語等を検索条件の単位としてさらに任意の単語を利用者が追加する(選択した検索条件に対して論理和(OR)、論理積(AND)などの条件で組み合わせる)ことができるようにしている。
Further, the
さらに図5の例において、「AND検索」ボタンがクリックされると、制御部11は、検索条件の一覧を複数提示して、複数の検索条件の論理積により新たな検索条件を生成して検索指示ができるようにしている。なお、図5の例において複数の検索条件を論理和によって合成して新たな検索条件を生成する場合は、検索条件の一覧から当該論理和によって結合する複数の検索条件をそれぞれ選択すればよい。このように検索条件同士の論理和、論理積を指定した場合も、当該指定された条件での検索結果のドキュメント数に関する情報を提示してもよい。
Further, in the example of FIG. 5, when the “AND search” button is clicked, the
さらに図5の例においては、検索の対象となるディレクトリを選択するためのインタフェースを併せて提示している(X)。このインタフェースにて検索の対象となるディレクトリが指定されるたびに、当該指定されたディレクトリに含まれるドキュメントを対象ドキュメントとして検索条件を生成するための上記処理が行われ、生成された検索条件が提示されることになる。 Further, in the example of FIG. 5, an interface for selecting a directory to be searched is also presented (X). Each time a directory to be searched is specified in this interface, the above processing for generating a search condition is performed using the documents included in the specified directory as the target document, and the generated search condition is presented. Will be.
さらに、図5に示した例のように、利用者が任意の単語を入力できるようにしている場合には、利用者が単語を入力したときに、対象ドキュメントのうち、当該入力した単語を含むドキュメントの数に関する情報を提示してもよい。例えば入力された単語に関する出現頻度情報が記憶部12に格納されているときには、当該情報を参照して、当該単語の出現頻度(DF)が予め定めた頻度しきい値未満であるときには、「この語はヒット数が少ないか、またはヒットしません」のような案内を表示する。
Furthermore, when the user can input an arbitrary word as in the example shown in FIG. 5, when the user inputs a word, the input word includes the input word. Information about the number of documents may be presented. For example, when the appearance frequency information related to the input word is stored in the
また、上記頻度しきい値未満でないときには、当該出現頻度の値(DFの値)を表示してもよい(図6)。さらに、利用者が単語を入力したときに、提示した検索条件に当該単語が含まれているときには、入力された単語の代わりに、検索条件に含まれる単語を選択した状態としてもよい(図7)。なお、図7の例では入力欄に入力された単語が表示されたままとなっているが、検索条件に含まれる単語を選択した状態とした後、この入力欄の内容を削除して、入力欄を空としてもよい。 Further, when it is not less than the frequency threshold, the appearance frequency value (DF value) may be displayed (FIG. 6). Furthermore, when the user inputs a word and the word is included in the presented search condition, the word included in the search condition may be selected instead of the input word (FIG. 7). ). In the example of FIG. 7, the word input in the input field remains displayed. However, after selecting the word included in the search condition, the contents of the input field are deleted and input The column may be empty.
また、検索の結果を提示する方法として、制御部11は、検索の対象として選択されたディレクトリ以下にあるディレクトリ(当該選択されたディレクトリのすぐ下位にあるディレクトリ)または、ドキュメントの一覧を提示し、検索条件を満足するドキュメントや、検索条件を満足するドキュメントを含む(さらに下位のディレクトリに内包されている場合を含む)ディレクトリと、それ以外のドキュメントやディレクトリとは区別して、強調表示してもよい(図8)。図8では、検索条件を満足するドキュメントや、検索条件を満足するドキュメントを内包するディレクトリを網掛けして強調する例を示しているが、このほか、文字色や背景色を変更したり、点滅させるなど、表示態様を異ならせて強調表示してもよい。
In addition, as a method for presenting the search result, the
本実施の形態によると、検索の対象となるドキュメント群に実際に含まれる単語に基づいて検索用キーワード候補が提示され、また、当該提示される検索用キーワード候補に応じて得られる検索の結果に配慮されている。このため、有為な検索操作を容易に行うことができるよう支援され、利便性が向上できる。 According to the present embodiment, search keyword candidates are presented based on the words actually included in the document group to be searched, and the search results obtained according to the presented search keyword candidates are displayed. Considered. For this reason, it is supported that a significant search operation can be easily performed, and convenience can be improved.
1 ドキュメント管理装置、2 ドキュメントデータベース、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部。
DESCRIPTION OF
Claims (5)
当該保持されているドキュメントの少なくとも一部を対象ドキュメント群として選出する対象選出手段と、
当該対象ドキュメント群に含まれる個々のドキュメントから所定の単語群を抽出する単語抽出手段と、
前記単語群に含まれる各単語について、当該単語が含まれているドキュメントの数を調べる手段と、
前記調べたドキュメントの数に基づいて、前記ドキュメントごとに得た単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する選択手段と、
前記選択された検索用キーワード候補を単語群に含まれる単語同士の相関値を演算する手段と、
前記演算した相関値が予め定めたしきい値を超える前記選択された検索用キーワード候補を、前記演算した相関値の大きい順にグループ化する手段と、
前記グループ化の処理を、前記グループ化によって得られたグループに対して再帰的に行う手段と、
当該グループ化された検索用キーワード候補の一覧を利用者に提示する手段と、
として機能させることを特徴とするドキュメント管理プログラム。 A computer connected to a document holding means for holding a plurality of documents,
A target selecting means for selecting at least a part of the held document as a target document group;
Word extraction means for extracting a predetermined word group from individual documents included in the target document group;
Means for examining the number of documents containing the word for each word contained in the word group;
Selection means for selecting at least a part of words included in the word group obtained for each document as a search keyword candidate based on the number of documents examined ;
Means for calculating a correlation value between words included in the word group for the selected search keyword candidates ;
Means for grouping the selected search keyword candidates whose calculated correlation values exceed a predetermined threshold in descending order of the calculated correlation values ;
Means for recursively performing the grouping process on the group obtained by the grouping;
Means for presenting a list of search keyword candidates grouped to the user;
Document management program characterized by functioning as
前記選択手段においては、前記各単語が含まれているドキュメント数が、所定の値の範囲にある場合に、前記単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択するようコンピュータを機能させることを特徴とするドキュメント管理プログラム。 The document management program according to claim 1,
In the selection means, when the number of documents including each word is within a predetermined value range, a computer is selected so that at least a part of the words included in the word group is selected as a search keyword candidate. A document management program characterized by functioning.
前記検索用キーワード候補をグループ化する手段においては、前記検索用キーワード候補の組み合わせのうち、当該組み合わせに係る検索用キーワード候補に関係するドキュメントの検索の結果として得られるドキュメントの数が、予め定めたドキュメント数条件を満足する場合に、当該組み合わせに係る検索用キーワード候補に関係するドキュメントを検索するための単語グループを表す情報を生成させるようコンピュータを機能させることを特徴とするドキュメント管理プログラム。 The document management program according to claim 1 or 2,
In the means for grouping the search keyword candidates, the number of documents obtained as a result of searching for documents related to the search keyword candidates related to the combination of the search keyword candidates is determined in advance. A document management program that causes a computer to function to generate information representing a word group for searching for a document related to a search keyword candidate related to the combination when the document number condition is satisfied.
前記ドキュメント数条件は、前記対象ドキュメントの数に対する、前記検索の結果として得られるドキュメントの数の割合が、予め定めた値の範囲にあるとの条件であることを特徴とするドキュメント管理プログラム。 The document management program according to claim 3,
The document number condition is a condition that a ratio of the number of documents obtained as a result of the search to the number of the target documents is in a predetermined value range.
当該保持されているドキュメントの少なくとも一部を対象ドキュメント群として選出する対象選出手段と、
当該対象ドキュメント群に含まれる個々のドキュメントから所定の単語群を抽出する単語抽出手段と、
前記単語群に含まれる各単語について、当該単語が含まれているドキュメントの数を調べる手段と、
前記調べたドキュメントの数に基づいて、前記ドキュメントごとに得た単語群に含まれる単語の少なくとも一部を検索用キーワード候補として選択する選択手段と、
前記選択された検索用キーワード候補を単語群に含まれる単語同士の相関値を演算する手段と、
前記演算した相関値が予め定めたしきい値を超える前記選択された検索用キーワード候補を、前記演算した相関値の大きい順にグループ化する手段と、
前記グループ化の処理を、前記グループ化によって得られたグループに対して再帰的に行う手段と、
当該グループ化された検索用キーワード候補の一覧を利用者に提示する手段と、
を含むことを特徴とするドキュメント管理装置。 A document management apparatus connected so as to be accessible to a document holding means for holding a plurality of documents,
A target selecting means for selecting at least a part of the held document as a target document group;
Word extraction means for extracting a predetermined word group from individual documents included in the target document group;
Means for examining the number of documents containing the word for each word contained in the word group;
Selection means for selecting at least a part of words included in a word group obtained for each document as a search keyword candidate based on the number of documents examined ;
Means for calculating a correlation value between words included in the word group for the selected search keyword candidates ;
Means for grouping the selected search keyword candidates whose calculated correlation values exceed a predetermined threshold in descending order of the calculated correlation values ;
Means for recursively performing the grouping process on the group obtained by the grouping;
Means for presenting a list of search keyword candidates grouped to the user;
A document management apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004216982A JP4525224B2 (en) | 2004-07-26 | 2004-07-26 | Document management program, document management method, and document management apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004216982A JP4525224B2 (en) | 2004-07-26 | 2004-07-26 | Document management program, document management method, and document management apparatus |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006039811A JP2006039811A (en) | 2006-02-09 |
JP2006039811A5 JP2006039811A5 (en) | 2007-08-09 |
JP4525224B2 true JP4525224B2 (en) | 2010-08-18 |
Family
ID=35904765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004216982A Expired - Fee Related JP4525224B2 (en) | 2004-07-26 | 2004-07-26 | Document management program, document management method, and document management apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4525224B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5106155B2 (en) * | 2008-01-29 | 2012-12-26 | 株式会社東芝 | Document processing apparatus, method and program |
WO2010035412A1 (en) * | 2008-09-25 | 2010-04-01 | 日本電気株式会社 | Data analysis device, data analysis method and program |
WO2015011774A1 (en) * | 2013-07-22 | 2015-01-29 | 株式会社野村総合研究所 | Search system, search program, and method for entering search criteria |
JP6638480B2 (en) * | 2016-03-09 | 2020-01-29 | 富士通株式会社 | Similar document search program, similar document search device, and similar document search method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334106A (en) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | Relative word display device and medium where program for relative word display is recorded |
JPH1125108A (en) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | Automatic extraction device for relative keyword, document retrieving device and document retrieving system using these devices |
JP2000227917A (en) * | 1999-02-05 | 2000-08-15 | Agency Of Ind Science & Technol | Thesaurus browsing system and method therefor and recording medium recording its processing program |
JP2001101199A (en) * | 1999-09-29 | 2001-04-13 | Fuji Xerox Co Ltd | Document processor |
JP2002123544A (en) * | 2000-10-13 | 2002-04-26 | Tokyo Electric Power Co Inc:The | Retrieval preprocessing apparatus, document retrieving apparatus, and retrieval preprocessing method and document retrieving method |
JP2003271621A (en) * | 2002-03-19 | 2003-09-26 | Fuji Xerox Co Ltd | Classification result display device, classification result display method, and classification result display program |
-
2004
- 2004-07-26 JP JP2004216982A patent/JP4525224B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10334106A (en) * | 1997-05-27 | 1998-12-18 | Fuji Xerox Co Ltd | Relative word display device and medium where program for relative word display is recorded |
JPH1125108A (en) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | Automatic extraction device for relative keyword, document retrieving device and document retrieving system using these devices |
JP2000227917A (en) * | 1999-02-05 | 2000-08-15 | Agency Of Ind Science & Technol | Thesaurus browsing system and method therefor and recording medium recording its processing program |
JP2001101199A (en) * | 1999-09-29 | 2001-04-13 | Fuji Xerox Co Ltd | Document processor |
JP2002123544A (en) * | 2000-10-13 | 2002-04-26 | Tokyo Electric Power Co Inc:The | Retrieval preprocessing apparatus, document retrieving apparatus, and retrieval preprocessing method and document retrieving method |
JP2003271621A (en) * | 2002-03-19 | 2003-09-26 | Fuji Xerox Co Ltd | Classification result display device, classification result display method, and classification result display program |
Also Published As
Publication number | Publication date |
---|---|
JP2006039811A (en) | 2006-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7499913B2 (en) | Method for handling anchor text | |
EP2315135B1 (en) | Document search system | |
US7788261B2 (en) | Interactive web information retrieval using graphical word indicators | |
US20190250778A1 (en) | Generating visualizations of facet values for facets defined over a collection of objects | |
JP2003167914A (en) | Multimedia information retrieving method, program, recording medium and system therefor | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
US8983965B2 (en) | Document rating calculation system, document rating calculation method and program | |
JP2004139304A (en) | Hyper text inspection device, its method, and program | |
US20140317001A1 (en) | Methods for evaluating term support in patent-related documents | |
JP2009093653A (en) | Refining search space responding to user input | |
JP2009169541A (en) | Web page retrieval server and query recommendation method | |
US20110131211A1 (en) | Methods and systems for visualizing topic location in a document redundancy graph | |
JP2004178604A (en) | Information retrieval system and its method | |
US7725487B2 (en) | Content synchronization system and method of similar web pages | |
JP6533876B2 (en) | Product information display system, product information display method, and program | |
JP5324677B2 (en) | Similar document search support device and similar document search support program | |
JP4525224B2 (en) | Document management program, document management method, and document management apparatus | |
JP4569179B2 (en) | Document search device | |
JP2000020538A (en) | Method and device for retrieving information, and storage medium for information retrieving program | |
JPH10111869A (en) | Device and method for information classification | |
JP2005122509A (en) | Program, system and method for analyzing hierarchical structure data | |
JP4426893B2 (en) | Document search method, document search program, and document search apparatus for executing the same | |
JPH11306187A (en) | Method and device for presenting retrieval result of document with category | |
JP7282715B2 (en) | Evaluation device, evaluation method and evaluation program | |
JP2001101226A (en) | Document group sorter and document group sorting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070625 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070625 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071112 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4525224 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140611 Year of fee payment: 4 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |