JP2003281182A - Information retrieval device, information retrieval method, program and recording medium - Google Patents
Information retrieval device, information retrieval method, program and recording mediumInfo
- Publication number
- JP2003281182A JP2003281182A JP2002076923A JP2002076923A JP2003281182A JP 2003281182 A JP2003281182 A JP 2003281182A JP 2002076923 A JP2002076923 A JP 2002076923A JP 2002076923 A JP2002076923 A JP 2002076923A JP 2003281182 A JP2003281182 A JP 2003281182A
- Authority
- JP
- Japan
- Prior art keywords
- information
- related information
- item
- text
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、データベースの情
報を検索する情報検索装置、情報検索方法、プログラム
および記録媒体に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information search device, information search method, program and recording medium for searching information in a database.
【0002】[0002]
【従来の技術】企業などでは、例えばLAN(Local Ar
ea Network)などのコンピュータネットワーク(以下、
単に「ネットワーク」と称する)が構成され、このネッ
トワーク内における各種データの共有により、作業効率
の向上化が図られている。具体的には、ネットワークを
形成するいずれかのコンピュータにグループウェアやコ
ラボレートウェアなどと呼ばれるソフトウェア(以下、
「グループウェア」と称する)が導入されることで、こ
のコンピュータ(以下、「グループウェアサーバ」と称
する)が保持する各種データ(例えば、共有文書や各ユ
ーザのスケジュールなど)に対してネットワークに接続
された各コンピュータ(以下、「クライアント端末」と
称する)からアクセス可能になる。2. Description of the Related Art In companies, for example, LAN (Local Ar
ea Network) and other computer networks (hereinafter,
The network is simply referred to as "network"), and various data are shared in this network to improve work efficiency. Specifically, software called groupware or collaborative ware (hereinafter,
By introducing "groupware", connect to the network for various data (for example, shared documents and schedules of each user) held by this computer (hereinafter referred to as "groupware server"). It becomes accessible from each computer (hereinafter referred to as “client terminal”).
【0003】また、グループウェアには、クライアント
端末からの要求に応じて、蓄積された文書データから該
当する文書データを検索する機能が備えられている。こ
れにより、ユーザは、クライアント端末を用いてグルー
プウェアサーバが管理する大量の文書データから所望の
文書データを見つけることが容易となる。Further, the groupware has a function of searching the stored document data for the corresponding document data in response to a request from the client terminal. As a result, the user can easily find desired document data from the large amount of document data managed by the groupware server using the client terminal.
【0004】[0004]
【発明が解決しようとする課題】しかしながら、グルー
プウェアサーバが文書データを検索する時には、全ての
文書データを対象に検索処理を実行するのが一般的であ
り、文書データの数や各文書データの容量に比例して検
索時間も長くなるといった問題がある。特に、顧客から
の問い合わせに対応するコールセンターでは、グループ
ウェアサーバが顧客からの問い合わせに応じた文書デー
タを素早く検索して取り出す必要があるため、この問題
は、より深刻化する。However, when the groupware server searches for document data, it is common to execute a search process for all document data, and the number of document data and the number of document data There is a problem that the search time also increases in proportion to the capacity. In particular, in a call center that responds to inquiries from customers, this problem is exacerbated because the groupware server needs to quickly search and retrieve document data in response to inquiries from customers.
【0005】本発明は、上述した事情を鑑みてなされた
ものであり、データベースに蓄積されている情報のう
ち、検索条件に該当する情報を特定するに要する時間を
短縮することが可能な情報検索装置、情報検索方法、プ
ログラムおよび記録媒体を提供することを目的とする。The present invention has been made in view of the above-mentioned circumstances, and an information search capable of shortening the time required to specify the information corresponding to the search condition among the information stored in the database. An object is to provide an apparatus, an information search method, a program, and a recording medium.
【0006】[0006]
【課題を解決するための手段】上記目的を達成するため
に、本発明は、少なくともテキスト文を含むテキストデ
ータと、当該テキストデータの識別情報とを対応付ける
とともに、当該テキスト文に関連した複数の関連情報
と、当該複数の関連情報を分類する項目と、当該テキス
ト文に対応するテキストデータの識別情報とを対応付け
るデータベースを検索する情報検索装置において、前記
項目のうち、検索の対象となり得る項目を指定する項目
指定情報を記憶する第1の記憶手段と、前記項目指定情
報によって指定された項目に分類される関連情報を前記
データベースから取得する関連情報取得手段と、前記関
連情報取得手段によって取得された関連情報を、当該関
連情報に対応する前記識別情報と対応付けて記憶する第
2の記憶手段と、前記項目指定情報によって指定された
項目に則した検索条件を取得する検索条件取得手段と、
前記第2の記憶手段に記憶された関連情報の中から、前
記検索条件に該当する関連情報を特定し、当該関連情報
に対応する前記識別情報を特定する検索手段とを備える
情報検索装置を提供する。In order to achieve the above object, the present invention associates at least text data containing a text sentence with identification information of the text data and also provides a plurality of associations related to the text sentence. In an information search device that searches a database that associates information, an item that classifies the plurality of related information items, and identification information of text data that corresponds to the text sentence, an item that can be a search target among the items is specified. First storing means for storing item specifying information to be stored, related information acquiring means for acquiring related information classified into items specified by the item specifying information from the database, and acquired by the related information acquiring means. A second storage unit that stores the related information in association with the identification information corresponding to the related information; A search condition acquisition unit that acquires a search condition conforming to the specified item by item specification information,
Provided is an information search device comprising: a search unit that specifies related information corresponding to the search condition from the related information stored in the second storage unit and specifies the identification information corresponding to the related information. To do.
【0007】また、上記目的を達成するために、本発明
は、少なくともテキスト文を含むテキストデータと、当
該テキストデータの識別情報とを対応付けるとともに、
当該テキスト文に関連した複数の関連情報と、当該複数
の関連情報を分類する項目と、当該テキスト文に対応す
るテキストデータの識別情報とを対応付けるデータベー
スを検索する情報検索方法において、前記項目のうち、
検索の対象となり得る項目を指定する項目指定情報を記
憶装置に記憶する第1の過程と、前記項目指定情報によ
って指定された項目に分類される関連情報を前記データ
ベースから取得する第2の過程と、前記第2の過程にお
いて取得された関連情報を、当該関連情報に対応する前
記識別情報と対応付けて前記記憶装置に記憶する第3の
過程と、前記項目指定情報によって指定された項目に則
した検索条件を取得する第4の過程と、前記記憶装置に
記憶された関連情報の中から、前記検索条件に該当する
関連情報を特定し、当該関連情報に対応する前記識別情
報を特定する第5の過程とを備える情報検索方法を提供
する。In order to achieve the above object, the present invention associates at least text data including a text sentence with identification information of the text data, and
In the information search method for searching a database that associates a plurality of related information related to the text sentence, an item that classifies the plurality of related information, and identification information of the text data corresponding to the text sentence, among the items ,
A first step of storing, in a storage device, item designation information that designates an item that can be a search target; and a second step of acquiring, from the database, related information classified into the item designated by the item designation information. According to the third step of storing the related information acquired in the second step in the storage device in association with the identification information corresponding to the related information, and the item designated by the item designation information. The fourth step of obtaining the searched condition, and the related information corresponding to the searched condition is specified from the related information stored in the storage device, and the identification information corresponding to the related information is specified. An information search method including the process of 5 is provided.
【0008】上述した情報検索装置および情報検索方法
によれば、データベースに記憶されている複数の項目か
ら検索の対象となり得る項目だけが予め抽出され、そし
て、その抽出された項目に対して検索が行われる。従っ
て、本発明によれば、該当する文書データを特定するに
要する時間が、データベースの全ての項目に対して検索
が実行されるときに比べて早くなる。また、利用者は、
項目指定情報が指定する項目を変更するだけで、検索の
対象とする項目を変更することができる。According to the above-described information search device and information search method, only items that can be searched are extracted in advance from a plurality of items stored in the database, and the extracted items are searched. Done. Therefore, according to the present invention, the time required to identify the corresponding document data is shorter than when the search is performed for all the items in the database. Also, the user
The item to be searched can be changed only by changing the item designated by the item designation information.
【0009】ここで、上記情報検索装置において、前記
テキストデータからテキスト文を抽出する本文抽出手段
と、前記抽出されたテキスト文を複数の単語に分割する
形態素解析手段と、前記複数の単語の各々が前記テキス
ト文に出現する回数を計数する出現頻度計数手段とを備
え、前記第2の記憶手段は、前記単語と当該単語の計数
値とを、前記テキスト文に対応するテキストデータの識
別情報と対応付けて記憶する構成が望ましい。この構成
によれば、検索条件として単語が取得された場合に、当
該単語を多く含む順にテキストデータの識別情報を特定
するといったことが行える。Here, in the above information retrieval device, a body extracting means for extracting a text sentence from the text data, a morpheme analyzing means for dividing the extracted text sentence into a plurality of words, and each of the plurality of words. And an appearance frequency counting unit that counts the number of times that appears in the text sentence, and the second storage unit stores the word and the count value of the word as identification information of text data corresponding to the text sentence. It is desirable to store them in association with each other. According to this configuration, when a word is acquired as the search condition, the identification information of the text data can be specified in the order of including the word in large numbers.
【0010】また、上記目的を達成するために、本発明
は、少なくともテキスト文を含むテキストデータと、当
該テキストデータの識別情報とを対応付けるとともに、
当該テキスト文に関連した複数の関連情報と、当該複数
の関連情報を分類する項目と、当該テキスト文に対応す
るテキストデータの識別情報とを対応付けるデータベー
スを検索するコンピュータを、前記項目のうち、検索の
対象となり得る項目を指定する項目指定情報を記憶する
第1の記憶手段、前記項目指定情報によって指定された
項目に分類される関連情報を前記データベースから取得
する関連情報取得手段、前記関連情報取得手段によって
取得された関連情報を、当該関連情報に対応する前記識
別情報と対応付けて記憶する第2の記憶手段、前記項目
指定情報によって指定された項目に則した検索条件を取
得する検索条件取得手段、および、前記第2の記憶手段
に記憶された関連情報の中から、前記検索条件に該当す
る関連情報を特定し、当該関連情報に対応する前記識別
情報を特定する検索手段として機能させるためのプログ
ラムを提供する。このプログラムは、例えば光ディスク
や磁気ディスクなどのコンピュータ読み取り可能な記録
媒体に記録されていても良いことは勿論である。In order to achieve the above object, the present invention associates at least text data including a text sentence with identification information of the text data, and
Among the above items, a computer that searches a database that associates a plurality of related information related to the text sentence, an item that classifies the plurality of related information items, and identification information of the text data corresponding to the text sentence is searched. First storage means for storing item designation information for designating an item that can be a target of, a related information acquisition means for obtaining related information classified into the item designated by the item designation information from the database, and the related information acquisition Second storage means for storing the related information acquired by the means in association with the identification information corresponding to the related information, and search condition acquisition for acquiring a search condition according to the item designated by the item designation information Means and related information stored in the second storage means, and specifies related information corresponding to the search condition. Provides a program for functioning as the search means for identifying the identification information corresponding to the related information. Of course, this program may be recorded in a computer-readable recording medium such as an optical disk or a magnetic disk.
【0011】[0011]
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings.
【0012】図1は、本発明の実施形態に係る情報検索
システムの構成を示す図である。この図において、グル
ープウェアサーバ20は、例えば磁気ディスクなどの記
憶装置に格納されたグループウェアデータベース20a
を備えている。このグループウェアデータベース20a
には、ネットワーク2を介して接続された多数のクライ
アント端末30の間で共有される文書データが蓄積され
ている。ここで、文書データとは、テキスト文が含まれ
るデータのことである。また、グループウェアサーバ2
0は、共有される文書データが蓄積されたデータベース
(すなわち、上述したグループウェアデータベース20
a)の他にも、実際には、例えば利用者毎の電子メール
データが蓄積されたデータベースや、利用者毎のスケジ
ュールデータが蓄積されたデータベースといった多種の
データベースを備えている。FIG. 1 is a diagram showing the configuration of an information search system according to an embodiment of the present invention. In this figure, the groupware server 20 is a groupware database 20a stored in a storage device such as a magnetic disk.
Is equipped with. This groupware database 20a
Document data shared by a large number of client terminals 30 connected via the network 2 is stored in the. Here, the document data is data including a text sentence. In addition, the groupware server 2
0 is a database in which shared document data is accumulated (that is, the groupware database 20 described above).
In addition to a), actually, various databases are provided, such as a database in which electronic mail data for each user is stored and a database in which schedule data for each user is stored.
【0013】さて、図1において、情報検索装置10
は、パーソナルコンピュータなどから構成されており、
ネットワーク2を介してクライアント端末30からの文
書データの検索要求を取得し、この検索要求に該当する
文書データの候補を当該クライアント端末30に送信す
るものである。さらに説明すると、情報検索装置10
は、例えば磁気ディスクなどの記憶装置を備え、この記
憶装置には、検索用データベース10aが格納されてい
る。情報検索装置10は、グループウェアデータベース
20aに蓄積されている各文書データに関連する情報を
検索用データベース10aに蓄積し、クライアント端末
30から検索要求を取得したときに、この検索用データ
ベース10aに蓄積された情報を検索するようになって
いる。Now, referring to FIG. 1, the information retrieval device 10
Consists of a personal computer, etc.,
A document data search request from the client terminal 30 is acquired via the network 2, and a candidate for the document data corresponding to this search request is transmitted to the client terminal 30. To explain further, the information retrieval device 10
Is equipped with a storage device such as a magnetic disk, and the search database 10a is stored in this storage device. The information search device 10 stores information related to each document data stored in the groupware database 20a in the search database 10a, and stores in the search database 10a when a search request is acquired from the client terminal 30. It is designed to search for information that has been posted.
【0014】図2は、本実施形態に係る情報検索装置1
0の構成を示す機能ブロック図である。同図において、
設定ファイル解析部100は、設定ファイル200に示
される指示に従って、文書データに関連する情報のう
ち、検索用データベース10aに蓄積すべき情報(以
下、「検索用情報」という)を特定し、データ収集部1
02に出力する。ここで、設定ファイル200は、例え
ばグループウェアサーバ20の管理者などによって作成
されるデータファイルであり、その構成を図3に示す。
同図に示すように、設定ファイル200には、取得項
目、重み付け単語、格納先アドレスおよび格納元アドレ
スの各々が指定されている。FIG. 2 shows an information retrieval apparatus 1 according to this embodiment.
It is a functional block diagram which shows the structure of 0. In the figure,
The setting file analysis unit 100 specifies information to be accumulated in the search database 10a (hereinafter, referred to as “search information”) among the information related to the document data according to the instruction shown in the setting file 200, and collects the data. Part 1
Output to 02. Here, the setting file 200 is a data file created by, for example, the administrator of the groupware server 20, and the configuration thereof is shown in FIG.
As shown in the figure, each of the acquisition item, the weighted word, the storage destination address and the storage source address is designated in the setting file 200.
【0015】取得項目は、グループウェアサーバ20が
管理するデータ項目のうち、どの項目を取得するかを指
定するものである。詳述すると、グループウェアサーバ
20は、文書データに関連する関連情報をデータ項目ご
とに分けて記録されたグループウェアファイル22を、
文書データごとに備えている。図4は、このグループウ
ェアファイルの一例を示す図である。この図において、
文字列「ITEM_NAME」は、データ項目を示すものであ
り、この文字列「ITEM_NAME」と等号(=)にて結ばれ
た文字列がデータ項目名を示す。例えば、「ITEM_NAME=
Classification」である場合、データ項目名は、「分類
(Classification)」となる。また、データ項目名(す
なわち、文字列「ITEM_NAME」)の次行がデータ項目名
に対応する文書データの関連情報である。具体的には、
例えば、文字列「ITEM_NAME=Classification」の次行に
記載された文字列「TYPE_TEXT=テクニカルノート」は、
データ項目名「分類」対応する文書データの関連情報が
「テクニカルノート」であることを示している。そこ
で、取得項目は、グループウェアファイル22に含まれ
るデータ項目名(文字列「ITEM_NAME」によって示され
るデータ項目名)のうち、取得すべきデータ項目名を指
定する。なお、図示を省略するが、このグループウェア
ファイル22には、当該グループウェアファイル22
が、どの文書データに対応しているかも示されている。The acquisition item is for designating which of the data items managed by the groupware server 20 is to be acquired. More specifically, the groupware server 20 stores the groupware file 22 in which the related information related to the document data is recorded for each data item.
Prepared for each document data. FIG. 4 is a diagram showing an example of this groupware file. In this figure,
The character string “ITEM_NAME” indicates a data item, and the character string connected to the character string “ITEM_NAME” by an equal sign (=) indicates a data item name. For example, "ITEM_NAME =
In the case of “Classification”, the data item name is “Classification”. Further, the next line of the data item name (that is, the character string “ITEM_NAME”) is the related information of the document data corresponding to the data item name. In particular,
For example, the character string "TYPE_TEXT = Technical Note" written in the line following the character string "ITEM_NAME = Classification" is
Data item name “classification” Indicates that the related information of the corresponding document data is “technical note”. Therefore, the acquisition item specifies the data item name to be acquired, out of the data item names (data item name indicated by the character string “ITEM_NAME”) included in the groupware file 22. Although not shown, the groupware file 22 includes the groupware file 22.
It also shows which document data corresponds to.
【0016】また、設定ファイル200における重み付
け単語は、検索語として頻繁に用いられる単語を指定す
るためのものである。格納元アドレスは、検索対象とな
るデータベースが格納されているアドレスを示すもので
ある。詳述すると、グループウェアサーバ20は、上述
したように、多数のデータベースを備えるのが一般的で
あり、このため、どのデータベースを検索対象とするか
が特定される必要がある。そこで、アドレスを指定する
ことにより、検索対象となるデータベースを特定するの
である。また、格納先アドレスは、上述した格納元アド
レスによって特定されるデータベース内の各データから
検索用情報に従って抽出した情報を検索用データベース
10aに格納するときのアドレスを示すものである。こ
のように、検索対象となるデータベースごとに、異なる
格納先アドレスが指定されることで、検索対象となるデ
ータベースごとに抽出した情報を多数検索用データベー
ス10aに格納することができるようになっている。The weighted words in the setting file 200 are for designating words that are frequently used as search words. The storage source address indicates the address where the database to be searched is stored. More specifically, the groupware server 20 generally includes a large number of databases as described above, and therefore, it is necessary to specify which database is to be searched. Therefore, the database to be searched is specified by designating the address. Further, the storage destination address indicates an address at which the information extracted according to the search information from each data in the database specified by the storage source address is stored in the search database 10a. In this way, by specifying different storage destination addresses for each database to be searched, it is possible to store the information extracted for each database to be searched in the multiple search database 10a. .
【0017】さて、図2において、データ収集部102
は、設定ファイル解析部100からの検索用情報によっ
て示される取得項目をグループウェアサーバ20からネ
ットワーク2を介して受け取り、次の処理を行うもので
ある。すなわち、データ収集部102は、文書データお
よびグループウェアファイル22から取得した各項目の
うち、文書データにおける本文部分に対応するものから
本文データファイル202を生成するとともに、本文部
分以外のものから情報データファイル204を生成し、
各々をインデキシング部104に出力する。図5に示す
ように、本文データファイル202には、重み付け単語
によって指定された単語(図示例では、「インターフェ
ースデバイスYYY」など)が本文データの末尾に付加
される(詳細については、後述)。また、図6に示すよ
うに、情報データファイル204に含まれる情報は、例
えば、文書データに付されたタイトル(TITLE)や、グ
ループウェアデータベース20aにおける文書データの
格納元アドレス(URL:Uniform Resource Locator)な
どである。なお、データ収集部102がグループウェア
サーバ20から文書データを取得する機能は、グループ
ウェアの製造元が提供するAPI(Application Progra
m Interface)によって実現されている。Now, referring to FIG. 2, the data collection unit 102
Receives the acquisition item indicated by the search information from the setting file analysis unit 100 from the groupware server 20 via the network 2 and performs the following processing. That is, the data collection unit 102 generates the body data file 202 from the items corresponding to the body part of the document data among the items acquired from the document data and the groupware file 22, and the information data from the items other than the body part. Generate file 204,
Each is output to the indexing unit 104. As shown in FIG. 5, in the body data file 202, a word (in the illustrated example, “interface device YYY” or the like) designated by the weighted word is added to the end of the body data (details will be described later). Further, as shown in FIG. 6, the information included in the information data file 204 includes, for example, a title (TITLE) attached to the document data and a storage source address (URL: Uniform Resource Locator) of the document data in the groupware database 20a. ) And so on. The function of the data collection unit 102 to acquire the document data from the groupware server 20 has an API (Application Program) provided by the groupware manufacturer.
m Interface).
【0018】インデキシング部104は、データ収集部
102から受け取った本文データファイル202に対し
て形態素解析を行った後に、インデキシング(目次化)
を実行し、この実行結果を、インデックスファイル20
6に登録するものであり、コンピュータにおけるCPU
に相当する。インデックスファイル206は、検索用デ
ータベース10aに格納されているものであり、インデ
ックスファイル206には、ページテーブル206a、
キーワードテーブル206cおよび単語テーブル206
bが含まれている(図7参照)。なお、各データテーブ
ルについては、後述する。The indexing unit 104 performs morphological analysis on the text data file 202 received from the data collection unit 102, and then performs indexing (indexing).
Is executed, and the execution result is the index file 20
The CPU in the computer to be registered in 6
Equivalent to. The index file 206 is stored in the search database 10a, and the index file 206 includes a page table 206a,
Keyword table 206c and word table 206
b is included (see FIG. 7). Each data table will be described later.
【0019】ここで、インデキシング部104が実行す
る形態素解析とは、漢字仮名交じりで記載された日本語
の文を単語(形態素)に分解し、各単語の読み仮名や品
詞などを特定することである。形態素解析用辞書106
は、インデキシング部104における形態素解析に用い
られる辞書であり、様々な単語を収録している。さらに
説明すると、インデキシング部104は、解析対象とな
る文の続きの部分と最も長く一致する単語を形態素解析
用辞書106から抽出するといったことを繰り返して文
を単語(形態素)に分解する。なお、単語同士が空白で
区切られる言語(例えば英語)にて本文データファイル
の本文が記載されている場合には、形態素解析が必要な
いことは勿論である。Here, the morphological analysis executed by the indexing unit 104 is to decompose a Japanese sentence written with kanji and kana mixed into words (morphemes) and specify the phonetic kana or part-of-speech of each word. is there. Morphological analysis dictionary 106
Is a dictionary used for morphological analysis in the indexing unit 104, and stores various words. More specifically, the indexing unit 104 decomposes the sentence into words (morphemes) by repeatedly extracting from the morphological analysis dictionary 106 the word that has the longest match with the subsequent portion of the sentence to be analyzed. Of course, if the text of the text data file is written in a language (for example, English) in which words are separated by spaces, morphological analysis is not necessary.
【0020】図8は、上述したページテーブルの一例を
示す図である。このページテーブル206aは、各文書
データの概要を示す情報を管理するためのものである。
このページテーブル206aの1つのレコードには、文
書識別情報と、サーバ識別情報と、格納元アドレスと、
最終更新日時情報と、題名情報と、本文情報と、分類情
報と、総単語数情報と、ソフト別文書識別情報と、参照
レベル情報との各々が含まれている。FIG. 8 is a diagram showing an example of the above-mentioned page table. The page table 206a is for managing information indicating the outline of each document data.
In one record of this page table 206a, document identification information, server identification information, storage source address,
The information includes last update date / time information, title information, text information, classification information, total word number information, software-specific document identification information, and reference level information.
【0021】ここで、文書識別情報は、グループウェア
データベース20aから取得した文書データごとに、情
報検索装置10が固有に割り当てる識別情報である。サ
ーバ識別情報は、その文書データの取得元であるグルー
プウェアサーバ20を特定する情報であり、本実施形態
にあっては、図8に示すように、情報検索装置10がサ
ーバごとに固有に割り当てた番号によって示される。格
納元アドレスは、グループウェアデータベース20aに
おける文書データの格納アドレスを示すものであり、図
8に示すように、URLによって指定されている。最終
更新日時情報は、情報検索装置10が文書データの情報
を更新した最終日時を示す情報である。題名情報は、そ
の文書データの題名(TITLE)を示す情報であり、例え
ば256バイトといった所定バイト数の文字列によって
示される。本文情報は、その文書データの本文の先頭か
ら所定文字数(例えば256バイト)分の文を示すもの
である。Here, the document identification information is identification information uniquely assigned by the information search device 10 for each document data acquired from the groupware database 20a. The server identification information is information that identifies the groupware server 20 that is the acquisition source of the document data. In the present embodiment, as shown in FIG. 8, the information search device 10 uniquely allocates each server. Indicated by the number. The storage source address indicates the storage address of the document data in the groupware database 20a, and is specified by the URL as shown in FIG. The last update date / time information is information indicating the last date / time when the information search device 10 updated the information of the document data. The title information is information indicating the title (TITLE) of the document data, and is indicated by a character string having a predetermined number of bytes such as 256 bytes. The body information indicates a sentence of a predetermined number of characters (for example, 256 bytes) from the beginning of the body of the document data.
【0022】また、分類情報は、文書データの文書の分
類を示す情報である。より具体的には、例えば、文書デ
ータがコールセンター内のネットワークで共有されるも
のである場合、分類情報には、その文書データが製品の
テクニカルサポート用文書なのか、製品のマニュアルな
のかといったことを示す情報が記録される。総単語情報
は、文書データの本文における総単語数を示すものであ
る。ソフト別文書識別情報は、グループウェアサーバ2
0が文書データに割り当てた固有の識別情報を示すもの
である。参照レベル情報は、その文書データの閲覧がネ
ットワークに接続された各クライアント端末に限定され
ているか、または、ネットワーク外の端末にも許可され
ているかといった情報を示すものである。ここで、サー
バ識別情報と、ソフト別文書識別情報とがページテーブ
ル206aに含まれているのは、多数のサーバに同一の
グループウェアが導入されている場合に、各々のサーバ
が同一の識別情報を文書データに割り当てたときでも、
どのサーバのどの文書データなのかを一意に特定できる
ようにするためである。The classification information is information indicating the classification of the document of the document data. More specifically, for example, when the document data is shared by the network in the call center, the classification information indicates whether the document data is a product technical support document or a product manual. Information is recorded. The total word information indicates the total number of words in the text of the document data. The document identification information for each software is the groupware server 2
0 indicates unique identification information assigned to the document data. The reference level information indicates whether or not the browsing of the document data is limited to each client terminal connected to the network or is permitted to the terminals outside the network. Here, the server identification information and the software-specific document identification information are included in the page table 206a, because when the same groupware is installed in many servers, each server has the same identification information. Even when assigning to document data,
This is because it is possible to uniquely identify which document data of which server.
【0023】次いで、図9は、上述した単語テーブルの
一例を示す図である。この単語テーブル206bは、各
文書データの本文に含まれる単語を管理するためのもの
である。より具体的には、図9に示すように、単語テー
ブル206bの1つのレコードには、単語と、情報検索
装置10が単語ごとに固有に割り当てられる単語識別情
報と、グループウェアデータベース20aに蓄積されて
いる全文書データのうち、この単語を本文に含む文書デ
ータの数を示す単語使用文書数とが含まれている。ここ
で、単語使用文書数は、インデキシング部104が文書
データの本文データファイル202に対して形態素解析
を行った結果に従って算出されるものである。具体的に
は、インデキシング部104は、1つの本文データファ
イル202に形態素解析を行って本文を単語(形態素)
に分解した後に、各々の単語ごとに固有の識別情報を割
り当てて、単語テーブル206bに登録する。そして、
インデキシング部104は、登録した単語識別情報に対
応する単語使用文書数の値を「1」だけインクリメント
する。係る処理がグループウェアデータベース20aに
蓄積されている全ての文書データについて行われた結
果、単語ごとの単語使用文書数が得られる。Next, FIG. 9 is a diagram showing an example of the above-mentioned word table. The word table 206b is for managing the words included in the body of each document data. More specifically, as shown in FIG. 9, in one record of the word table 206b, words, word identification information uniquely assigned to each word by the information search device 10, and accumulated in the groupware database 20a. Among all the document data, the word use document number indicating the number of document data including this word in the body is included. Here, the word usage document number is calculated according to the result of the morphological analysis of the text data file 202 of the document data by the indexing unit 104. Specifically, the indexing unit 104 performs a morphological analysis on one body data file 202 to convert the body into words (morphemes).
Then, each word is assigned unique identification information and registered in the word table 206b. And
The indexing unit 104 increments the value of the word usage document number corresponding to the registered word identification information by "1". As a result of such processing being performed on all the document data stored in the groupware database 20a, the number of word-used documents for each word can be obtained.
【0024】また、図10は、上述したキーワードテー
ブルの一例を示す図である。このキーワードテーブル2
06cは、各文書データの本文に含まれる単語ごとに、
1つの単語が何回出現しているかなどを管理するための
ものである。具体的には、図10に示すように、キーワ
ードテーブル206cの1つのレコードには、上述した
単語テーブル206bに含まれる単語識別情報と、上述
したページテーブル206aに含まれる文書識別情報
と、出現回数と、重要度とが含まれている。出現回数
は、単語が、文書識別情報によって特定される文書デー
タの本文内に何回出現するかを示すものであり、インデ
キシング部104が行う形態素解析により得られる。さ
らに説明すると、インデキシング部104は、文書デー
タの本文データファイル202の本文を単語(形態素)
に分解した後に、その本文内に、単語識別情報によって
示される単語が幾つ含まれるかを計数することにより、
出現頻度を算出する。重要度は、全文書データの本文に
おける単語の頻出度を示すものであり、次の式を用いて
インデキシング部104により算出される。
(重要度)=S×log(N/n)
ここで、Sは、出現回数、Nは、グループウェアデータ
ベース20aに蓄積されている文書データの数、nは、
上述した単語使用文書数である。この式によって示され
るように、本文に同じ単語が含まれる文書データが多く
なる程、その単語の重要度が小さくなり、また、1つの
文書データの本文に同じ単語が頻繁に出現する程、その
単語の重要度が高くなる。ここで、上述したように、文
書データの本文データファイル202の末尾には、デー
タ収集部102により重み付け単語が付与されているた
め、この重み付け単語の重要度は、相対的に高くなるの
である。特に、文書データの題目(TITLE)には、その
文書データの本文の内容を顕著に反映した単語が含まれ
ることが多いため、この題目を本文データファイル20
2に重み付けするようにしても良い。FIG. 10 is a diagram showing an example of the above-mentioned keyword table. This keyword table 2
06c is for each word included in the body of each document data,
This is for managing how many times a word appears. Specifically, as shown in FIG. 10, in one record of the keyword table 206c, the word identification information included in the word table 206b described above, the document identification information included in the page table 206a described above, and the number of appearances. And importance. The number of appearances indicates how many times the word appears in the text of the document data specified by the document identification information, and is obtained by the morphological analysis performed by the indexing unit 104. To further explain, the indexing unit 104 defines the body of the body data file 202 of the document data as a word (morpheme).
After being decomposed into, by counting how many words indicated by the word identification information are included in the body,
Calculate the appearance frequency. The degree of importance indicates the frequency of words in the body of all document data, and is calculated by the indexing unit 104 using the following formula. (Importance) = S × log (N / n) Here, S is the number of appearances, N is the number of document data accumulated in the groupware database 20a, and n is
This is the number of word-using documents described above. As shown in this equation, the more document data that includes the same word in the body, the less important the word becomes, and the more frequently the same word appears in the body of one document data, the more Words become more important. Here, as described above, since the weighting word is added to the end of the text data file 202 of the document data by the data collecting unit 102, the importance of the weighting word becomes relatively high. In particular, since the subject (TITLE) of the document data often includes words that remarkably reflect the content of the body of the document data, this subject is referred to as the body data file 20.
You may make it weight to 2.
【0025】図2において、検索要求取得応答部108
は、ネットワーク2を介してクライアント端末30から
検索要求を受け取り、検索部110に出力する。この検
索要求取得応答部108は、コンピュータにおけるネッ
トワークインターフェースデバイスに相当する。また、
検索部110は、検索要求取得応答部108からの検索
要求に応じて検索用データベース10aに格納されてい
るインデックスファイル206を検索し、検索結果を、
検索要求取得応答部108に出力する。検索要求取得応
答部108は、検索部110から検索結果を受け取る
と、この検索結果をネットワーク2を介してクライアン
ト端末30に送信する。In FIG. 2, the search request acquisition response unit 108
Receives a search request from the client terminal 30 via the network 2 and outputs the search request to the search unit 110. The search request acquisition response unit 108 corresponds to a network interface device in a computer. Also,
The search unit 110 searches the index file 206 stored in the search database 10a in response to the search request from the search request acquisition response unit 108, and returns the search result as
It outputs to the search request acquisition response unit 108. Upon receiving the search result from the search unit 110, the search request acquisition response unit 108 transmits the search result to the client terminal 30 via the network 2.
【0026】次いで、本実施形態に係る情報検索装置1
0の動作について説明する。ここで、以下に説明する各
処理手順を規定するプログラムは、情報検索装置10が
備えるROMや磁気ディスクなどの記録媒体に格納され
ている。なお、このプログラムは、例えば、光ディスク
や光磁気ディスク、磁気ディスクなどの可搬型の記録媒
体に記録されたものが情報検索装置10にインストール
されたものでも良く、また、ネットワーク2を介して当
該情報検索装置10にインストールされたものであって
も良い。Next, the information search device 1 according to the present embodiment.
The operation of 0 will be described. Here, a program defining each processing procedure described below is stored in a recording medium such as a ROM or a magnetic disk included in the information search device 10. Note that this program may be recorded in a portable recording medium such as an optical disc, a magneto-optical disc, or a magnetic disc and installed in the information retrieval device 10, or the information may be transmitted via the network 2. It may be installed in the search device 10.
【0027】さて、情報検索装置10は、グループウェ
アデータベース20aに蓄積されている各文書データの
情報を示すインデックスファイル206に登録するため
の登録処理を実行する。具体的には、図11に示すよう
に、先ず、設定ファイル解析部100が設定ファイル2
00を読み出して、設定ファイル200によって指示さ
れる取得項目、重み付け単語、格納元アドレスおよび格
納先アドレスを特定し、これらの特定した情報を検索用
情報としてデータ収集部102に出力する(ステップS
a1)。The information retrieval device 10 executes a registration process for registering in the index file 206 showing the information of each document data stored in the groupware database 20a. Specifically, as shown in FIG. 11, first, the setting file analysis unit 100 sets the setting file 2
00 is specified, the acquisition item, the weighted word, the storage source address and the storage destination address instructed by the setting file 200 are specified, and these specified information are output to the data collection unit 102 as search information (step S).
a1).
【0028】次に、データ収集部102は、設定ファイ
ル解析部100からの検索用情報によって示される取得
項目をグループウェアサーバ20からネットワーク2を
介して受け取り、本文データファイル202(図5参
照)および情報データファイル204(図6参照)を生
成し、各々をインデキシング部104に出力する(ステ
ップSa2)。Next, the data collection unit 102 receives the acquisition item indicated by the search information from the setting file analysis unit 100 from the groupware server 20 via the network 2 and sends the text data file 202 (see FIG. 5) and The information data file 204 (see FIG. 6) is generated, and each is output to the indexing unit 104 (step Sa2).
【0029】そして、インデキシング部104は、デー
タ収集部102から受け取った本文データファイル20
2に対して形態素解析を行った後に、インデキシングを
実行し、この実行結果を、3つのデータテーブルを含む
インデックスファイル206に登録する。(ステップS
a3)。これにより、1つの文書データに関する情報が
インデックスファイル206に登録されることとなる。
次いで、データ収集部102は、グループウェアデータ
ベース20a内に処理されてない文書データがあるかを
判別し(ステップSa4)、この判別結果がYESであ
れば、残りの文書データの情報をインデックスファイル
206に登録すべく、処理手順をステップSa2に戻
す。一方、ステップSa4における判別結果がNOであ
れば、データ収集部102は、処理を終了する。これに
より、グループウェアデータベース20aに蓄積されて
いる全ての文書データの情報がインデックスファイル2
06に登録されることとなる。The indexing unit 104 then receives the text data file 20 received from the data collection unit 102.
After performing morphological analysis on No. 2, indexing is executed, and the execution result is registered in the index file 206 including three data tables. (Step S
a3). As a result, the information about one document data is registered in the index file 206.
Next, the data collection unit 102 determines whether or not there is unprocessed document data in the groupware database 20a (step Sa4). If the determination result is YES, the information of the remaining document data is stored in the index file 206. The processing procedure is returned to step Sa2 so as to be registered in. On the other hand, if the determination result in step Sa4 is NO, the data collection unit 102 ends the process. As a result, the information of all the document data accumulated in the groupware database 20a is stored in the index file 2
It will be registered in 06.
【0030】ところで、グループウェアデータベース2
0aに蓄積されている文書データに対して、追加または
削除が行われたり、また、1つの文書データに対して編
集が行われたりといった編集処理が頻繁に行われる。そ
こで、情報検索装置10は、インデックスファイル20
6に登録されている情報とグループウェアデータベース
20a内の各文書データの整合性が崩れないように、次
のインデックスファイル修正処理を一定時間ごとに行っ
ている。By the way, the groupware database 2
The editing process is frequently performed such that the document data accumulated in 0a is added or deleted, or one document data is edited. Therefore, the information search device 10 uses the index file 20.
The following index file correction process is performed at regular time intervals so that the consistency between the information registered in 6 and each document data in the groupware database 20a is not broken.
【0031】すなわち、図12に示すように、先ず、デ
ータ収集部102は、設定ファイル解析部100からの
検索用情報によって示される取得項目をグループウェア
サーバ20からネットワーク2を介して受け取り、本文
データファイル202および情報データファイル204
を生成し、各々をインデキシング部104に出力する
(ステップSb1)。インデキシング部104は、本文
データファイル202、情報データファイル204およ
びインデックスファイル206に登録されている情報か
ら、文書データが、追加されたものであるか、修正
されたものであるか、編集が加えられていないもの
か、を判別する(ステップSb2)。That is, as shown in FIG. 12, first, the data collection unit 102 receives the acquisition item indicated by the search information from the setting file analysis unit 100 from the groupware server 20 via the network 2 and the body data. File 202 and information data file 204
Are generated and output to the indexing unit 104 (step Sb1). The indexing unit 104 uses the information registered in the text data file 202, the information data file 204, and the index file 206 to determine whether the document data is added, modified, or edited. It is determined whether or not it is not present (step Sb2).
【0032】より具体的には、インデキシング部104
は、情報データファイル204に含まれているサーバ識
別情報およびソフト別文書識別情報に該当するものがイ
ンデックスファイル206のページテーブル206aに
登録されていなければ、この文書データが追加されたも
のであると判別する。一方、情報データファイル204
に含まれているサーバ識別情報およびソフト別文書識別
情報に該当するものが、インデックスファイル206の
ページテーブル206aに既に登録されているものの、
最終更新日時情報が情報データファイル204とインデ
ックスファイル206との間で異なる場合には、インデ
キシング部104は、この文書データが修正されたと判
別する。さらにまた、サーバ識別情報、ソフト別文書識
別情報および最終更新日時情報の各々がいずれも情報デ
ータファイル204とインデックスファイル206との
間で同じであれば、インデキシング部104は、この文
書データに対して何ら編集処理が成されていないと判別
する。More specifically, the indexing unit 104
Means that if the server identification information and the software-specific document identification information included in the information data file 204 are not registered in the page table 206a of the index file 206, this document data is added. Determine. On the other hand, the information data file 204
Although the information corresponding to the server identification information and the software-specific document identification information included in is already registered in the page table 206a of the index file 206,
If the last update date / time information differs between the information data file 204 and the index file 206, the indexing unit 104 determines that this document data has been modified. Furthermore, if each of the server identification information, the software-specific document identification information, and the last update date / time information is the same between the information data file 204 and the index file 206, the indexing unit 104 applies the document data to this document data. It is determined that no editing process has been performed.
【0033】さて、ステップSb2における判別結果
が、追加されたものである、と判別された場合には、
インデキシング部104は、上述した登録処理における
ステップSa3と同様の処理を実行し、この文書データ
の情報をインデックスファイル206に登録する(ステ
ップSb3)。次いで、データ収集部102は、グルー
プウェアデータベース20a内に処理されていない文書
データがあるかを判別し(ステップSb4)、この判別
結果がYESであれば、残りの文書データを処理すべ
く、処理手順をステップSb1に戻す。これにより、グ
ループウェアデータベース20aに追加された文書デー
タの情報がインデックスファイル206に新たに登録さ
れることとなる。Now, when it is determined that the determination result in step Sb2 is the added one,
The indexing unit 104 executes the same process as step Sa3 in the above-mentioned registration process, and registers the information of this document data in the index file 206 (step Sb3). Next, the data collection unit 102 determines whether there is unprocessed document data in the groupware database 20a (step Sb4). If the determination result is YES, the process is performed to process the remaining document data. The procedure is returned to step Sb1. As a result, the information on the document data added to the groupware database 20a is newly registered in the index file 206.
【0034】一方、ステップSb2の判別において、
修正されたものである、と判別された場合には、インデ
キシング部104は、この文書データに対応するインデ
ックスファイル206の情報を一旦削除した後に、この
文書データに対応する情報を新たに生成し、インデック
スファイル206に登録する。より具体的には、インデ
キシング部104は、先ず、この文書データに対応する
文書識別情報(図8参照)を特定し(ステップSb
5)、インデックスファイル206に含まれるページテ
ーブル206a、単語テーブル206b、キーワードテ
ーブル206cの各々のテーブルから、特定した文書識
別情報に関する情報を一括して削除する(ステップSb
6)。次いで、インデキシング部104は、この文書デ
ータに対応する情報を上述したインデキシング処理によ
り生成し、インデックスファイル206に登録する(ス
テップSb7)。次いで、データ収集部102は、グル
ープウェアデータベース20a内に処理されていない文
書データがあるかを判別し(ステップSb4)、この判
別結果がYESであれば、残りの文書データを処理すべ
く、処理手順をステップSb1に戻す。これにより、文
書データに対して行われた修正がインデックスファイル
206に反映されることとなる。また、ステップSb2
における判別結果が、編集が加えられていないもので
あると判別された場合にも、インデキシング部104
は、処理ステップをステップSb4に進める。On the other hand, in the determination of step Sb2,
If it is determined that the document data has been corrected, the indexing unit 104 once deletes the information of the index file 206 corresponding to this document data, and then newly generates the information corresponding to this document data. Register in the index file 206. More specifically, the indexing unit 104 first identifies the document identification information (see FIG. 8) corresponding to this document data (step Sb).
5) Collectively delete the information about the specified document identification information from each of the page table 206a, word table 206b, and keyword table 206c included in the index file 206 (step Sb).
6). Next, the indexing unit 104 generates information corresponding to this document data by the indexing process described above and registers it in the index file 206 (step Sb7). Next, the data collection unit 102 determines whether there is unprocessed document data in the groupware database 20a (step Sb4), and if the determination result is YES, the process is performed to process the remaining document data. The procedure is returned to step Sb1. As a result, the correction made to the document data will be reflected in the index file 206. In addition, step Sb2
Even when it is determined that the edited result is that no editing has been performed, the indexing unit 104
Advances the processing step to step Sb4.
【0035】次いで、ステップSb4における判別結果
がNOであれば、グループウェアデータベース20a内
の全ての文書データに対して処理が実行されたこととな
る。従って、上述した一連の処理の間、インデックスフ
ァイル206(ページテーブル206a)において、一
度も参照されなかった文書識別情報に対応する文書デー
タは、グループウェアデータベース20a内に存在しな
いこととなる。従って、インデキシング部104は、イ
ンデックスファイル206のページテーブル206aか
ら、参照されなかった文書識別情報を全て抽出し(ステ
ップSb8)、抽出した文書識別情報に対応する各情報
を、インデックスファイル206に含まれる全てのテー
ブルから削除して(ステップSb9)、処理を終了す
る。これにより、グループウェアデータベース20aか
ら削除された文書データに対応する情報がインデックス
ファイル206から削除されることとなる。また、文書
データが削除された場合、その文書識別情報に対応する
情報をインデックスファイル206から削除するだけで
よいため、インデックスファイル206の修正に要する
時間が短縮される。Next, if the decision result in the step Sb4 is NO, it means that the processing is executed for all the document data in the groupware database 20a. Therefore, during the series of processes described above, the document data corresponding to the document identification information that has never been referenced in the index file 206 (page table 206a) does not exist in the groupware database 20a. Therefore, the indexing unit 104 extracts all unreferenced document identification information from the page table 206a of the index file 206 (step Sb8), and the index file 206 includes each piece of information corresponding to the extracted document identification information. All the tables are deleted (step Sb9), and the process ends. As a result, the information corresponding to the document data deleted from the groupware database 20a is deleted from the index file 206. Further, when the document data is deleted, it is only necessary to delete the information corresponding to the document identification information from the index file 206, so that the time required to modify the index file 206 is shortened.
【0036】このように、インデックスファイル206
には、グループウェアデータベース20aに蓄積されて
いる各文書データの情報が登録され、文書データに対し
て、追加や削除、修正といった編集処理が行われたとし
ても、上述したインデックスファイル修正処理が一定時
間ごとに繰り返し行われることで、その編集処理に応じ
て変更された情報がインデックスファイル206に即座
に反映される。In this way, the index file 206
The information of each document data accumulated in the groupware database 20a is registered in the file, and even if the editing process such as addition, deletion, or correction is performed on the document data, the above-mentioned index file correction process is fixed. The information changed according to the editing process is immediately reflected in the index file 206 by being repeatedly performed every time.
【0037】さて、情報検索装置10の検索要求取得応
答部108は、クライアント端末30からネットワーク
2を介して検索要求を受け取ると、この検索要求を検索
部110に出力する。検索部110は、受け取った検索
要求に従ってインデックスファイル206を検索し、該
当する文書データの情報を抽出する。より具体的には、
検索要求には、検索語として、検索用の単語、または、
設定ファイル200によって指定されたデータ項目が含
まれている。例えば、検索要求に単語が検索語として含
まれている場合、検索部110は、キーワードテーブル
206cを参照し、その単語(詳細には、単語識別情
報)の重要度が最も大きい順に文書識別情報を抽出す
る。そして、検索部110は、重要度の上位から所定の
数(例えば20など)だけの文書識別情報に対応する題
名情報、本文情報および格納元アドレス(URL)など
をページテーブル206aから抽出し、検索要求取得応
答部108を介してクライアント端末30に送信する。
これにより、クライアント端末30に検索語に対応した
文書データの候補が送信されることとなる。また、検索
語として、例えば最終編集日時が検索要求に含まれてい
た場合には、検索部110は、ページテーブル206a
の各レコードを検索し、該当する文書識別情報に対応す
る題名情報、本文情報および格納元アドレス(URL)
を検索要求取得応答部108を介してクライアント端末
30に送信する。なお、検索要求には、検索語として、
単語およびデータ項目の各々が含まれていても良いこと
は勿論である。When the search request acquisition response unit 108 of the information search apparatus 10 receives the search request from the client terminal 30 via the network 2, the search request acquisition response unit 108 outputs the search request to the search unit 110. The search unit 110 searches the index file 206 according to the received search request and extracts the information of the corresponding document data. More specifically,
In the search request, as a search word, a search word, or
The data items designated by the setting file 200 are included. For example, when a word is included in the search request as a search word, the search unit 110 refers to the keyword table 206c, and obtains the document identification information in the descending order of importance of the word (specifically, the word identification information). Extract. Then, the search unit 110 extracts, from the page table 206a, the title information, the body text information, the storage source address (URL), etc. corresponding to a predetermined number (for example, 20) of document identification information from the highest importance level. It is transmitted to the client terminal 30 via the request acquisition response unit 108.
As a result, the candidate of the document data corresponding to the search word is transmitted to the client terminal 30. Further, when the search request includes, for example, the last edit date and time as the search word, the search unit 110 causes the page table 206a.
Search each record of, and title information, body information and storage source address (URL) corresponding to the corresponding document identification information
Is transmitted to the client terminal 30 via the search request acquisition response unit 108. In the search request, as a search term,
Of course, each word and each data item may be included.
【0038】このように、本実施形態によれば、グルー
プウェアデータベース20aに蓄積されている文書デー
タごとに、検索条件となり得る情報だけがインデックス
ファイル206に予め登録されている。情報検索装置1
0は、検索要求を受けた場合には、このインデックスフ
ァイル206を検索すれば良く、インデックスファイル
206のデータ量は、グループウェアデータベース20
aに蓄積されている文書データのデータ量よりも小さい
ため、グループウェアデータベース20aの各文書デー
タを対象として検索するよりも、速く検索が行える。さ
らに、利用者などが設定ファイル200によって指定す
る取得項目を変更すれば、インデックスファイル206
に登録されるデータ項目を変更することができるため、
検索の用途に合わせてインデックスファイル206を構
成しておくことができる。また、本実施形態にて説明し
た情報検索装置10は、複数のグループウェア間で汎用
的に用いられ得るものである。さらに詳述すると、グル
ープウェア毎に設定ファイル200に記述する取得項目
を変更するだけで、グループウェア毎にインデックスフ
ァイル206が構築されることになる。また、このよう
な構成により、グループウェア毎にインデックスファイ
ル206を構築すべく設定ファイル200を変更したと
しても、変更された設定ファイル200に対応させて情
報検索装置10を動作させるべく、本実施形態に係る情
報検索のためのプログラムを再度コンパイルする必要が
ない。As described above, according to this embodiment, only the information that can be the search condition is registered in advance in the index file 206 for each document data stored in the groupware database 20a. Information retrieval device 1
0, when a search request is received, the index file 206 may be searched, and the data amount of the index file 206 is the groupware database 20.
Since the data amount is smaller than the amount of document data stored in a, the search can be performed faster than searching for each document data in the groupware database 20a. Further, if the user or the like changes the acquisition item designated by the setting file 200, the index file 206
Since the data items registered in can be changed,
The index file 206 can be configured according to the purpose of search. Further, the information search device 10 described in the present embodiment can be generally used among a plurality of groupware. More specifically, the index file 206 is constructed for each groupware simply by changing the acquisition item described in the setting file 200 for each groupware. Further, with this configuration, even if the setting file 200 is changed to construct the index file 206 for each groupware, the present embodiment is configured to operate the information search device 10 in association with the changed setting file 200. It is not necessary to recompile the program for information retrieval according to.
【0039】<変形例>上述した実施形態は、あくまで
も例示であって、本発明の一態様を示すものであり、本
発明の範囲内で任意に変形可能である。そこで、以下
に、各種の変形例について説明する。<Modification> The above-described embodiment is merely an example and shows one aspect of the present invention, and can be arbitrarily modified within the scope of the present invention. Therefore, various modifications will be described below.
【0040】例えば、上述した実施形態では、ネットワ
ーク2にグループウェアサーバ20が1つだけ接続され
る構成について例示したが、これに限らず、グループウ
ェアサーバ20が複数接続される構成であっても良い。
さらに、夫々のグループウェアサーバ20には、互いに
異なるグループウェアが導入されていても良い。さらに
詳述すると、互いに異なる複数のグループウェアサーバ
の各々のデータベースを統括的に検索することは、グル
ープウェア毎にデータの管理形式(例えばデータ項目の
数や名前など)が異なるため、一般的に困難である。こ
れに対して、本変形例は、検索対象となり得るデータ項
目の情報だけをインデックスファイル206のページテ
ーブル206aに登録する構成となっている。従って、
情報検索装置10がページテーブル206aを検索する
ことは、複数のグループウェアサーバの各々のデータベ
ースを検索することと同等なことであり、これにより、
複数のグループウェアサーバの各々のデータベースの検
索が実現される。For example, in the above-described embodiment, the configuration in which only one groupware server 20 is connected to the network 2 has been exemplified, but the configuration is not limited to this, and a configuration in which a plurality of groupware servers 20 are connected is also possible. good.
Furthermore, different groupware may be installed in each groupware server 20. More specifically, comprehensively searching each database of a plurality of different groupware servers generally requires different data management formats (for example, the number of data items and names) for each groupware. Have difficulty. On the other hand, in this modification, only the information of the data items that can be searched is registered in the page table 206a of the index file 206. Therefore,
Searching the page table 206a by the information search device 10 is equivalent to searching each database of a plurality of groupware servers.
A search of each database of a plurality of groupware servers is realized.
【0041】また、例えば、インデキシング部104
は、本文データファイル202に対して形態素解析を行
う際に、例えば「PC」、「パーソナルコンピュー
タ」、「パソコン」といった、互いに同一のものを指す
単語を一つの単語として扱っても良い。これにより、例
えば、検索語として「パソコン」が検索要求に含まれて
いた場合でも、「PC」や「パーソナルコンピュータ」
といった単語を含む文書データも該当する文書データと
して抽出され、検索の精度が向上する。Further, for example, the indexing unit 104
When performing the morphological analysis on the body data file 202, the words that refer to the same thing such as “PC”, “personal computer”, and “personal computer” may be treated as one word. As a result, for example, even if "PC" is included in the search request as a search term, "PC" or "personal computer"
Document data including a word such as is also extracted as the corresponding document data, and the accuracy of search is improved.
【0042】[0042]
【発明の効果】本発明によれば、データベースに蓄積さ
れている情報のうち、検索条件に該当する情報を特定す
るに要する時間を短縮することが可能な情報検索装置、
情報検索方法、プログラムおよび記録媒体が提供され
る。According to the present invention, an information search device capable of shortening the time required to specify the information corresponding to the search condition among the information stored in the database,
An information search method, a program, and a recording medium are provided.
【図1】 本発明の実施形態に係る情報検索システムの
構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of an information search system according to an embodiment of the present invention.
【図2】 情報検索装置の機能的構成を示すブロック図
である。FIG. 2 is a block diagram showing a functional configuration of an information search device.
【図3】 同設定ファイルの一例を示す図である。FIG. 3 is a diagram showing an example of the same setting file.
【図4】 同グループウェアファイルの一例を示す図で
ある。FIG. 4 is a diagram showing an example of the same groupware file.
【図5】 同本文データファイルの一例を示す図であ
る。FIG. 5 is a diagram showing an example of the text data file.
【図6】 同情報データファイルの一例を示す図であ
る。FIG. 6 is a diagram showing an example of the same information data file.
【図7】 同インデックスファイルのデータ構成を示す
概念図である。FIG. 7 is a conceptual diagram showing a data structure of the index file.
【図8】 同ページテーブルの一例を示す図である。FIG. 8 is a diagram showing an example of the page table.
【図9】 同単語テーブルの一例を示す図である。FIG. 9 is a diagram showing an example of the word table.
【図10】 同キーワードテーブルの一例を示す図であ
る。FIG. 10 is a diagram showing an example of the keyword table.
【図11】 情報検索装置によって実行される登録処理
の手順を示すフローチャートである。FIG. 11 is a flowchart showing a procedure of registration processing executed by the information search device.
【図12】 情報検索装置によって実行されるインデッ
クスファイル修正処理の手順を示すフローチャートであ
る。FIG. 12 is a flowchart showing a procedure of an index file correction process executed by the information search device.
10・・・情報検索装置、10a・・・検索用データベース、
20・・・・グループウェアサーバ、20a・・・グループウ
ェアデータベース、30・・・クライアント端末、100・
・・設定ファイル解析部、102・・・データ収集部、10
4・・・インデキシング部、106・・・形態素解析用辞書、
108・・・検索要求取得応答部、110・・・検索部、20
0・・・設定ファイル、206・・・インデックスファイル。10 ... Information search device, 10a ... Search database,
20 ... Groupware server, 20a ... Groupware database, 30 ... Client terminal, 100.
..Setting file analysis unit, 102 ... data collection unit, 10
4 ... Indexing unit, 106 ... Morphological analysis dictionary,
108 ... Search request acquisition response unit, 110 ... Search unit, 20
0 ... setting file, 206 ... index file.
Claims (5)
ータと、当該テキストデータの識別情報とを対応付ける
とともに、当該テキスト文に関連した複数の関連情報
と、当該複数の関連情報を分類する項目と、当該テキス
ト文に対応するテキストデータの識別情報とを対応付け
るデータベースを検索する情報検索装置において、 前記項目のうち、検索の対象となり得る項目を指定する
項目指定情報を記憶する第1の記憶手段と、 前記項目指定情報によって指定された項目に分類される
関連情報を前記データベースから取得する関連情報取得
手段と、 前記関連情報取得手段によって取得された関連情報を、
当該関連情報に対応する前記識別情報と対応付けて記憶
する第2の記憶手段と、 前記項目指定情報によって指定された項目に則した検索
条件を取得する検索条件取得手段と、 前記第2の記憶手段に記憶された関連情報の中から、前
記検索条件に該当する関連情報を特定し、当該関連情報
に対応する前記識別情報を特定する検索手段とを具備す
ることを特徴とする情報検索装置。1. The text data including at least a text sentence and the identification information of the text data are associated with each other, a plurality of related information related to the text sentence, an item for classifying the plurality of related information, and the text. In an information search device for searching a database that associates identification information of text data corresponding to a sentence, a first storage unit that stores item designation information that designates an item that can be a search target among the items; Related information acquired by the related information acquisition unit for acquiring related information classified from the database specified by the specified information, the related information acquired by the related information acquisition unit,
A second storage unit for storing the identification information corresponding to the related information in association with the identification information; a search condition obtaining unit for obtaining a search condition according to the item designated by the item designation information; An information retrieving apparatus, comprising: retrieving means that identifies the relevant information corresponding to the search condition from the relevant information stored in the means, and identifies the identification information corresponding to the relevant information.
出する本文抽出手段と、 前記抽出されたテキスト文を複数の単語に分割する形態
素解析手段と、 前記複数の単語の各々が前記テキスト文に出現する回数
を計数する出現頻度計数手段とを備え、 前記第2の記憶手段は、前記単語と当該単語の計数値と
を、前記テキスト文に対応するテキストデータの識別情
報と対応付けて記憶することを特徴とする請求項1に記
載の情報検索装置。2. A body extracting unit that extracts a text sentence from the text data, a morpheme analyzing unit that divides the extracted text sentence into a plurality of words, and each of the plurality of words appears in the text sentence. An appearance frequency counting means for counting the number of times, wherein the second storage means stores the word and the count value of the word in association with identification information of text data corresponding to the text sentence. The information retrieval device according to claim 1, wherein the information retrieval device is a device.
ータと、当該テキストデータの識別情報とを対応付ける
とともに、当該テキスト文に関連した複数の関連情報
と、当該複数の関連情報を分類する項目と、当該テキス
ト文に対応するテキストデータの識別情報とを対応付け
るデータベースを検索する情報検索方法において、 前記項目のうち、検索の対象となり得る項目を指定する
項目指定情報を記憶装置に記憶する第1の過程と、 前記項目指定情報によって指定された項目に分類される
関連情報を前記データベースから取得する第2の過程
と、 前記第2の過程において取得された関連情報を、当該関
連情報に対応する前記識別情報と対応付けて前記記憶装
置に記憶する第3の過程と、 前記項目指定情報によって指定された項目に則した検索
条件を取得する第4の過程と、 前記記憶装置に記憶された関連情報の中から、前記検索
条件に該当する関連情報を特定し、当該関連情報に対応
する前記識別情報を特定する第5の過程とを具備するこ
とを特徴とする情報検索方法。3. The text data including at least a text sentence and the identification information of the text data are associated with each other, a plurality of related information related to the text sentence, an item for classifying the plurality of related information, and the text. In an information retrieval method for retrieving a database in which identification information of text data corresponding to a sentence is associated, a first step of storing item designation information for designating an item that can be a search target among the items in a storage device, A second step of acquiring, from the database, related information classified into items specified by the item specifying information; and the related information acquired in the second step, the identification information corresponding to the related information. According to the third process of associating and storing in the storage device, and the item designated by the item designation information. A fourth step of acquiring the search condition, and a fifth step of specifying related information corresponding to the search condition from the related information stored in the storage device and specifying the identification information corresponding to the related information. An information retrieval method comprising:
ータと、当該テキストデータの識別情報とを対応付ける
とともに、当該テキスト文に関連した複数の関連情報
と、当該複数の関連情報を分類する項目と、当該テキス
ト文に対応するテキストデータの識別情報とを対応付け
るデータベースを検索するコンピュータを、 前記項目のうち、検索の対象となり得る項目を指定する
項目指定情報を記憶する第1の記憶手段、 前記項目指定情報によって指定された項目に分類される
関連情報を前記データベースから取得する関連情報取得
手段、 前記関連情報取得手段によって取得された関連情報を、
当該関連情報に対応する前記識別情報と対応付けて記憶
する第2の記憶手段、 前記項目指定情報によって指定された項目に則した検索
条件を取得する検索条件取得手段、および、 前記第2の記憶手段に記憶された関連情報の中から、前
記検索条件に該当する関連情報を特定し、当該関連情報
に対応する前記識別情報を特定する検索手段として機能
させるためのプログラム。4. The text data including at least a text sentence and the identification information of the text data are associated with each other, a plurality of related information related to the text sentence, an item for classifying the plurality of related information, and the text. A computer that searches a database that associates identification information of text data corresponding to a sentence with a first storage unit that stores item designation information that designates an item that can be a search target among the items, according to the item designation information. Related information acquisition means for acquiring from the database the related information classified into the designated items, the related information acquired by the related information acquisition means,
A second storage unit that stores the identification information corresponding to the related information in association with the identification information; a search condition acquisition unit that acquires a search condition according to the item designated by the item designation information; and the second storage A program for causing related information corresponding to the search condition to be specified from among related information stored in the means, and causing the identification information corresponding to the related information to function as a searching means.
ータと、当該テキストデータの識別情報とを対応付ける
とともに、当該テキスト文に関連した複数の関連情報
と、当該複数の関連情報を分類する項目と、当該テキス
ト文に対応するテキストデータの識別情報とを対応付け
るデータベースを検索するコンピュータを、 前記項目のうち、検索の対象となり得る項目を指定する
項目指定情報を記憶する第1の記憶手段、 前記項目指定情報によって指定された項目に分類される
関連情報を前記データベースから取得する関連情報取得
手段、 前記関連情報取得手段によって取得された関連情報を、
当該関連情報に対応する前記識別情報と対応付けて記憶
する第2の記憶手段、 前記項目指定情報によって指定された項目に則した検索
条件を取得する検索条件取得手段、および、 前記第2の記憶手段に記憶された関連情報の中から、前
記検索条件に該当する関連情報を特定し、当該関連情報
に対応する前記識別情報を特定する検索手段として機能
させるためのプログラムを記録したコンピュータ読み取
り可能な記録媒体。5. The text data including at least a text sentence and the identification information of the text data are associated with each other, a plurality of related information related to the text sentence, an item for classifying the plurality of related information, and the text. A computer that searches a database that associates identification information of text data corresponding to a sentence with a first storage unit that stores item designation information that designates an item that can be a search target among the items, according to the item designation information. Related information acquisition means for acquiring from the database the related information classified into the designated items, the related information acquired by the related information acquisition means,
A second storage unit that stores the identification information corresponding to the related information in association with the identification information; a search condition acquisition unit that acquires a search condition according to the item designated by the item designation information; and the second storage A readable-by-computer recording program for specifying the related information corresponding to the search condition from the related information stored in the means and causing the identification information corresponding to the related information to function as the search means. recoding media.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076923A JP3945282B2 (en) | 2002-03-19 | 2002-03-19 | Information search apparatus, information search method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002076923A JP3945282B2 (en) | 2002-03-19 | 2002-03-19 | Information search apparatus, information search method, program, and recording medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003281182A true JP2003281182A (en) | 2003-10-03 |
JP2003281182A5 JP2003281182A5 (en) | 2005-06-30 |
JP3945282B2 JP3945282B2 (en) | 2007-07-18 |
Family
ID=29227853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002076923A Expired - Fee Related JP3945282B2 (en) | 2002-03-19 | 2002-03-19 | Information search apparatus, information search method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3945282B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010079613A (en) * | 2008-09-26 | 2010-04-08 | Fujitsu Ltd | Program and device for retrieval of data file |
JP2012203865A (en) * | 2011-03-28 | 2012-10-22 | Digital Arts Inc | Retrieval device, retrieval system, method, and program |
KR20200094074A (en) * | 2019-01-29 | 2020-08-06 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Method, apparatus, device and storage medium for managing index |
-
2002
- 2002-03-19 JP JP2002076923A patent/JP3945282B2/en not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010079613A (en) * | 2008-09-26 | 2010-04-08 | Fujitsu Ltd | Program and device for retrieval of data file |
JP2012203865A (en) * | 2011-03-28 | 2012-10-22 | Digital Arts Inc | Retrieval device, retrieval system, method, and program |
KR20200094074A (en) * | 2019-01-29 | 2020-08-06 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Method, apparatus, device and storage medium for managing index |
KR102368775B1 (en) * | 2019-01-29 | 2022-02-28 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Method, apparatus, device and storage medium for managing index |
US11308060B2 (en) | 2019-01-29 | 2022-04-19 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and storage medium for managing index |
Also Published As
Publication number | Publication date |
---|---|
JP3945282B2 (en) | 2007-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20040002945A1 (en) | Program for changing search results rank, recording medium for recording such a program, and content search processing method | |
GB2355559A (en) | Method and apparatus for identifying preferred indexes for databases | |
JP2009211263A (en) | Information retrieval system, method, and program | |
US7089233B2 (en) | Method and system for searching for web content | |
US20200342030A1 (en) | System and method for searching chains of regions and associated search operators | |
JP4769822B2 (en) | Information search service providing server, method and system using page group | |
CN111400323A (en) | Data retrieval method, system, device and storage medium | |
JP2009009461A (en) | Keyword inputting-supporting system, content-retrieving system, content-registering system, content retrieving and registering system, methods thereof, and program | |
JP2004178421A (en) | Document retrieval device, method for retrieving document, program, and recording medium | |
JP3687118B2 (en) | Related word dictionary creation device and related word dictionary creation method | |
JP2003173352A (en) | Retrieval log analysis method and device, document information retrieval method and device, retrieval log analysis program, document information retrieval program and storage medium | |
JP3945282B2 (en) | Information search apparatus, information search method, program, and recording medium | |
JPH09223150A (en) | Information classification processing method | |
KR20090063092A (en) | Metadata based indexing and retrieving apparatus and method | |
JP2002049638A (en) | Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program | |
JP3558267B2 (en) | Document search device | |
JP2011086156A (en) | System and program for tracking of leaked information | |
JP2003173351A (en) | Method, device, program and storage medium for analysis, collection and retrieval of information | |
JP5308918B2 (en) | Keyword extraction method, keyword extraction device, and keyword extraction program | |
JP2010072909A (en) | Document search device, document search method, and document search program | |
JPH08190571A (en) | Document retrieval method | |
JP2002312389A (en) | Information retrieving device and information retrieving method | |
JP2002117043A (en) | Device and method for document retrieval, and recording medium with recorded program for implementing the same method | |
KR101303363B1 (en) | Data processing system and method | |
JP2006106907A (en) | Structured document management system, method for constructing index, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041020 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070402 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110420 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110420 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120420 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130420 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140420 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |