[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5191204B2 - Associative search system - Google Patents

Associative search system Download PDF

Info

Publication number
JP5191204B2
JP5191204B2 JP2007269840A JP2007269840A JP5191204B2 JP 5191204 B2 JP5191204 B2 JP 5191204B2 JP 2007269840 A JP2007269840 A JP 2007269840A JP 2007269840 A JP2007269840 A JP 2007269840A JP 5191204 B2 JP5191204 B2 JP 5191204B2
Authority
JP
Japan
Prior art keywords
keyword
document
document data
keywords
associative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007269840A
Other languages
Japanese (ja)
Other versions
JP2009098932A (en
Inventor
修 大島
耕一 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2007269840A priority Critical patent/JP5191204B2/en
Publication of JP2009098932A publication Critical patent/JP2009098932A/en
Application granted granted Critical
Publication of JP5191204B2 publication Critical patent/JP5191204B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は連想システムに係り、特に、入力された文書データ中からキーワードを抽出し、当該キーワードと関連の深い企業名等の文字列を出力する連想検索技術に関する。   The present invention relates to an associative system, and more particularly, to an associative search technique for extracting a keyword from input document data and outputting a character string such as a company name closely related to the keyword.

膨大な情報の中から必要とする情報を抽出するために検索システムが用いられるが、一般的な検索システムの場合、入力された検索語と同一または類似の概念を含む情報を抽出する仕組みを備えている。例えば、多数の企業の情報を格納したデータベースに対して「富士」という検索語を与えると、検索システムは「富士」という文字列を名称中に含む企業のリストを正確に出力することができる。また、インターネットの検索サイトにおいて「環境問題」と入力すれば、「環境問題」という文字列を含んだWebページのリストがディスプレイに表示される。
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。
A search system is used to extract necessary information from a vast amount of information. In the case of a general search system, there is a mechanism for extracting information that contains the same or similar concept as the input search term. ing. For example, if a search term “Fuji” is given to a database that stores information on a large number of companies, the search system can accurately output a list of companies that include the character string “Fuji” in the name. If you enter "environmental problem" at a search site on the Internet, a list of Web pages that contain the text "environmental problem" is displayed on the display.
As a result, the user can reach the target information, but the search results there are only in the expected range, and even if you look at the search result list, you can expect unexpected discoveries. There wasn't. Of course, new knowledge can be obtained in the process of examining details of individual data in the search result list, but information including other terms closely related to the search term cannot be extracted directly.

この点に関し、特許文献1で開示された「連想検索システム」の場合には、各用語の関連用語を記憶した関連用語記憶手段と、各用語と共起性の高い(同一文書中に登場する確率が高い)企業名を記憶した共起企業名記憶手段を備えており、検索語が入力された場合にはこれと関連する用語を抽出し、各用語に対する共起性の高い企業名を抽出する仕組みを備えている。
特開2004−110386号
In this regard, in the case of the “associative search system” disclosed in Patent Document 1, the related term storage means that stores the related terms of each term and the co-occurrence with each term (appear in the same document) It has a co-occurrence company name storage means that stores company names (high probability). When a search term is entered, it extracts terms related to it and extracts company names with high co-occurrence for each term. It has a mechanism to do.
JP 2004-110386 A

この結果ユーザは、検索語として「環境問題」を入力すると、環境問題に係る文書中に登場することの多い企業名をダイレクトにリストアップすることが可能となり、環境問題に積極的に取り組む企業を認識し、投資行動につなげることができるようになる。   As a result, when users enter "environmental problems" as a search term, it becomes possible to directly list the names of companies that often appear in documents related to environmental problems. Recognize and connect with investment behavior.

しかしながら、この従来の連想検索システムの場合、ユーザが特定の文字列を検索語としてシステムに入力することが前提となっているため、この時点で何らかの問題意識を持っていることがユーザには求められる。すなわち、特定のテーマを見据えて投資先を探そうという積極的なユーザにとっては有効なシステムであるが、漠然と「将来有望な企業があれば投資してみたい」と考えているユーザにとっては、利用価値が低いシステムと言わざるを得ない。   However, in this conventional associative search system, it is assumed that the user inputs a specific character string to the system as a search term, so the user is required to have some awareness of the problem at this point. It is done. In other words, it is an effective system for aggressive users who are looking to invest in a specific theme, but for users who vaguely want to invest if there are promising companies in the future, the utility value is I have to say it's a low system.

一方で、今日、インターネットのWebサイト上にはニュース記事やブログ記事、論文、白書、メルマガなど、多数の文書データが蓄積されており、ユーザはこれらの文書データをPC等を介して自由に閲覧する機会に恵まれている。
そして、これらの文書データ中には、次代を担う技術やサービスに関する情報が含まれており、これらの情報と関連の深い企業名をリストアップすることができれば、上記のように漠然と投資先を探しているユーザに対して具体的な投資対象企業を提示することが可能となる筈であるが、現在までにこのような仕組みは存在していない。
On the other hand, a large number of document data such as news articles, blog articles, papers, white papers, mail magazines, etc. are accumulated on the Internet website today, and users can freely browse these document data via a PC etc. Blessed with the opportunity to do.
These document data contain information on technologies and services that will lead the next generation. If you can list the names of companies that are closely related to these information, search for a vaguely investee as described above. However, there is no such mechanism so far.

上記のような問題は、投資先企業を探す場合に限るものではなく、「何か良い商品(サービス)があれば買いたい」、「誰か素晴らしい人物がいれば応援したい」といったように、商品や人物を漠然と探している場合にも該当するといえる。   The above problems are not limited to searching for investee companies, but products such as “I want to buy if there is any good product (service)” or “I want to support if there is a wonderful person” This is also true if you are looking for a person vaguely.

この発明は、このような現状を打開するために案出されたものであり、日々大量に蓄積されていく文書データの記述内容から、関連性の高い具体的な企業名や商品名、人物名等、特定のカテゴリに属する文字列をリストアップすることができるシステムを実現することを目的としている。   The present invention was devised to overcome such a current situation, and based on the description contents of document data accumulated in large quantities every day, a highly relevant specific company name, product name, person name, etc. It is an object of the present invention to realize a system capable of listing character strings belonging to a specific category.

上記の目的を達成するため、請求項1に記載した連想検索システムは、予め複数のキーワードを蓄積しておくキーワード記憶手段と、予め各キーワードとの共起性の高さに基づいて選定された複数の連想語をキーワード毎に蓄積しておく連想語記憶手段と、予め複数の企業名に係る文字列を格納しておく企業名記憶手段と、入力された文書データを形態素単位に分割する手段と、各形態素を上記キーワードと比較し、文書データに含まれるキーワードを検出する手段と、上記連想語記憶手段を参照し、検出した各キーワードの連想語を取得する手段と、上記企業名記憶手段を参照し、各連想語の中で当該企業名記憶手段に格納された文字列と一致するものを関連企業名として抽出する手段と、上記関連企業名をリスト表示する関連企業リスト欄と、上記文書データの内容を表示する文書表示欄を備えた検索結果表示画面を生成する手段を備え、上記関連企業リスト欄中の各関連企業名と上記文書表示欄中の対応キーワードとの間にはリンクが設定されており、上記関連企業リスト欄中の特定の企業名が選択されると、上記文書表示欄における対応キーワードが強調表示(例えばハイライト表示)されることを特徴としている。
ここで「共起性の高さ」とは、同一文書中に登場する割合(程度)の高さを意味している。
また「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。
In order to achieve the above object, the associative search system according to claim 1 is selected based on keyword storage means for storing a plurality of keywords in advance and the high degree of co-occurrence between the keywords. Associative word storage means for storing a plurality of associative words for each keyword, company name storage means for storing character strings related to a plurality of company names in advance, and means for dividing input document data into morpheme units Means for comparing each morpheme with the keyword and detecting a keyword included in the document data; means for referring to the associative word storage means; acquiring an associated word for each detected keyword; and the company name storage means reference and means for extracting one that matches the character string stored in the company name storage means in each associated words as related company name, associated companies list that lists the associated company name And a means for generating a search result display screen having a document display field for displaying the contents of the document data, and between each affiliated company name in the affiliated company list field and a corresponding keyword in the document display field. A link is set, and when a specific company name in the related company list column is selected, the corresponding keyword in the document display column is highlighted (for example, highlighted) .
Here, “high co-occurrence” means the height of the ratio (degree) of appearance in the same document.
The “morpheme” refers to the smallest language unit having a meaning. For example, when “my name is Suzuki” is broken down into morphemes, “I (pronoun)” “no (particle)” “name (general noun)” “ha (counselor)” “Suzuki (proprietary noun)” “ Is (auxiliary verb) ".

請求項に記載した連想検索システムは、請求項のシステムであって、さらに、複数の文書データが格納された文書記憶手段と、上記の各文書データから複数のキーワードを抽出し、上記キーワード記憶手段に格納するキーワード抽出手段と、全文書データ中における各キーワードの出現頻度を集計し、共起頻度記憶手段に格納する手段と、各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、キーワード毎に他のキーワードとの間の関連度をソートした後、関連度の高い上位所定数のキーワードを当該キーワードの連想語として抽出し、上記連想語記憶手段に格納する連想語抽出手段とを備えたことを特徴としている。 An associative search system according to claim 2 is the system according to claim 1 , further comprising: a document storage unit storing a plurality of document data; a plurality of keywords extracted from each of the document data; and the keyword Using the keyword extraction means stored in the storage means, the appearance frequency of each keyword in all the document data, the means for storing in the co-occurrence frequency storage means, and the appearance frequency data in each document data of each keyword, After calculating the degree of association based on the co-occurrence between keywords and sorting the degree of association between the degree of association calculation means stored in the keyword degree of association storage means and other keywords for each keyword, the higher degree of association An associative word extracting unit that extracts a predetermined number of keywords as an associative word of the keyword and stores it in the associative word storage unit is provided.

請求項に記載した連想検索システムは、請求項のシステムであって、さらに、上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。 Associative retrieval system according to claim 3, The system of claim 2, further said keyword extracting means, respectively provided with a plurality of filters for extracting a keyword candidate based on the unique extraction criterion, each filter And the keyword candidates extracted by at least a plurality of filters are recognized as keywords.

請求項に記載した連想検索システムは、請求項のシステムであって、さらに上記フィルタの一つが、(1)各文書データ中に含まれる名詞を注目語として抽出し、(2)各注目語の全文書データ中における出現頻度を算出し、(3)各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出し、(4)上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、(5)最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴としている。 The associative search system according to claim 4 is the system according to claim 3 , wherein one of the filters further extracts (1) a noun included in each document data as an attention word, and (2) each attention The frequency of occurrence of words in all document data is calculated, and (3) the range is expanded to the morpheme before and / or after each word of interest, (4) If the appearance frequency calculated by the processing in (3) above is a predetermined number or more, the range is further expanded to the previous or subsequent morpheme, and this expanded range is Repeat the process of calculating the frequency of occurrence of the included attention word in all document data until the appearance frequency is less than the predetermined number. (5) Predetermined among the attention words including the first attention word and the extended range. Select keywords with appearance frequency within the range as keyword candidates It is characterized in that.

請求項に記載した連想検索システムは、請求項のシステムであって、さらに上記関連度算出手段が、(1)文書データ単位で、当該文書中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、(2)文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、(3)文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、(4)上記選別キーワード間の積を、全文書データに亘って集計する処理と、(5)各選別キーワードの出現頻度の二乗値を、全文書データに亘って集計する処理と、(6)上記(5)の集計値の平方根を算出する処理と、(7)各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理とを実行することを特徴としている。 The associative search system according to claim 5 is the system according to claims 2 to 4 , wherein the relevance calculation means further includes (1) a record of appearance in the document in units of document data, and the relevance calculation (2) processing for selecting keywords to be targeted, (2) processing for multiplying the appearance frequency between each selected keyword in document data units, and recording the product in a predetermined storage means, and (3) document data units Then, the process of squaring the appearance frequency of each selection keyword and recording the value in a predetermined storage means, (4) the process of totaling the product between the selection keywords over all document data, (5) The process of calculating the square value of the appearance frequency of each selected keyword over all document data, (6) the process of calculating the square root of the calculated value of (5) above, and (7) the above (6) of each keyword By adding the square roots of each other and dividing the sum of (4) above by the sum, It is characterized by executing a process of calculating the degree of relevance between the keyword.

請求項1に記載した連想検索システムによれば、入力された文書データの内容に関連した具体的な企業名をリストアップすることができる。しかも、単に文書データ中に明記された企業名を抽出するのではなく、文書データ中に登場するキーワードに関連付けられた連想語中から企業名を抽出する仕組みであるため、純粋に記事の内容に興味を覚えたユーザに対して、当該記事の背後に潜む関係性に基づいて具体的な投資先等を提示することが可能となる。
また、検索結果表示画面中のリストに挙げられた企業名をクリックすることにより、文書中に表示された対応のキーワードが強調表示される仕組みを備えているため、ユーザは当該企業名がリストに挙げられた根拠を即座に認識することが可能となる。
According to the associative search system described in claim 1, it is possible to list specific company names related to the contents of the input document data. Moreover, instead of simply extracting the company name specified in the document data, it is a mechanism that extracts the company name from the association words associated with the keywords appearing in the document data, so it is purely the content of the article. It becomes possible to present a specific investment destination or the like to a user who has become interested based on the relationship hidden behind the article.
In addition, by clicking on the company name listed in the search result display screen, the corresponding keyword displayed in the document is highlighted, so the user can see the company name in the list. It becomes possible to immediately recognize the cited grounds.

請求項に記載した連想検索システムにあっては、キーワードの連想語が多数の文書データ中における各キーワード間の共起性に基づいて抽出される仕組みであるため、人間の予想を超えた意外性の高い連想語を自動的に収集することが可能となる。 In the associative search system according to claim 2 , since it is a mechanism in which the associative word of the keyword is extracted based on the co-occurrence between the keywords in a large number of document data, it is surprisingly beyond human expectation. It is possible to automatically collect high-quality association words.

請求項及びに記載した連想検索システムの場合、複数のフィルタを用いて文書データ中からそれぞれ独自にキーワード候補を抽出させ、これらの中で少なくとも複数のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
特に、請求項のシステムの場合、キーワード候補の抽出に際し、複数の文書データ中における出現頻度に基づいてある注目語をキーワード候補として選定するか否かを判断する仕組みを備えているため、選定されたキーワード候補の重要度に対して客観性を持たせることが可能となる。
In the case of the associative search system according to claim 3 and 4 , keyword candidates are independently extracted from document data using a plurality of filters, and at least those extracted by the plurality of filters are formal keywords. Therefore, it is possible to prevent important keywords from being missed and to prevent unimportant noise from being mixed into the keywords.
In particular, the system of claim 4 has a mechanism for determining whether or not to select an attention word as a keyword candidate based on the appearance frequency in a plurality of document data when extracting keyword candidates. It is possible to give objectivity to the importance of the keyword candidates.

請求項に記載した連想検索システムによれば、まず文書データ単位で、出現頻度がゼロのため他のキーワードとの関連度算出が不要なキーワードを事前に排除し、出現実績のあるキーワード間で関連度を算出した後、全文書単位に集計する手法を採用している結果、全体の計算処理を簡素化できる。
また、新規の文書データが文書記憶手段に追加された場合でも、当該新規文書データ単位で(1)〜(3)の処理を行い、この算出結果を(4)及び(5)の既存の集計値に加算した後、(6)及び(7)の計算をやり直すだけで済み、文書データ追加時における関連度の再計算処理が容易化される利点がある。
さらに、古くなった文書データの影響を排除する必要がある場合にも、当該旧文書データに係る(2)及び(3)の値を(4)及び(5)の集計値から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。

According to the associative search system described in claim 5 , first, in a document data unit, keywords that do not need to be calculated for the degree of association with other keywords because the appearance frequency is zero are excluded in advance. After calculating the degree of relevance, the total calculation process can be simplified as a result of adopting a method of tabulating all documents.
In addition, even when new document data is added to the document storage means, the processing of (1) to (3) is performed for each new document data unit, and the calculation results are added to the existing aggregations of (4) and (5). After adding to the value, it is only necessary to redo the calculations of (6) and (7), and there is an advantage that the recalculation processing of the relevance level when document data is added is facilitated.
Furthermore, when it is necessary to eliminate the influence of outdated document data, after subtracting the values of (2) and (3) related to the old document data from the aggregated values of (4) and (5), Since it is only necessary to redo the calculations of (6) and (7), it becomes easy to keep the relevance between keywords up to date.

図1は、この発明に係る連想検索システム10の全体構成を示すブロック図であり、連想検索サーバ12と、Webサーバ14とを備えている。
連想検索サーバ12とWebサーバ14は、ネットワーク接続されている。
また、Webサーバ14は、インターネット16を介して他の多数のWebサーバ18及びユーザのPC端末20と接続されている。
FIG. 1 is a block diagram showing the overall configuration of an associative search system 10 according to the present invention, and includes an associative search server 12 and a Web server 14.
The associative search server 12 and the Web server 14 are connected to a network.
The Web server 14 is connected to many other Web servers 18 and the user's PC terminal 20 via the Internet 16.

連想検索サーバ12は、形態素解析部22と、キーワード検出部24と、連想語抽出部26と、関連企業抽出部28と、キーワードDB32と、連想語DB34と、特定種文字列記憶手段としての企業名DB36とを備えている。   The associative search server 12 includes a morphological analysis unit 22, a keyword detection unit 24, an associative word extraction unit 26, a related company extraction unit 28, a keyword DB 32, an associative word DB 34, and a company as a specific species character string storage unit. Name DB36.

上記の形態素解析部22、キーワード検出部24、連想語抽出部26、関連企業抽出部28は、サーバ12のCPU がOS及び専用のアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記のキーワードDB32、連想語DB34、企業名DB36は、同サーバ12のハードディスク内に設けられている。
The morphological analysis unit 22, the keyword detection unit 24, the associative word extraction unit 26, and the related company extraction unit 28 are realized by the CPU of the server 12 executing necessary processes according to the OS and a dedicated application program.
Further, the keyword DB 32, the associative word DB 34, and the company name DB 36 are provided in the hard disk of the server 12.

上記キーワードDB32には、図2に示すように、キーワードIDとキーワードとの対応関係が多数登録されている。
上記連想語DB34には、図3に示すように、キーワードIDと複数の連想語との対応関係が登録されている。
上記企業名DB36には、図4に示すように、キーワードと企業名との対応関係が登録されている。
In the keyword DB 32, as shown in FIG. 2, many correspondences between keyword IDs and keywords are registered.
In the associative word DB 34, as shown in FIG. 3, correspondences between keyword IDs and a plurality of associative words are registered.
In the company name DB 36, as shown in FIG. 4, correspondences between keywords and company names are registered.

図5は、上記連想検索サーバ12内に設けられたキーワードDB32及び連想語DB34を生成するために用意された、準備システム40の機能構成を示すブロック図である。この準備システム40は、連想検索サーバ12自身によって構成することも可能であるが、他のコンピュータによって構成することもできる。他のコンピュータによって準備システム40を構成した場合、生成されたキーワードDB32及び連想語DB34のデータは、連想検索サーバ12内のキーワードDB32及び連想語DB34にそれぞれコピーされる。   FIG. 5 is a block diagram showing a functional configuration of the preparation system 40 prepared for generating the keyword DB 32 and the associative word DB 34 provided in the associative search server 12. The preparation system 40 can be configured by the associative search server 12 itself, but can also be configured by another computer. When the preparation system 40 is configured by another computer, the generated data of the keyword DB 32 and the associative word DB 34 are respectively copied to the keyword DB 32 and the associative word DB 34 in the associative search server 12.

この準備システム40は、文書DB42と、キーワード抽出部44と、キーワードDB32と、関連度算出部48と、キーワード共起頻度表DB50と、キーワード組合せ頻度総和表DB52と、キーワード頻度総和表DB54と、キーワード関連度表DB56と、連想語抽出部58と、連想語DB34を備えている。   The preparation system 40 includes a document DB 42, a keyword extraction unit 44, a keyword DB 32, a relevance calculation unit 48, a keyword co-occurrence frequency table DB 50, a keyword combination frequency sum table DB 52, a keyword frequency sum table DB 54, A keyword relevance table DB 56, an associative word extraction unit 58, and an associative word DB 34 are provided.

上記のキーワード抽出部44、関連度算出部48及び連想語抽出部58は、連想検索サーバ12あるいは他のコンピュータのCPUが、OS及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。   The keyword extracting unit 44, the relevance calculating unit 48, and the associative word extracting unit 58 are realized by the CPU of the associative search server 12 or another computer executing necessary processes according to the OS and a dedicated application program. The

上記の文書DB42、キーワードDB32、キーワード共起頻度表DB50、キーワード組合せ頻度総和表DB52、キーワード頻度総和表DB54、キーワード関連度表DB56及び連想語DB34は、同コンピュータのハードディスクに格納されている。
文書DB42には、新聞記事や学術雑誌、論文等の文書ファイル(テキストデータ)が予め多数蓄積されている。
The document DB 42, the keyword DB 32, the keyword co-occurrence frequency table DB 50, the keyword combination frequency sum table DB 52, the keyword frequency sum table DB 54, the keyword relevance table DB 56, and the associative word DB 34 are stored in the hard disk of the computer.
In the document DB 42, a large number of document files (text data) such as newspaper articles, academic journals, and papers are stored in advance.

上記のキーワード抽出部44は、図6に示すように、係り受け表現抽出フィルタ60、区切り文字抽出フィルタ62、文字列頻度統計フィルタ64、TermExtractフィルタ66、多数決フィルタ68を備えている。   As shown in FIG. 6, the keyword extraction unit 44 includes a dependency expression extraction filter 60, a delimiter extraction filter 62, a character string frequency statistical filter 64, a TermExtract filter 66, and a majority decision filter 68.

つぎに、図7のフローチャートに従い、キーワード抽出部44によるキーワード抽出工程について説明する。
まずキーワード抽出部44は、文書DB42内に蓄積された各文書ファイルに係り受け表現抽出フィルタ60を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する(S10)。
すなわち、係り受け表現抽出フィルタ60には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部44は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
Next, the keyword extraction process by the keyword extraction unit 44 will be described with reference to the flowchart of FIG.
First, the keyword extraction unit 44 applies a dependency expression extraction filter 60 to each document file stored in the document DB 42, and extracts a character string having a predetermined dependency expression from each document file (S10).
That is, the dependency expression extraction filter 60 includes a large number of dependency expression patterns “XX manufacturer”, “XX is the main force”, and “XX is produced” in advance. After the expression pattern that applies to is detected, a character string corresponding to “XX” is extracted as a keyword candidate.

つぎにキーワード抽出部44は、各文書ファイルに区切り文字抽出フィルタ62を適用し、「○○」、"○○"、(○○)、[○○]、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する(S12)。   Next, the keyword extraction unit 44 applies a delimiter extraction filter 62 to each document file, such as “XX”, “XX”, (XX), [XX], XX, and so on. The part of XX surrounded by delimiters such as parentheses, spaces, tabs, etc. is extracted as a keyword candidate (S12).

つぎにキーワード抽出部44は、各文書ファイルに文字列頻度統計フィルタ64を適用し、各文書ファイルに含まれる各文字列が他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S14)。
まず文字列頻度統計フィルタ64は、図8に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB42内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ64は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
Next, the keyword extraction unit 44 applies a character string frequency statistical filter 64 to each document file, and counts how many times each character string included in each document file appears, including other documents. A character string having an appearance frequency is extracted as a keyword candidate (S14).
First, as shown in FIG. 8, the character string frequency statistical filter 64 pays attention to a noun (here, “DVD”) in the document, and the attention word “DVD” appears in each document file stored in the document DB 42. Add up the number you want. Next, the character string frequency statistical filter 64 expands the range to the morpheme before and after this attention word, totals the frequencies that appear in all the documents, and the appearance frequency becomes less than a certain value (for example, 20 or less). Stop character range expansion at this point.

例えば、DVDの一つ前の形態素を含む「したDVD」の出現頻度は「2」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、DVDの一つ後の形態素を含む「DVDレコーダー」の出現頻度は「862」と多いため、その一つ後の形態素を含む「DVDレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「5」と低いため、これ以降の形態素に範囲を拡張することが停止される。   For example, since the appearance frequency of “done DVD” including the previous morpheme of the DVD is as low as “2”, the range is not expanded to the previous morpheme. On the other hand, since the appearance frequency of “DVD recorder” including the next morpheme of DVD is as many as “862”, the appearance frequencies of “DVD recorder” including the next morpheme are tabulated. Since the appearance frequency is as low as “5”, the expansion of the range to subsequent morphemes is stopped.

つぎに文字列頻度統計フィルタ64は、「DVD」及び「DVDレコーダー」が所定範囲(例えば20〜5,000)内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したDVD」及び「DVDレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。
Next, the character string frequency statistical filter 64 extracts “DVD” and “DVD recorder” as keyword candidates because they have an appearance frequency within a predetermined range (for example, 20 to 5,000). On the other hand, “done DVD” and “in the DVD recorder” are out of the above range, and are excluded from keyword candidates.
This is because, if the frequency of occurrence is less than 20 in all documents, it is not an important word in the first place, and if it exceeds 5,000, it is considered to be a general word or general word without features. The amount is adjusted as appropriate according to the amount of use and the purpose of use of the search system.

ところで、文書DB42内に蓄積された多量の文書ファイルに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図9に示すように、文書DB42内には予め全文書ファイルに登場する各形態素が、個々の文書ファイル中に存在しているか否かを一覧表にまとめたインデックス(所謂転置インデックス)が生成されている。このため、キーワード抽出部44はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。   By the way, since it takes an enormous amount of time to count the appearance frequency of each character string included in a large amount of document files stored in the document DB 42, as shown in FIG. An index (so-called transposed index) is generated that summarizes whether each morpheme appearing in all document files exists in each document file. Therefore, the keyword extraction unit 44 can acquire the appearance frequency in a relatively short time by referring to this index.

つぎにキーワード抽出部44は、文書DB42内に蓄積された文書ファイルにTermExtractフィルタ66を適用し、各文書ファイルから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S16)。
このTermExtractは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。
Next, the keyword extracting unit 44 applies the TermExtract filter 66 to the document files stored in the document DB 42, and extracts a character string having a predetermined score or more from each document file as a keyword candidate (S16).
This TermExtract is a string extraction algorithm devised to automatically extract technical terms from a specialized corpus (a huge text data consisting mainly of natural language sentences collected mainly for research purposes). A function is provided for extracting single nouns and compound nouns from the document file as candidate words and calculating the respective importance based on the appearance frequency and the connection frequency of each candidate word. Since this TermExtract itself is a known technique, further explanation is omitted.

つぎにキーワード抽出部44は、係り受け表現抽出フィルタ60、区切り文字抽出フィルタ62、文字列頻度統計フィルタ64、TermExtractフィルタ68によって抽出された各キーワード候補を多数決フィルタ68に入力し、キーワードを絞り込む。
多数決フィルタ68では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、ユニークな連番よりなるキーワードIDと関連付けてキーワードDB32に格納する(S18)。
Next, the keyword extraction unit 44 inputs the keyword candidates extracted by the dependency expression extraction filter 60, the delimiter extraction filter 62, the character string frequency statistical filter 64, and the TermExtract filter 68 to the majority filter 68, and narrows down the keywords.
The majority filter 68 matches the keyword candidates listed by each filter, recognizes a keyword candidate listed by two or more filters as a final keyword, a keyword ID consisting of a unique serial number, The data is stored in the keyword DB 32 in association (S18).

このように、係り受け表現抽出フィルタ60、区切り文字抽出フィルタ62、文字列頻度統計フィルタ64、TermExtractフィルタ66の4つのフィルタを用いることにより、文書ファイルからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、多数決フィルタ68を用いて絞り込むことにより、不要なキーワード(ノイズ)が混入することを防止できる。   As described above, by using the four filters of the dependency expression extraction filter 60, the delimiter extraction filter 62, the character string frequency statistical filter 64, and the TermExtract filter 66, important words are leaked when keywords are extracted from the document file. In addition, by using the majority filter 68 to narrow down, it is possible to prevent unnecessary keywords (noise) from being mixed.

上記のように4つのフィルタ中の2以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、3以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部44に設けることもできる。
As described above, the keyword candidate selected by two or more of the four filters is recognized as an official keyword, and selection by three or more filters may be a requirement for keyword recognition. it can.
Further, the number of filters is not limited to the above, and other effective keyword candidate extraction filters may be provided in the keyword extraction unit 44.

つぎに、図10のフローチャートに従い、関連度算出部48による各キーワード間の関連度算出工程について説明する。
まず関連度算出部48は、各キーワードの各文書ファイル中における出現頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表DB50に格納する(S20)。
図11は、キーワード共起頻度表DB50に格納されたキーワード共起頻度表の具体例を示すものであり、文書DB42に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
Next, according to the flowchart of FIG. 10, the relevance calculation process between keywords by the relevance calculation unit 48 will be described.
First, the relevance calculating unit 48 generates a keyword co-occurrence frequency table by counting the appearance frequencies of each keyword in each document file, and stores it in the keyword co-occurrence frequency table DB 50 (S20).
FIG. 11 shows a specific example of the keyword co-occurrence frequency table stored in the keyword co-occurrence frequency table DB 50. For each document D1 to Dn stored in the document DB 42, each keyword KW-1 to n is stored. Appearance frequency is described.

ここで、あるキーワードXとYとの間の関連度は、数1のiにキーワード共起頻度表DB50に記載されたXとYの出現頻度を代入することにより、理論的には算出可能である。

Figure 0005191204
Here, the degree of association between a certain keyword X and Y can be theoretically calculated by substituting the appearance frequency of X and Y described in the keyword co-occurrence frequency table DB50 into i of Equation 1. is there.
Figure 0005191204

この数1の分子は、キーワードX、Yの文書毎の出現頻度の積の全文書に亘る総和を意味するため、X、Yが同じ文書に出現する頻度が高いほど値は大きくなる。もっとも、特定の文書中におけるX及びYの出現頻度の絶対数が多ければそれにつられて分子の値は高くなってしまい、必ずしもXとYの共起性の高さを表しているとはいえない。これに対し分母は、キーワードX、Yの文書毎の出現頻度の二乗の全文書に亘る総和の平方根同士を加算したものであり、X、Yの特定文書中の出現頻度が高いほど値が大きくなる。このため、分子の値を分母の値で除算することにより、特定文書中におけるX、Yの出現頻度の絶対数が多いことの影響を排除し、X、Y間の共起性の高さに基づく関連度を導くことが可能となる。   Since the numerator of Equation 1 means the sum of the products of the appearance frequencies of the keywords X and Y for all documents, the value increases as the frequency of occurrence of X and Y in the same document increases. However, if the absolute number of occurrence frequencies of X and Y in a specific document is large, the value of the numerator increases accordingly, and it does not necessarily indicate the high co-occurrence of X and Y. . On the other hand, the denominator is obtained by adding the square roots of the sums of all the squares of the appearance frequencies of the keywords X and Y for each document, and the value increases as the appearance frequency in the specific document of X and Y increases. Become. For this reason, by dividing the numerator value by the denominator value, the influence of the large number of occurrence frequencies of X and Y in a specific document is eliminated, and the co-occurrence between X and Y is increased. It is possible to derive the degree of relevance based on it.

ただし、単純に数1の計算を行うやり方では、文書ファイルの分量及びキーワードの総数が多い場合には膨大な計算量が発生し、多くの処理時間を要することとなる。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。
However, in the method of simply performing the calculation of Equation 1, if the amount of document files and the total number of keywords are large, a huge amount of calculation occurs, and a lot of processing time is required.
Therefore, in this embodiment, the calculation process is simplified by generating the keyword combination frequency summation table and the keyword frequency summation table based on the keyword co-occurrence frequency table.

図12は、その要領を例示するものである。この場合、キーワード共起頻度表にはキーワードKW-1〜KW-5の文書D1における出現頻度が記載されているが、この中KW-3及びKW-4の出現頻度は0であるため、実際に関連度を算出すべきキーワードの組合せは以下の3パターンで済むこととなる。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
つぎに関連度算出部48は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表DB52及びキーワード頻度総和表DB54に格納する(S22、S24)。
FIG. 12 illustrates the procedure. In this case, the keyword co-occurrence frequency table describes the appearance frequencies of the keywords KW-1 to KW-5 in the document D1, but the KW-3 and KW-4 appearance frequencies are 0. The combination of keywords for which the degree of relevance should be calculated is the following three patterns.
(KW-1, KW-2), (KW-1, KW-5), (KW-2, KW-5)
Next, the relevance calculator 48 generates a keyword combination frequency sum table describing values multiplied by the appearance frequency for each combination, and a keyword frequency sum table describing values obtained by squaring the appearance frequency of each keyword, They are stored in the combination frequency summation table DB52 and the keyword frequency summation table DB54 (S22, S24).

図12のキーワード組合せ頻度総和表では、文書D1についての値のみが記述されているが、同様の処理を各文書毎に実行し、その結果に基づいて値を加算していくことにより、数1の分子に相当する値が得られる。
同じく、図12のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を集計していき、各キーワードの最終的な値(総和)の平方根を求めることにより、数1の分母に相当する値が得られる。
In the keyword combination frequency summation table of FIG. 12, only the value for the document D1 is described. However, the same processing is executed for each document, and the value is added based on the result. A value corresponding to the numerator is obtained.
Similarly, in the keyword frequency total table of FIG. 12, only the value for the document D1 is described, but the value obtained by squaring the appearance frequency of each keyword in each document is tabulated, and the final value ( By calculating the square root of (sum), a value corresponding to the denominator of Equation 1 is obtained.

最後に関連度算出部48は、図13に示すように、キーワード組合せ頻度総和表DB52からキーワードX,Yの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表DB54からキーワードXの二乗値の総和とキーワードYの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数1に代入することにより、キーワードX,Y間の関連度を算出し、キーワード関連度表DB26に格納する(S26)。すべてのキーワードの組合せについて処理が終了するまで、関連度算出部48は処理を繰り返す。   Finally, as shown in FIG. 13, the degree-of-relevance calculation unit 48 reads the sum of the combination frequencies of the keywords X and Y from the keyword combination frequency sum table DB 52 and also calculates the sum of the square values of the keywords X from the keyword frequency sum table DB 54. After reading the sum of the square values of the keyword Y and calculating the square root of the sum of the square values, substituting these values into Equation 1 calculates the relevance between the keywords X and Y, and the keyword relevance table Store in DB26 (S26). The degree-of-association calculation unit 48 repeats the process until the process is completed for all keyword combinations.

上記のように、文書ファイル毎に各キーワード間の組合せパターンを抽出し、それぞれの積値及び各キーワードの二乗値を求めた上で、各文書ファイルの値を加算していくことにより、出現頻度が0のキーワードに係る計算処理を省くことが可能となる。   As described above, the combination pattern between each keyword is extracted for each document file, the product value and the square value of each keyword are obtained, and then the value of each document file is added, so that the appearance frequency This makes it possible to omit the calculation processing related to the keyword with 0.

また、文書DB42に新規の文書ファイルが追加された場合には、この新規文書ファイル中の各キーワードに係る値を、キーワード組合せ頻度総和表DB52及びキーワード頻度総和表DB54に格納された既存の集計値に加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書ファイルの影響を排除する場合にも、当該文書ファイル中の各キーワードに係る値をキーワード組合せ頻度総和表DB52及びキーワード頻度総和表DB54に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
When a new document file is added to the document DB 42, the values associated with each keyword in the new document file are stored in the existing combined values stored in the keyword combination frequency summation table DB52 and the keyword frequency summation table DB54. By adding to, it is possible to easily recalculate the degree of association between keywords.
Even when the influence of an obsolete document file is eliminated, by subtracting the value related to each keyword in the document file from the existing total value stored in the keyword combination frequency summation table DB52 and the keyword frequency summation table DB54. Thus, it is possible to easily maintain the degree of association between keywords in the latest state.

最後に連想語抽出部58が起動し、各キーワードの連想語をキーワード関連度表DB56から抽出し、連想語DB34に格納する(S28)。
すなわち、連想語抽出部58は各キーワード毎に他のキーワードとの関連度の値をソートし、関連度の高い上位所定数(例えば50件)のキーワードを連想語と認定し、各連想語を当該キーワードのIDと関連付けて連想語DB34に格納する。
Finally, the associative word extraction unit 58 is activated to extract the associative word of each keyword from the keyword association degree table DB 56 and store it in the associative word DB 34 (S28).
That is, the associative word extraction unit 58 sorts the relevance values with other keywords for each keyword, recognizes the top predetermined number of keywords (for example, 50) having high relevance as associative words, It is stored in the associative word DB 34 in association with the keyword ID.

以上のようにして、準備システム40によるキーワードDB32及び連想語DB34に対する必要データの蓄積が完了した時点で、この連想検索システム10による処理が開始される。
以下、図14のフローチャートに従い、このシステム10による連想検索処理の手順について説明する。
As described above, when the necessary data is stored in the keyword DB 32 and the associative word DB 34 by the preparation system 40, the process by the associative search system 10 is started.
Hereinafter, the procedure of the associative search process by the system 10 will be described with reference to the flowchart of FIG.

まず、Webサーバ14によってインターネット上の他のWebサーバ18(例えばニュースサイト)から文書ファイル(新着のニュースデータ)が定期的に取り込まれ(S30)、連想検索サーバ12に送信される。
これを受けた連想検索サーバ12の形態素解析部22は、各文書データを言語的に意味を有する最小の単位である「形態素」に分解する(S32)。
First, a document file (new news data) is periodically fetched from another web server 18 (for example, a news site) on the Internet by the web server 14 (S30) and transmitted to the associative search server 12.
Upon receiving this, the morpheme analyzer 22 of the associative search server 12 decomposes each document data into “morphemes” which are the smallest units having linguistic meaning (S32).

つぎに、キーワード検出部24が起動し、各形態素とキーワードDB32に格納されたキーワードとを比較し、一致する形態素を当該文書ファイル中に存在するキーワードとして検出した後、各キーワードのIDを連想語抽出部26に出力する(S34)。
この形態素解析部22及びキーワード検出部24を実現するために、既存の形態素解析アルゴリズム(例えば「MeCab」や「ChaSen」)を利用することもできる。
Next, the keyword detecting unit 24 is activated, compares each morpheme with the keyword stored in the keyword DB 32, detects a matching morpheme as a keyword existing in the document file, and then sets the ID of each keyword as an associative word. The data is output to the extraction unit 26 (S34).
In order to realize the morpheme analysis unit 22 and the keyword detection unit 24, an existing morpheme analysis algorithm (for example, “MeCab” or “ChaSen”) may be used.

各キーワードのIDを受けた連想語抽出部26は、これをキーに連想語DB34を検索し、それぞれの連想語(各50件分)を抽出した後(S36)、関連企業抽出部28に出力する。   The associative word extraction unit 26 that has received the ID of each keyword searches the associative word DB 34 using this as a key, extracts each associative word (for each 50 items) (S36), and then outputs it to the related company extraction unit 28 To do.

これを受けた関連企業抽出部28は、企業名DB36を参照して各連想語の中で企業名に該当するものを関連企業として抽出し、検索結果データを生成する(S38)。
図15に示すように、この検索結果データには、文書ID毎に関連企業のリスト及び各関連企業と対になる文書中のキーワードが記述されている。
Receiving this, the related company extraction unit 28 refers to the company name DB 36 to extract the association word corresponding to the company name as the related company, and generates search result data (S38).
As shown in FIG. 15, in this search result data, a list of related companies and a keyword in a document paired with each related company are described for each document ID.

Webサーバ14は、この検索結果データを連想検索サーバ12から受け取ると、元になった文書データに検索結果データを反映させた検索結果表示画面(HTMLファイル)を生成する(S40)。
この検索結果表示画面は、ユーザからのリクエストに応じてPC端末20に配信される(S42)。
Upon receiving this search result data from the associative search server 12, the Web server 14 generates a search result display screen (HTML file) in which the search result data is reflected in the original document data (S40).
This search result display screen is distributed to the PC terminal 20 in response to a request from the user (S42).

図16は、この検索結果表示画面70の一例を示すものであり、元のテキスト文書の内容が記述された文書表示欄72と、当該文書中に登場するキーワードと関連の深い企業名が列記された関連企業リスト欄74とが設けられている。   FIG. 16 shows an example of this search result display screen 70, in which a document display field 72 in which the contents of the original text document are described, and a company name closely related to the keyword appearing in the document are listed. A related company list column 74 is provided.

この検索結果表示画面70を閲覧することにより、ユーザは当該記事の内容がフルタ自動車、タカギ自動車、オカベ電機、シマダ建設と関連が深いことを読み取ることができる。
また、ユーザが関連企業リスト中の一つであるフルタ自動車をクリックすると、検索結果表示画面70のHTMLファイルに記述された制御プログラム(JavaScript等)の作用により、当該企業名とリンクが設定されたキーワードである「ハイブリッド車」がハイライト表示される。
このため、記事の内容から「ハイブリッド車」が将来的に有望であると判断したユーザは、即座にフルタ自動車がそのハイブリッド車に関係深いことを認識でき、投資対象の候補として認識することが可能となる。
By browsing the search result display screen 70, the user can read that the content of the article is deeply related to Furuta, Takagi, Okabe Electric, and Shimada Construction.
In addition, when the user clicks on Furuta car, which is one of the related company lists, the company name and link are set by the action of the control program (JavaScript, etc.) described in the HTML file on the search result display screen 70. The keyword “hybrid vehicle” is highlighted.
For this reason, users who have determined that “hybrid vehicles” are promising from the content of the article can immediately recognize that Furuta vehicles are closely related to the hybrid vehicles and can recognize them as candidates for investment. It becomes.

この連想検索システム10は、上記のようにWebサーバ14によってインターネット上のWebサイトから定期的に多数の文書ファイルが取り込まれ、連想検索サーバ12によって自動的に各文書ファイルの関連企業リストを含む検索結果データが生成された後、Webサーバ14上で検索結果表示画面70が一般ユーザの閲覧に供されるという利用形態に限定されるものではない。   In the associative search system 10, as described above, the web server 14 periodically retrieves a large number of document files from a website on the Internet, and the associative search server 12 automatically includes a list of related companies of each document file. After the result data is generated, the search result display screen 70 on the Web server 14 is not limited to a usage mode for general user browsing.

例えば、ユーザ自身が注目している特定の文書ファイルをWebサーバ14にアップロードし、これに対して連想検索サーバ12が個別に連想検索処理を実施し、当該文書ファイルの関連企業リストや検索結果表示画面70をWebサーバ14経由でユーザのPC端末20に返すように運用することもできる。   For example, a user uploads a specific document file that the user is paying attention to to the Web server 14, and the associative search server 12 performs an associative search process on the individual document file, and displays a list of related companies and search results of the document file It is also possible to operate so that the screen 70 is returned to the user's PC terminal 20 via the Web server 14.

また、この連想検索システム10は、上記のように投資対象企業を検索する目的に限定されるものではなく、購入対象商品や応援対象人物等を検索する目的にも適用可能である。この場合、上記企業名DB36の代わりに多数の商品名や人物名を格納した商品名DBあるいは人物名DBを特定種文字列記憶手段として用意し、関連企業抽出部28と同じ機能を備えた関連商品抽出部や関連人物抽出部を用いることにより、特定文書と関連性の深い商品名や人物名をリストアップすることができる。
もちろん、企業名や商品名、人物名等の各種文字列を格納させたデータベースを設けておき、特定文書に関連する企業名、商品名、人物名を網羅的にリストアップするように構成することもできる。
The associative search system 10 is not limited to the purpose of searching for an investment target company as described above, but can also be applied to the purpose of searching for a purchase target product, a support target person, and the like. In this case, instead of the company name DB 36, a product name DB or person name DB storing a large number of product names and person names is prepared as a specific type character string storage means, and a related function having the same function as the related company extraction unit 28 is provided. By using the product extraction unit and the related person extraction unit, it is possible to list product names and person names that are closely related to a specific document.
Of course, a database that stores various character strings, such as company names, product names, and person names, is provided, and the company names, product names, and person names related to specific documents are listed up comprehensively. You can also.

この発明に係る連想検索システムの機能構成を示すブロック図である。It is a block diagram which shows the function structure of the associative search system which concerns on this invention. キーワードDBの構成例を示す図である。It is a figure which shows the structural example of keyword DB. 連想語DBの構成例を示す図である。It is a figure which shows the structural example of an associative word DB. 企業名DBの構成例を示す図である。It is a figure which shows the structural example of company name DB. 準備システムの機能構成を示すブロック図である。It is a block diagram which shows the function structure of a preparation system. キーワード抽出部の構成を示すブロック図である。It is a block diagram which shows the structure of a keyword extraction part. キーワード抽出工程を示すフローチャートである。It is a flowchart which shows a keyword extraction process. 文字列頻度統計フィルタの動作を示す説明図である。It is explanatory drawing which shows operation | movement of a character string frequency statistical filter. 文書DB内に形態素インデックスが形成されている様子を示す説明図である。It is explanatory drawing which shows a mode that the morpheme index is formed in document DB. キーワード間の関連度算出工程及び連想語抽出工程を示すフローチャートである。It is a flowchart which shows the related degree calculation process between keywords, and an associative word extraction process. キーワード共起頻度表の一例を示す説明図である。It is explanatory drawing which shows an example of a keyword co-occurrence frequency table. 関連度算出処理を簡略化する方法を示す説明図である。It is explanatory drawing which shows the method of simplifying a relevance calculation process. キーワード組合せ頻度総和表及びキーワード頻度総和表に基づいてキーワード関連度表が生成される様子を示す説明図である。It is explanatory drawing which shows a mode that a keyword relevance table is produced | generated based on a keyword combination frequency total table and a keyword frequency total table. 連想検索処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of an associative search process. 検索結果データの一例を示す図である。It is a figure which shows an example of search result data. 検索結果表示画面の一例を示す図である。It is a figure which shows an example of a search result display screen.

符号の説明Explanation of symbols

10 連想検索システム
12 連想検索サーバ
14 Webサーバ
16 インターネット
18 他のWebサーバ
20 PC端末
22 形態素解析部
24 キーワード検出部
26 連想語抽出部
28 関連企業抽出部
32 キーワードDB
34 連想語DB
36 企業名DB
40 準備システム
42 文書DB
44 キーワード抽出部
48 関連度算出部
50 キーワード共起頻度表DB
52 キーワード組合せ頻度総和表DB
54 キーワード頻度総和表DB
56 キーワード関連度表DB
58 連想語抽出部
60 係り受け表現抽出フィルタ
62 区切り文字抽出フィルタ
64 文字列頻度統計フィルタ
66 TermExtractフィルタ
68 多数決フィルタ
68 多数決フィルタ
70 検索結果表示画面
72 文書表示欄
74 関連企業リスト欄
10 Associative search system
12 Associative search server
14 Web server
16 Internet
18 Other web servers
20 PC terminal
22 Morphological analyzer
24 Keyword detector
26 Associative word extractor
28 Related Company Extraction Department
32 Keyword DB
34 Associative Word DB
36 Company Name DB
40 Preparation system
42 Document DB
44 Keyword extractor
48 Relevance calculator
50 Keyword co-occurrence frequency table DB
52 Keyword combination frequency summary table DB
54 Keyword Frequency Summation Table DB
56 Keyword Relevance Table DB
58 Associative Word Extraction Unit
60 Dependency Expression Extraction Filter
62 Delimiter extraction filter
64 string frequency statistics filter
66 TermExtract filter
68 Majority filter
68 Majority filter
70 Search result display screen
72 Document display field
74 Related company list

Claims (5)

予め複数のキーワードを蓄積しておくキーワード記憶手段と、
予め各キーワードとの共起性の高さに基づいて選定された複数の連想語をキーワード毎に蓄積しておく連想語記憶手段と、
予め複数の企業名に係る文字列を格納しておく企業名記憶手段と、
入力された文書データを形態素単位に分割する手段と、
各形態素を上記キーワードと比較し、文書データに含まれるキーワードを検出する手段と、
上記連想語記憶手段を参照し、検出した各キーワードの連想語を取得する手段と、
上記企業名記憶手段を参照し、各連想語の中で当該企業名記憶手段に格納された文字列と一致するものを関連企業名として抽出する手段と、
上記関連企業名をリスト表示する関連企業リスト欄と、上記文書データの内容を表示する文書表示欄を備えた検索結果表示画面を生成する手段を備え、
上記関連企業リスト欄中の各関連企業名と上記文書表示欄中の対応キーワードとの間にはリンクが設定されており、
上記関連企業リスト欄中の特定の企業名が選択されると、上記文書表示欄における対応キーワードが強調表示されることを特徴とする連想検索システム。
Keyword storage means for storing a plurality of keywords in advance;
An associative word storage means for storing, for each keyword, a plurality of associative words selected based on the high degree of co-occurrence with each keyword;
Company name storage means for storing character strings related to a plurality of company names in advance;
Means for dividing input document data into morpheme units;
Means for comparing each morpheme with the keyword and detecting a keyword included in the document data;
Means for acquiring an associated word of each detected keyword with reference to the associated word storage means;
A means for referring to the company name storage means and extracting, as associated company names , those associated with the character strings stored in the company name storage means among the associative words;
Means for generating a search result display screen having a related company list field for displaying a list of the related company names and a document display field for displaying the contents of the document data;
A link is set between each affiliated company name in the affiliated company list column and the corresponding keyword in the document display column.
An associative search system, wherein when a specific company name in the related company list field is selected, a corresponding keyword in the document display field is highlighted .
複数の文書データが格納された文書記憶手段と、
上記の各文書データから複数のキーワードを抽出し、上記キーワード記憶手段に格納するキーワード抽出手段と、
全文書データ中における各キーワードの出現頻度を集計し、共起頻度記憶手段に格納する手段と、
各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、
キーワード毎に他のキーワードとの間の関連度をソートした後、関連度の高い上位所定数のキーワードを当該キーワードの連想語として抽出し、上記連想語記憶手段に格納する連想語抽出手段とを備えたことを特徴とする請求項に記載の連想検索システム。
Document storage means for storing a plurality of document data;
A keyword extracting means for extracting a plurality of keywords from each of the document data and storing them in the keyword storage means;
A means for totalizing the appearance frequency of each keyword in all document data and storing it in a co-occurrence frequency storage means;
Using the appearance frequency data in each document data of each keyword, calculating a relevance level based on the co-occurrence between keywords, and storing the relevance level in a keyword relevance storage unit;
After sorting the degree of association with other keywords for each keyword, an associated word extraction unit that extracts the upper predetermined number of keywords having a high degree of association as an association word of the keyword and stores it in the association word storage unit; The associative search system according to claim 1 , further comprising:
上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、
各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とする請求項に記載の連想検索システム。
The keyword extraction means includes a plurality of filters that extract keyword candidates based on unique extraction criteria,
The associative search system according to claim 2 , wherein keyword candidates extracted by each filter are matched, and keyword candidates extracted by at least a plurality of filters are recognized as keywords.
上記フィルタの一つが、
(1) 各文書データ中に含まれる名詞を注目語として抽出し、
(2) 各注目語の全文書データ中における出現頻度を算出し、
(3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出し、
(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項に記載の連想検索システム。
One of the above filters is
(1) Extract nouns included in each document data as attention words,
(2) Calculate the appearance frequency of all the attention words in all document data,
(3) Extend the range to the morpheme one and the next before each attention word, and calculate the appearance frequency of the attention word including this expansion range in all document data,
(4) If the appearance frequency calculated by the processing in (3) above is a predetermined number or more, the range is further expanded to the previous or subsequent morpheme, and all documents of the attention word including this expanded range Repeat the process of calculating the appearance frequency in the data until the appearance frequency falls below a predetermined number,
(5) The associative search system according to claim 3 , wherein among the attention words including the first attention word and the expanded range, words having an appearance frequency within a predetermined range are selected as keyword candidates.
上記関連度算出手段が、
(1) 文書データ単位で、当該文書中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、
(2) 文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、
(3) 文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、
(4) 上記選別キーワード間の積を、全文書データに亘って集計する処理と、
(5) 各選別キーワードの出現頻度の二乗値を、全文書データに亘って集計する処理と、
(6) 上記(5)の集計値の平方根を算出する処理と、
(7) 各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とする請求項の何れかに記載の連想検索システム。
The relevance calculation means is
(1) In a document data unit, a process of selecting a keyword that has an appearance record in the document and should be a target of relevance calculation;
(2) Multiply the appearance frequency between each selected keyword in document data units, and record the product in a predetermined storage means;
(3) A process of squaring the appearance frequency of each selected keyword in document data units and recording the value in a predetermined storage means;
(4) a process of summing up the product between the selected keywords over all document data;
(5) A process of summing up the square value of the appearance frequency of each selected keyword over all document data;
(6) A process for calculating the square root of the aggregate value of (5) above,
(7) A process of calculating the degree of association between both keywords by adding the square roots of (6) above for each keyword and dividing the sum of the above (4) by the sum,
The associative search system according to any one of claims 2 to 4 , wherein:
JP2007269840A 2007-10-17 2007-10-17 Associative search system Expired - Fee Related JP5191204B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007269840A JP5191204B2 (en) 2007-10-17 2007-10-17 Associative search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007269840A JP5191204B2 (en) 2007-10-17 2007-10-17 Associative search system

Publications (2)

Publication Number Publication Date
JP2009098932A JP2009098932A (en) 2009-05-07
JP5191204B2 true JP5191204B2 (en) 2013-05-08

Family

ID=40701875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007269840A Expired - Fee Related JP5191204B2 (en) 2007-10-17 2007-10-17 Associative search system

Country Status (1)

Country Link
JP (1) JP5191204B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5455060B2 (en) * 2010-03-31 2014-03-26 学校法人明治大学 Database, analogy engine and analogy system
KR101865803B1 (en) * 2011-06-30 2018-06-11 삼성디스플레이 주식회사 Electrophotetic display device and driving method thereof
CN110308799A (en) * 2019-05-23 2019-10-08 深圳壹账通智能科技有限公司 Method, apparatus, computer equipment and the storage medium of text association
CN118447926B (en) * 2024-07-08 2024-10-29 智菲科技集团有限公司 Deep learning-based biological element association research and development application method

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04148370A (en) * 1990-10-11 1992-05-21 Canon Inc Document processor
JPH09120401A (en) * 1995-10-24 1997-05-06 Oki Electric Ind Co Ltd Thesaurus preparing device
JP2002175329A (en) * 2000-12-07 2002-06-21 Canon Inc Information retrieval device, its method and computer- readable storage medium
JP2005135113A (en) * 2003-10-29 2005-05-26 Sony Corp Electronic equipment, related word extracting method, and program
JP2005196749A (en) * 2003-12-12 2005-07-21 Fit:Kk Additional management program, and electronic document browsing device
US7702611B2 (en) * 2005-01-07 2010-04-20 Xerox Corporation Method for automatically performing conceptual highlighting in electronic text

Also Published As

Publication number Publication date
JP2009098932A (en) 2009-05-07

Similar Documents

Publication Publication Date Title
CN101501630B (en) Method for ranking computerized search result list and its database search engine
JP5106636B2 (en) System for extracting terms from documents with text segments
Thelwall et al. A comparison of methods for collecting web citation data for academic organizations
JP5083669B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
JP2010055618A (en) Method and system for providing search based on topic
JP2009271799A (en) Company correlative information extracting system
US20090276424A1 (en) Method and system for keyword management
US20130031083A1 (en) Determining keyword for a form page
JP2009122807A (en) Associative retrieval system
KR101541306B1 (en) Computer enabled method of important keyword extraction, server performing the same and storage media storing the same
JP5551025B2 (en) Patent search expression generation device, patent search expression generation method, and program
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
JP5191204B2 (en) Associative search system
KR102349624B1 (en) System and Method for Crawling News
JP4969209B2 (en) Search system
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
JP4912384B2 (en) Document search device, document search method, and document search program
JP4759600B2 (en) Text search device, text search method, text search program and recording medium thereof
WO2009113494A1 (en) Question and answer system which can provide descriptive answer using www as source of information
JP2009271798A (en) Industry map generating system
JP5180894B2 (en) Attribute expression acquisition method, apparatus and program
JP2006318398A (en) Vector generation method and device, information classifying method and device, and program, and computer readable storage medium with program stored therein
JP5450135B2 (en) Retrieval modeling system and method using relevance dictionary
KR101614551B1 (en) System and method for extracting keyword using category matching
JP4938515B2 (en) Word correlation calculation device and method, program, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130129

R150 Certificate of patent or registration of utility model

Ref document number: 5191204

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160208

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees