JP2000242652A - Information stream retrieval method and device and storage medium recorded with information stream retrieval program - Google Patents
Information stream retrieval method and device and storage medium recorded with information stream retrieval programInfo
- Publication number
- JP2000242652A JP2000242652A JP11040271A JP4027199A JP2000242652A JP 2000242652 A JP2000242652 A JP 2000242652A JP 11040271 A JP11040271 A JP 11040271A JP 4027199 A JP4027199 A JP 4027199A JP 2000242652 A JP2000242652 A JP 2000242652A
- Authority
- JP
- Japan
- Prior art keywords
- information
- document
- information flow
- search
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、情報発信媒体から
発信された大量の情報からその話題と時間的な遷移を抽
出し、検索する情報潮流検索方法および装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information flow search method and apparatus for extracting topics and temporal transitions from a large amount of information transmitted from an information transmission medium and searching the information.
【0002】[0002]
【従来の技術】近年、インターネットなどのコンピュー
タネットワークを通じて、大量の電子化された文書をや
り取りできるようになっている。そのため、個人が必要
とする情報を検索できるようなサービスがネットワーク
上で実現されている。しかし、そのために自分が獲得し
た情報が大量になってしまい、個々の情報の持つ特徴を
抽出することが困難となる。そこで、獲得した情報を分
類し整理する技術が必要となる。2. Description of the Related Art In recent years, it has become possible to exchange a large amount of electronic documents through a computer network such as the Internet. For this reason, services that allow individuals to search for information they need are implemented on networks. However, the amount of information acquired by the user becomes large, and it becomes difficult to extract characteristics of individual information. Therefore, a technique for classifying and organizing the acquired information is required.
【0003】従来から、文書情報を自動的に分類する手
法の研究が行われている。代表的な手法としては、図書
館のように分類するための区切り(カテゴリと呼ぶ)が
既知で、新規の情報に対しそれぞれ適切と思われるカテ
ゴリに分類する手法(“分類体系相互の関係を利用した
テキストの自動分類”山本,増山(豊橋技術大学)内藤
(NTT),1995)や、分類するカテゴリが未知
で、文書集合の中から類似する文書を集めて分類カテゴ
リを作成し割り当てるという方法(“競合学習ニューラ
ルネットワークによる自動分割”菊池,松岡ら(宇都宮
大他),1995)などがある。これらの技術により、
大量の文書の分類整理を行っている。Conventionally, research has been conducted on a method of automatically classifying document information. A typical method is to classify information into categories that are considered appropriate for new information, with known breaks (called categories) for classifying like a library (" Automatic text classification "Yamamoto, Masuyama (Toyohashi University of Technology) Naito (NTT), 1995), or a method in which the category to be classified is unknown and similar documents are collected from a set of documents to create and assign a classification category (" Automatic division by a competitive learning neural network "Kikuchi, Matsuoka et al. (Utsunomiya Univ.), 1995). With these technologies,
Classifying and organizing a large number of documents.
【0004】また、本出願人が先に提案した「情報潮流
提示装置」(特開平10−154150号)に記載され
ているように、新聞記事のような時間情報を持つ文書を
対象に、話題の遷移を抽出する技術もある。この技術
は、ある文書集合から話題が類似した文書を自動収集し
てカテゴリを作成し、それをある時間間隔で分割し提示
することにより、ある話題に関する記事数や話題の分岐
などの時間変化を抽出するものである。Further, as described in the “information flow presentation device” (Japanese Patent Laid-Open No. 10-154150) proposed by the present applicant, a topic such as a newspaper article having time information is targeted. There is also a technique for extracting the transitions of. This technology automatically collects documents with similar topics from a set of documents, creates categories, divides them at certain time intervals, and presents them. It is to extract.
【0005】図5、図6は情報潮流提示装置(特開平1
0−154150号)によって新聞記事を対象として話
題を抽出した例である。図5は「台風3号」に関する情
報潮流であり、図6は「小学生殺人事件」に関する情報
潮流である。FIGS. 5 and 6 show an information flow presentation device (Japanese Patent Laid-Open No.
No. 0-154150) to extract topics from newspaper articles. FIG. 5 shows an information flow relating to “Typhoon No. 3”, and FIG. 6 shows an information flow relating to “Elementary school murder”.
【0006】図5では、日付「1998/06/08」
には話題として「台風3号」が発信され、日付「199
8/06/09」には話題として台風3号の「勢力拡
大」が抽出されていることを表している。また、「台風
3号」では、記事が2件、台風3号の「近畿通過」では
6件の記事が発信されていることを表している。ちなみ
に、日付「1998/06/07」の空のカテゴリは、
「情報潮流が1998/06/08から始まっている」
ことを表している。また、図6では、「小学生殺人事
件」という情報潮流の中に、さまざまな話題が存在して
いることを表している。例えば、日付「1998/06
/28」に「殺人事件」が発生し、日付「1998/0
6/29」では殺された「小学生」の話題や、「医者」
の診断の話題や、犯人の「中学」の話題に分岐して発信
されていることを表している。In FIG. 5, the date “1998/06/08”
"Typhoon No. 3" was sent as a topic, and the date "199
"8/06/09" indicates that "power expansion" of Typhoon No. 3 is extracted as a topic. In addition, "Typhoon No. 3" indicates that two articles are transmitted, and "Typhoon No. 3""KinkiPass" indicates that six articles are transmitted. By the way, the empty category on the date "1998/06/07"
"The information tide is starting on 1998/06/08"
It represents that. Further, FIG. 6 shows that various topics are present in the information flow of “elementary school murder”. For example, the date “1998/06
/ 28 ”, a“ murder case ”occurred, and the date“ 1998/0
In June 29, the topic of the killed elementary school students and the doctor
It shows that the topic is divided into the topic of diagnosis and the topic of the junior high school of the culprit.
【0007】即ち、情報潮流提示装置とは、各日付ある
いは時刻毎に発信された文書集合から類似した記事同士
を集めカテゴリに割り当て、カテゴリ名を決定し、各時
刻毎に存在する類似した話題のカテゴリを繋げ、その結
果を提示する装置といえる。That is, the information flow presentation device collects similar articles from a set of documents transmitted at each date or time, assigns them to a category, determines a category name, and determines a similar topic existing at each time. It can be said that it is a device that connects categories and presents the results.
【0008】[0008]
【発明が解決しようとする課題】本出願人が先に提案し
た情報潮流提示装置(特開平10−154150号)に
記載されている発明では、あらかじめ欲しい情報が既知
の場合に、その情報を情報潮流提示装置に入力しておく
ことで、その情報に応じた話題の変遷を抽出することが
できた。According to the invention described in the information flow presenting apparatus (JP-A-10-154150) previously proposed by the present applicant, if the desired information is known in advance, the information is used as the information. By inputting the information into the tidal current presentation device, the transition of topics according to the information could be extracted.
【0009】本発明の目的は、さらに、情報発信媒体か
ら抽出された大量の話題の遷移の中から必要な話題の遷
移を検索し、かつ順序付けして提示する情報潮流提示方
法および装置を提供することである。Another object of the present invention is to provide an information flow presentation method and apparatus for searching for a necessary topic transition from a large number of topic transitions extracted from an information transmission medium, and presenting the transition in a sequence. That is.
【0010】[0010]
【課題を解決するための手段】まず、入力された記事集
合から話題の遷移(これを情報潮流と呼ぶことにする)
の抽出を行う。そのために情報潮流の抽出を行う。分類
対象となる文書は、時間の情報を有する文書であり、そ
の文書が作成された時間や文書内で表現している時間を
利用する。記事の集合は、新聞社やラジオ局やテレビ局
など、テキスト情報を発信している媒体から発信されて
いる情報を別々に、または組み合わせて利用する。話題
の時間的な変化は、記事集合を時間毎に分類した結果と
話題毎に分類した結果を用いて、共通した話題のカテゴ
リを時間順に従って繋げていく。[Means for Solving the Problems] First, a topic transition from an input article set (this is called an information flow)
Is extracted. For this purpose, information flow is extracted. The document to be classified is a document having time information, and uses the time at which the document was created and the time expressed in the document. The collection of articles uses information transmitted from a medium that transmits text information, such as a newspaper company, a radio station, or a television station, separately or in combination. The temporal change of the topic is obtained by connecting the common topic categories in chronological order using the result of classifying the article set by time and the result of classifying by topic.
【0011】情報潮流の検索手法の説明の前に、検索対
象の各文書に対し特徴ベクトルを定義する。特徴ベクト
ルとは実数値のベクトルで、各要素は文書内に存在する
単語それぞれと1対1に対応する。文書iの特徴ベクト
ルBefore describing the information flow search technique, a feature vector is defined for each document to be searched. The feature vector is a real-valued vector, and each element has one-to-one correspondence with each word existing in the document. Feature vector of document i
【0012】[0012]
【外1】 は[Outside 1] Is
【0013】[0013]
【数1】 で表現できる。nは文書の特徴を表すために用いる単語
の数である。各要素の値は、その単語の出現頻度や文書
集合全体における分布の割合や文字数の長さなどを利用
して決定する手法("Automatic Text Processing" Gera
rd Salton, ADDISON-WESLEY pub. 1989)が一般的であ
る。この特徴ベクトルを用いて、文書間の類似度を定義
することができる。例えば、特徴ベクトル間の内積から
算出されるcosθ(ただし、θは特徴ベクトル間の角
度)などの関数が利用される。(Equation 1) Can be expressed by n is the number of words used to represent the characteristics of the document. The value of each element is determined using the appearance frequency of the word, the distribution ratio in the entire document set, the length of the number of characters, etc. ("Automatic Text Processing" Gera
rd Salton, ADDISON-WESLEY pub. 1989) is common. The similarity between documents can be defined using this feature vector. For example, a function such as cos θ (where θ is the angle between the feature vectors) calculated from the inner product between the feature vectors is used.
【0014】次に、情報潮流の検索手法について説明す
る。検索要求は検索したい単語、あるいは検索したい情
報が書かれた文書を用いる。検索要求はそれぞれ一つあ
るいは複数、あるいはいくつかの組合せで指定する。検
索要求が単語の場合、全文書を対象にその単語を含む文
書をすべて選出する。その際に、検索要求の単語と文書
との類似度はその文書の持つ特徴ベクトルの要素の値を
利用する。検索要求が文書であった場合、その文書の特
徴ベクトルを生成し、検索対象の文書の持つ特徴ベクト
ルとの類似度を計算し、類似している文書をすべて選出
する。Next, a method of searching for an information flow will be described. The search request uses a word or a document in which information to be searched is written. Each search request is specified by one, a plurality, or some combination. If the search request is a word, all documents containing that word are selected for all documents. At this time, the value of the element of the feature vector of the document is used for the similarity between the word of the search request and the document. If the search request is a document, a feature vector of the document is generated, the similarity to the feature vector of the search target document is calculated, and all similar documents are selected.
【0015】検索要求を満たした文書集合をSDoc=
{doc1,…,docm}で、それぞれの類似度をSD
oc v=(doc v1,…,doc vm)とする。
mは検索要求を満たした文書数である。次に、検索要求
に対する各情報潮流の類似度を計算する。例えば、情報
潮流kの類似度Relk は、情報潮流に割り当てられて
いる文書の検索要求に対する類似度の総和とすると、A document set satisfying a search request is defined as SDoc =
{Doc 1 ,..., Doc m }, each similarity is expressed as
oc v = (doc v 1 , ..., doc v m ).
m is the number of documents that satisfy the search request. Next, the similarity of each information flow with respect to the search request is calculated. For example, when the similarity Rel k of the information flow k is the sum of the similarities to the search request of the document assigned to the information flow,
【0016】[0016]
【数2】 と表現できる。(Equation 2) Can be expressed as
【0017】情報潮流の類似度を用いて、類似度が大き
いものから順序付けて検索結果を表示する。また、各情
報潮流が存在する時間情報を利用して、新鮮な文書を数
多く持つ情報潮流をより上位に、あるいは、その逆に順
序付けて表示する方法もある。Using the similarity of the information flow, the search results are displayed in order from the one with the largest similarity. There is also a method of displaying information flows having a large number of fresh documents in a higher order, or vice versa, using time information in which each information flow exists.
【0018】もう一つの代表的方法として、情報潮流と
検索語(検索式)との類似度を算出して、類似している
情報潮流を検索結果として提示する方法がある。情報潮
流と検索語との類似度を算出するために情報潮流の特徴
ベクトルAs another typical method, there is a method of calculating the similarity between an information flow and a search word (search expression), and presenting similar information flows as a search result. Feature vector of information flow to calculate similarity between information flow and search term
【0019】[0019]
【外2】 を導入した。情報潮流の構成品は文書であるので、情報
潮流の特徴ベクトル[Outside 2] Was introduced. Since the components of the information flow are documents, the feature vector of the information flow
【0020】[0020]
【外3】 として情報潮流を構成している文書の特徴ベクトル[Outside 3] Feature vectors of documents that make up the information flow
【0021】[0021]
【外4】 の平均((3)式)を利用する。[Outside 4] (Expression (3)) is used.
【0022】[0022]
【数3】 ここで各検索語qの特徴ベクトルを(Equation 3) Here, the feature vector of each search word q is
【0023】[0023]
【外5】 とする。特徴ベクトル[Outside 5] And Feature vector
【0024】[0024]
【外6】 は、各要素qが本文中の単語qと1対1に対応してお
り、検索語qに対応する要素の値を1、それ以外を0と
する。そして「情報潮流」と検索語qとの類似度として
情報潮流の特徴ベクトル[Outside 6] Is such that each element q has a one-to-one correspondence with the word q in the text, the value of the element corresponding to the search word q is 1, and the other values are 0. Then, as a similarity between the “information flow” and the search term q, the feature vector of the information flow is
【0025】[0025]
【外7】 との内積(ユークリッド空間における三角関数cos
θ)を利用する。[Outside 7] Product (trigonometric function cos in Euclidean space
θ) is used.
【0026】そして、情報潮流の特徴ベクトルと検索語
の特徴ベクトルとの類似度が0より大きい情報潮流を抽
出し、類似度が大きい順に検索結果として提示する。か
かる手法によって共通の単語が用いられている文書から
なる情報潮流が検索される。Then, an information flow in which the similarity between the feature vector of the information flow and the feature vector of the search word is greater than 0 is extracted, and presented as a search result in descending order of the similarity. By this method, an information flow composed of documents using common words is searched.
【0027】検索された複数の情報潮流は共通の単語あ
るいは文書に類似した話題であり、それらを比較するこ
とが可能となる。The retrieved information flows are topics similar to common words or documents, and these can be compared.
【0028】[0028]
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。Next, embodiments of the present invention will be described with reference to the drawings.
【0029】図1を参照すると、本発明の一実施形態の
情報潮流検索装置は、文書入力部10と文書記憶部10
2と情報潮流抽出部103と検索要求入力部104と情
報潮流検索部105と表示部106とで構成される。Referring to FIG. 1, an information flow searching device according to an embodiment of the present invention includes a document input unit 10 and a document storage unit 10.
2, an information power flow extraction unit 103, a search request input unit 104, an information power flow search unit 105, and a display unit 106.
【0030】本実施形態の情報潮流提示装置では、利用
者が、処理を施したい文書を文書入力部101で入力す
る。処理を施したい文書としては、コンピュータに入力
した文書すべてが含まれる。例えば、新聞記事やインタ
ーネット上のHTMLファイルやネットニュースや文字
放送やFM多重放送やテレビでの放送原稿等がある。In the information flow presenting apparatus according to the present embodiment, a user inputs a document to be processed by the document input unit 101. The documents to be processed include all the documents input to the computer. For example, there are newspaper articles, HTML files on the Internet, net news, text broadcasting, FM multiplex broadcasting, and broadcast manuscripts on television.
【0031】文書記憶部102では、文書入力部101
において入力した情報を、情報発信媒体それぞれ、ある
いは情報発信媒体のいくつか、あるいはすべての情報発
信媒体全体の文書を取り出せるように記憶する。In the document storage unit 102, the document input unit 101
Is stored so that the document of each information transmission medium, or some or all of the information transmission media can be retrieved.
【0032】情報潮流抽出部103では、文書集合から
の情報潮流の抽出を行う。文書入力部101で入力され
た文書集合に対し、「1999年」「1999年1月」
「1999年1月3日」などのような時間情報による分
類と、「“交通事故”の分類カテゴリ」「“8つ子誕
生”の分類カテゴリ」などのような話題による分類を施
す。各話題に分類された文書を時間情報を用いて並べ
て、情報潮流を生成する。The information flow extraction unit 103 extracts an information flow from a set of documents. For the document set input by the document input unit 101, “1999”, “January 1999”
Classification based on time information such as "January 3, 1999" and topic classification such as "classification category of" traffic accident "" and "classification category of" eight child birth "" are performed. Documents classified into each topic are arranged using time information to generate an information flow.
【0033】検索要求入力部104では、利用者が、抽
出された情報潮流の中から、検索したい単語あるいは検
索したい情報が書かれた文書を指定して検索要求を出
す。In the search request input section 104, the user issues a search request by specifying a word to be searched or a document in which information to be searched is written from the extracted information flow.
【0034】情報潮流検索部105では、情報潮流抽出
部103で抽出された情報潮流の検索を行う。すなわ
ち、検索要求入力部104から入力された検索条件を満
たす文書あるいは分類カテゴリを各情報潮流から抽出
し、それらの検索条件との類似度を計算し、類似度の大
きい情報潮流から順番に検索結果として表示部106に
表示する。The information power flow search unit 105 searches for the information power flow extracted by the information power flow extraction unit 103. That is, a document or a classification category that satisfies the search condition input from the search request input unit 104 is extracted from each information flow, the similarity with those search conditions is calculated, and the search results are sequentially sorted from the information flow having the highest similarity. Is displayed on the display unit 106.
【0035】本実施形態の処理の流れを具体例を用いて
説明する。The processing flow of the present embodiment will be described using a specific example.
【0036】本装置に入力する文書集合は、新聞社Aと
新聞社Bと新聞社Cのそれぞれの1988年から199
8年の新聞記事とする。文書集合を文書入力部101よ
り入力する。入力された文書は文書記憶部102に記憶
される。The set of documents to be input to the present apparatus is the same as that of newspaper company A, newspaper company B and newspaper company C since 1988.
Eight-year newspaper article. A document set is input from the document input unit 101. The input document is stored in the document storage unit 102.
【0037】次に、情報潮流抽出部103で、入力され
た文書集合から情報潮流を抽出する。この結果から、例
えば、1996年の「“台風18号”の情報潮流」や1
997年の「“台風18号”の情報潮流」や1993年
の「“日本プロサッカーリーグ(Jリーグ)”の情報潮
流」や1994年の「“Jリーグ”の情報潮流」や19
94年の「“ワールドカップアメリカ大会”の情報潮
流」や1998年の「“ワールドカップフランス大会”
の情報潮流」などが抽出されたとする(図3)。Next, the information flow extraction unit 103 extracts an information flow from the input document set. From this result, for example, the information flow of “Typhoon No. 18” in 1996 or 1
The information flow of “Typhoon No. 18” in 997, the information flow of “Japan Professional Soccer League (J-League)” in 1993, the information flow of “J-League” in 1994, and 19
1994 "The World Cup World Cup Information Trends" and 1998 "World Cup France Tournament"
It is assumed that the information tide of information has been extracted (FIG. 3).
【0038】次に、情報潮流検索部105で、必要な情
報潮流を検索する。例えば、「サッカー」の情報が欲し
いとする。検索要求入力部104からの検索要求として
「“サッカー”という単語を含む文書が存在する情報潮
流」を入力する(ステップ201)と、1993年の
「“日本プロサッカーリーグ(Jリーグ)”の情報潮
流」や1994年の「“Jリーグ”の情報潮流」や19
94年の「“ワールドカップアメリカ大会” の情報潮
流」や1998年の「“ワールドカップフランス大会”
の情報潮流」が単語「サッカー」を含む文書を含んで
おり、この条件に合う情報潮流として抽出される(図3
ステップ202、203)。表示する時の順序付けは、
例えば、順序付けする条件を「最近の情報潮流から」と
すれば、年数が新しいものから順に順序付けして表示部
105に表示する(ステップ204、205)。Next, the information flow search unit 105 searches for a necessary information flow. For example, suppose we want information on "soccer". When the user inputs “information trend in which a document including the word“ soccer ”exists” as a search request from the search request input unit 104 (step 201), the information of “Japan Professional Soccer League (J-League)” in 1993 Tide "and" Information Tide of "J League""in 1994 and 19
In 1994, the information trend of the “World Cup USA Tournament” and in 1998, the “World Cup France Tournament”
Information flow "includes a document including the word" soccer ", and is extracted as an information flow that meets this condition (FIG. 3).
Steps 202 and 203). The ordering when displaying is
For example, if the ordering condition is "from the latest information flow", the order is displayed in the display unit 105 in order from the newest one (steps 204 and 205).
【0039】また、「台風」の情報が欲しいとする。検
索要求として「“台風”という単語を含む文書が存在す
る情報潮流」を用いる(ステップ201)と、1996
年の「“台風18号”の情報潮流」や1997年の
「“台風18号” の情報潮流」や、“台風により試合
が延期”という記事を含む1994年の「“Jリーグ”
の情報潮流」が単語「台風」を含む文書を含んでおり、
この条件に合う情報潮流として抽出される(ステップ2
02、203)。表示する時の順序付けは、例えば、順
序付けする条件を「単語と文書の類似度の総和が大きい
ものから」とすれば、台風の情報を多く含んでいない1
994年の「“Jリーグ”の情報潮流」よりも、199
6年の「“台風18号” の情報潮流」や1997年の
「“台風18号”の情報潮流」が、より上位に順序付け
され、表示部106に表示される(ステップ204、2
05)。It is also assumed that information on "typhoon" is desired. When "information flow in which a document including the word" typhoon "exists" is used as the search request (step 201), 1996
The "J League" in 1994, including the article "The Typhoon No. 18 Information Trend", the 1997 "The Typhoon No. 18 Information Trend", and the article "The game was postponed due to the typhoon"
Information flow contains documents containing the word "typhoon"
It is extracted as an information flow that meets this condition (step 2
02, 203). For example, if the ordering condition is “from the largest sum of similarities between words and documents”, the ordering at the time of display does not include much typhoon information.
199 more than the “J-League information trend” in 994
The “information flow of“ Typhoon No. 18 ”” in 6 years and the “information flow of“ Typhoon No. 18 ”” in 1997 are ordered higher and displayed on the display unit 106 (steps 204 and 2).
05).
【0040】図4は本発明の他の実施形態の情報潮流提
示装置である。本実施形態の情報潮流提示装置は入力装
置301と記憶装置302,303と出力装置304と
記録媒体305とデータ処理装置306で構成されてい
る。入力装置301は図1中の文書入力部101に相当
する。記憶装置302は図1中の文書記憶部102に相
当する。記憶装置303はハードディスクである。出力
装置304は図1中の表示部106に相当する。記録媒
体305は、図2に示す処理からなる情報潮流検索プロ
グラムが記録されている、FD(フロッピィ・ディス
ク)、CD−ROM、MO(光磁気ディスク)等の記録
媒体である。データ処理装置306は記録媒体305か
ら情報潮流検索プログラムを記憶装置303に読込ん
で、これを実行するCPUである。FIG. 4 shows an information flow presentation device according to another embodiment of the present invention. The information flow presentation device of the present embodiment includes an input device 301, storage devices 302 and 303, an output device 304, a recording medium 305, and a data processing device 306. The input device 301 corresponds to the document input unit 101 in FIG. The storage device 302 corresponds to the document storage unit 102 in FIG. The storage device 303 is a hard disk. The output device 304 corresponds to the display unit 106 in FIG. The recording medium 305 is a recording medium such as an FD (floppy disk), a CD-ROM, and an MO (magneto-optical disk) in which an information flow search program including the processing shown in FIG. 2 is recorded. The data processing device 306 is a CPU that reads the information flow search program from the recording medium 305 into the storage device 303 and executes the program.
【0041】[0041]
【発明の効果】以上説明したように、本発明は、大量の
文書集合において、個々の文書が持つ話題の情報とその
文書が生成された時間の情報を用いて生成された大量の
情報潮流から、欲しい情報潮流だけを検索でき、それに
よって自分の欲しい情報とその話題の遷移を把握するこ
とが可能となる。As described above, according to the present invention, in a large document set, a large amount of information flow generated by using topic information of each document and information of the time when the document was generated is used. Therefore, it is possible to search for only the desired information flow, thereby making it possible to grasp the information desired by the user and the transition of the topic.
【図1】本発明の一実施形態の情報潮流検索装置の概略
構成を示すブロック図である。FIG. 1 is a block diagram illustrating a schematic configuration of an information flow search device according to an embodiment of the present invention.
【図2】図1の情報潮流検索装置での、検索要求の入力
から検索結果の表示までの処理を示すフローチャートの
一例である。FIG. 2 is an example of a flowchart showing processing from input of a search request to display of a search result in the information flow search device of FIG. 1;
【図3】図1の情報潮流検索装置の検索結果の一出力例
を示す図である。FIG. 3 is a diagram illustrating an example of an output of a search result of the information power flow search device in FIG. 1;
【図4】本発明の他の実施形態の情報潮流検索装置の構
成図である。FIG. 4 is a configuration diagram of an information flow search device according to another embodiment of the present invention.
【図5】従来の情報潮流提示装置によって得られた「台
風3号」に関する情報潮流を示す図である。FIG. 5 is a diagram showing an information flow relating to “Typhoon No. 3” obtained by a conventional information flow presentation device.
【図6】従来の情報潮流提示装置によって得られた「小
学生殺人事件」に関する情報潮流を示す図である。FIG. 6 is a diagram showing an information flow relating to a “elementary school murder case” obtained by a conventional information flow presentation device.
101 文書入力部 102 文書記憶部 103 情報潮流抽出部 104 検索要求入力部 105 情報潮流検索部 106 表示部 201〜205 ステップ 301 入力装置 302,303 記憶装置 304 出力装置 305 記録媒体 306 データ処理装置 Reference Signs List 101 Document input unit 102 Document storage unit 103 Information flow extraction unit 104 Search request input unit 105 Information flow search unit 106 Display unit 201 to 205 Step 301 Input device 302, 303 Storage device 304 Output device 305 Recording medium 306 Data processing device
───────────────────────────────────────────────────── フロントページの続き (72)発明者 森 大二郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 NK06 NK10 NK31 NR12 PQ76 QM08 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Daijiro Mori 3-19-2 Nishi-Shinjuku, Shinjuku-ku, Tokyo Japan Telegraph and Telephone Corporation (72) Inventor Kazuo Tanaka 3-192-1, Nishi-Shinjuku, Shinjuku-ku, Tokyo No. Nippon Telegraph and Telephone Corporation F-term (reference) 5B075 ND03 NK06 NK10 NK31 NR12 PQ76 QM08
Claims (3)
の中から話題とその時間的な遷移を抽出し、検索する情
報潮流検索方法であって、 自然言語で記述された文書を入力する文書入力ステップ
と、 前記文書入力ステップで得た入力データを記憶する文書
記憶ステップと、 前記文書記憶ステップで記憶されている入力データを、
話題に応じて分類し、文書が発信された時間順に並べる
ことで、話題の遷移である情報潮流を抽出する情報潮流
抽出ステップと、 前記抽出された情報潮流の中から、検索したい単語ある
いは検索したい情報が書かれた文書を指定して検索要求
を出す検索要求入力ステップと、 前記検索要求入力ステップで指定された単語を含む文書
または指定された文書と前記情報潮流を比較し、情報潮
流に割り当てられている文書の検索要求に対する類似度
を求め、情報潮流を類似度が大きいものまたは最新のも
のから順序付ける情報潮流検索ステップと、 前記順序付けられた情報潮流を表示する表示ステップを
有する情報潮流検索方法。An information flow search method for extracting a topic and its temporal transition from a large amount of information transmitted from an information transmission medium and searching the document, wherein a document described in a natural language is input. An input step, a document storage step of storing input data obtained in the document input step, and an input data stored in the document storage step.
An information flow extraction step of extracting an information flow, which is a transition of the topic, by categorizing according to the topic and arranging the documents in the order of the time when the document was transmitted; and, from the extracted information flow, a word or a search to be performed. A search request inputting step of designating a document in which information is written and issuing a search request; comparing the information flow with a document including the word specified in the search request inputting step or the specified document, and assigning the information flow An information flow search step of obtaining a similarity to a search request of a document being ordered and ordering information flows from those having the highest similarity or the latest, and a display step of displaying the ordered information flows. Method.
の中から話題とその時間的な遷移を抽出し、検索する情
報潮流検索装置であって、 自然言語で記述された文書を入力する文書入力部と、 前記文書入力部で得た入力データを記憶する文書記憶部
と、 前記文書記憶部に記憶されている入力データを、話題に
応じて分類し、文書が発信された時間順に並べること
で、話題の遷移である情報潮流を抽出する情報潮流抽出
部と、 前記抽出された情報潮流の中から、検索したい単語ある
いは検索したい情報が書かれた文書を指定して検索要求
を出す検索要求入力部と、 前記検索要求入力部で指定された単語を含む文書または
指定された文書と前記情報潮流を比較し、情報潮流に割
り当てられている文書の検索要求に対する類似度を求
め、情報潮流を類似度が大きいものまたは最新のものか
ら順序付ける情報潮流検索部と、 前記順序付けられた情報潮流を表示する表示部を有する
情報潮流検索装置。2. An information flow searching apparatus for extracting a topic and its temporal transition from a large amount of information transmitted from an information transmission medium and searching the document, wherein a document described in a natural language is input. An input unit; a document storage unit that stores input data obtained by the document input unit; and input data stored in the document storage unit. An information flow extraction unit for extracting an information flow as a topic transition; and a search request for designating a word or a document in which information to be searched is written from among the extracted information flows. An input unit, comparing the information flow with a document including the word specified in the search request input unit or the specified document, and calculating a similarity to the search request of the document assigned to the information flow, And information tide retrieval unit ordering from those or latest large similarity information tide retrieval device having a display unit that displays the ordered information tide.
の中から話題とその時間的な遷移を抽出し検索する情報
潮流検索プログラムであって、 自然言語で記述された文書を記憶装置に記憶する文書記
憶手順と、 前記文書記憶手順で記憶された入力データを、話題に応
じて分類し、文書が発信された時間順に並べることで、
話題の遷移である情報潮流を抽出する情報潮流抽出手順
と、 前記抽出された情報潮流の中から、検索したい単語ある
いは検索したい情報が書かれた文書を指定した検索要求
で指定された単語を含む文書または指定された文書と前
記情報潮流を比較し、情報潮流に割り当てられている文
書の検索要求に対する類似度を求め、情報潮流を類似度
が大きいものまたは最新のものからから順序付ける情報
潮流検索手順と、 前記順序付けられた情報潮流を表示装置に表示する表示
手順をコンピュータに実行させるための情報潮流検索プ
ログラムを記録した記録媒体。3. An information flow search program for extracting and retrieving topics and temporal transitions thereof from a large amount of information transmitted from an information transmission medium, wherein a document described in a natural language is stored in a storage device. By storing the input data stored in the document storage procedure, classifying the input data according to the topic, and arranging the input data in the order in which the documents were transmitted,
An information flow extraction procedure for extracting an information flow that is a transition of a topic, including, from the extracted information flow, a word specified in a search request specifying a word to be searched or a document in which information to be searched is written A document or a specified document is compared with the information flow, a similarity to a search request for a document assigned to the information flow is obtained, and an information flow search for ordering the information flow from the one with the highest similarity or the latest one is performed. A recording medium storing an information flow search program for causing a computer to execute a procedure and a display procedure of displaying the ordered information flow on a display device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11040271A JP2000242652A (en) | 1999-02-18 | 1999-02-18 | Information stream retrieval method and device and storage medium recorded with information stream retrieval program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11040271A JP2000242652A (en) | 1999-02-18 | 1999-02-18 | Information stream retrieval method and device and storage medium recorded with information stream retrieval program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000242652A true JP2000242652A (en) | 2000-09-08 |
Family
ID=12575986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11040271A Pending JP2000242652A (en) | 1999-02-18 | 1999-02-18 | Information stream retrieval method and device and storage medium recorded with information stream retrieval program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000242652A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145753A (en) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | Method for retrieving document and device and program for retrieving document |
WO2006030751A1 (en) * | 2004-09-14 | 2006-03-23 | Intellectual Property Bank Corp. | Device for drawing document correlation diagram where documents are arranged in time series |
JP2006338086A (en) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | Topic scale management device |
JP2006350656A (en) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | Time-series document grouping method, device, and program, and recording medium storing program |
CN100462966C (en) * | 2004-09-14 | 2009-02-18 | 株式会社Ipb | Device for drawing document correlation diagram where documents are arranged in time series |
JP2009087002A (en) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | Market research support method |
JP2009086998A (en) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | Market research support method |
JP2009087000A (en) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | Market research support method |
WO2009113266A1 (en) * | 2008-03-10 | 2009-09-17 | パナソニック株式会社 | Content search device and content search method |
JP2013206434A (en) * | 2012-03-29 | 2013-10-07 | Nippon Telegr & Teleph Corp <Ntt> | Time condition presentation method and device and program |
JPWO2020234930A1 (en) * | 2019-05-17 | 2020-11-26 |
-
1999
- 1999-02-18 JP JP11040271A patent/JP2000242652A/en active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145753A (en) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | Method for retrieving document and device and program for retrieving document |
CN100462966C (en) * | 2004-09-14 | 2009-02-18 | 株式会社Ipb | Device for drawing document correlation diagram where documents are arranged in time series |
WO2006030751A1 (en) * | 2004-09-14 | 2006-03-23 | Intellectual Property Bank Corp. | Device for drawing document correlation diagram where documents are arranged in time series |
JP2006338086A (en) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | Topic scale management device |
JP4595692B2 (en) * | 2005-06-15 | 2010-12-08 | 日本電信電話株式会社 | Time-series document aggregation method and apparatus, program, and storage medium storing program |
JP2006350656A (en) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | Time-series document grouping method, device, and program, and recording medium storing program |
JP2009087002A (en) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | Market research support method |
JP2009086998A (en) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | Market research support method |
JP2009087000A (en) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | Market research support method |
WO2009113266A1 (en) * | 2008-03-10 | 2009-09-17 | パナソニック株式会社 | Content search device and content search method |
US8073851B2 (en) | 2008-03-10 | 2011-12-06 | Panasonic Corporation | Content searching device and content searching method |
JP2013206434A (en) * | 2012-03-29 | 2013-10-07 | Nippon Telegr & Teleph Corp <Ntt> | Time condition presentation method and device and program |
JPWO2020234930A1 (en) * | 2019-05-17 | 2020-11-26 | ||
US11989222B2 (en) | 2019-05-17 | 2024-05-21 | Aixs, Inc. | Cluster analysis method, cluster analysis system, and cluster analysis program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6938025B1 (en) | Method and apparatus for automatically determining salient features for object classification | |
US6654742B1 (en) | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics | |
US7505956B2 (en) | Method for classification | |
US6751776B1 (en) | Method and apparatus for personalized multimedia summarization based upon user specified theme | |
US8452760B2 (en) | Relevancy presentation apparatus, method, and program | |
US8073851B2 (en) | Content searching device and content searching method | |
JP5886733B2 (en) | Video group reconstruction / summarization apparatus, video group reconstruction / summarization method, and video group reconstruction / summarization program | |
KR102017853B1 (en) | Method and apparatus for searching | |
US20080235209A1 (en) | Method and apparatus for search result snippet analysis for query expansion and result filtering | |
JP2009043156A (en) | Apparatus and method for searching for program | |
JPWO2006019101A1 (en) | Content-related information acquisition device, content-related information acquisition method, and content-related information acquisition program | |
JP2011529600A (en) | Method and apparatus for relating datasets by using semantic vector and keyword analysis | |
CN102054003A (en) | Methods and systems for recommending network information and creating network resource index | |
JP5306114B2 (en) | Query extraction device, query extraction method, and query extraction program | |
CN101261629A (en) | Specific information searching method based on automatic classification technology | |
JP2000242652A (en) | Information stream retrieval method and device and storage medium recorded with information stream retrieval program | |
JP2005107688A (en) | Information display method and system and information display program | |
JP2004178123A (en) | Information processor and program for executing information processor | |
JP4375626B2 (en) | Search service system and method for providing input order of keywords by category | |
JPH11282875A (en) | Information filtering device | |
EP2595065A1 (en) | Categorizing data sets | |
CN111737567A (en) | Method for recommending new network literature | |
KR20030069640A (en) | System and method for geting information on hierarchical and conceptual clustering | |
Ferragina et al. | The anatomy of a hierarchical clustering engine for web-page, news and book snippets | |
JP2000057090A (en) | Method and device for presenting information by utilizing other group taste information and recording medium recording information presenting program |