JP2000242652A - 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 - Google Patents
情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体Info
- Publication number
- JP2000242652A JP2000242652A JP11040271A JP4027199A JP2000242652A JP 2000242652 A JP2000242652 A JP 2000242652A JP 11040271 A JP11040271 A JP 11040271A JP 4027199 A JP4027199 A JP 4027199A JP 2000242652 A JP2000242652 A JP 2000242652A
- Authority
- JP
- Japan
- Prior art keywords
- information
- document
- information flow
- search
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 情報発信媒体から抽出された文書の話題の遷
移の中から必要な話題の遷移を検索し、検索要求に適し
た順に順序付けして提示する。 【解決手段】 文書記憶部102では、文書入力部10
1において入力した文書情報を記憶する。情報潮流抽出
部103では文書入力部101で入力された文書集合に
対し、時間情報による分類と、話題による分類を施し、
各話題に分類された文書を時間情報を用いて並べて、情
報潮流を生成する。検索要求入力部104では、抽出さ
れた情報潮流から、検索したい単語あるいは検索したい
情報が書かれた文書を指定して検索要求を出す情報潮流
検索部105では、情報潮流抽出部103で抽出された
情報潮流から、検索条件を満たす文書あるいは分類カテ
ゴリを抽出し、それらの検索条件との類似度を計算し、
類似度が大きい情報潮流から順番に検索結果として、表
示部106に表示する。
移の中から必要な話題の遷移を検索し、検索要求に適し
た順に順序付けして提示する。 【解決手段】 文書記憶部102では、文書入力部10
1において入力した文書情報を記憶する。情報潮流抽出
部103では文書入力部101で入力された文書集合に
対し、時間情報による分類と、話題による分類を施し、
各話題に分類された文書を時間情報を用いて並べて、情
報潮流を生成する。検索要求入力部104では、抽出さ
れた情報潮流から、検索したい単語あるいは検索したい
情報が書かれた文書を指定して検索要求を出す情報潮流
検索部105では、情報潮流抽出部103で抽出された
情報潮流から、検索条件を満たす文書あるいは分類カテ
ゴリを抽出し、それらの検索条件との類似度を計算し、
類似度が大きい情報潮流から順番に検索結果として、表
示部106に表示する。
Description
【0001】
【発明の属する技術分野】本発明は、情報発信媒体から
発信された大量の情報からその話題と時間的な遷移を抽
出し、検索する情報潮流検索方法および装置に関する。
発信された大量の情報からその話題と時間的な遷移を抽
出し、検索する情報潮流検索方法および装置に関する。
【0002】
【従来の技術】近年、インターネットなどのコンピュー
タネットワークを通じて、大量の電子化された文書をや
り取りできるようになっている。そのため、個人が必要
とする情報を検索できるようなサービスがネットワーク
上で実現されている。しかし、そのために自分が獲得し
た情報が大量になってしまい、個々の情報の持つ特徴を
抽出することが困難となる。そこで、獲得した情報を分
類し整理する技術が必要となる。
タネットワークを通じて、大量の電子化された文書をや
り取りできるようになっている。そのため、個人が必要
とする情報を検索できるようなサービスがネットワーク
上で実現されている。しかし、そのために自分が獲得し
た情報が大量になってしまい、個々の情報の持つ特徴を
抽出することが困難となる。そこで、獲得した情報を分
類し整理する技術が必要となる。
【0003】従来から、文書情報を自動的に分類する手
法の研究が行われている。代表的な手法としては、図書
館のように分類するための区切り(カテゴリと呼ぶ)が
既知で、新規の情報に対しそれぞれ適切と思われるカテ
ゴリに分類する手法(“分類体系相互の関係を利用した
テキストの自動分類”山本,増山(豊橋技術大学)内藤
(NTT),1995)や、分類するカテゴリが未知
で、文書集合の中から類似する文書を集めて分類カテゴ
リを作成し割り当てるという方法(“競合学習ニューラ
ルネットワークによる自動分割”菊池,松岡ら(宇都宮
大他),1995)などがある。これらの技術により、
大量の文書の分類整理を行っている。
法の研究が行われている。代表的な手法としては、図書
館のように分類するための区切り(カテゴリと呼ぶ)が
既知で、新規の情報に対しそれぞれ適切と思われるカテ
ゴリに分類する手法(“分類体系相互の関係を利用した
テキストの自動分類”山本,増山(豊橋技術大学)内藤
(NTT),1995)や、分類するカテゴリが未知
で、文書集合の中から類似する文書を集めて分類カテゴ
リを作成し割り当てるという方法(“競合学習ニューラ
ルネットワークによる自動分割”菊池,松岡ら(宇都宮
大他),1995)などがある。これらの技術により、
大量の文書の分類整理を行っている。
【0004】また、本出願人が先に提案した「情報潮流
提示装置」(特開平10−154150号)に記載され
ているように、新聞記事のような時間情報を持つ文書を
対象に、話題の遷移を抽出する技術もある。この技術
は、ある文書集合から話題が類似した文書を自動収集し
てカテゴリを作成し、それをある時間間隔で分割し提示
することにより、ある話題に関する記事数や話題の分岐
などの時間変化を抽出するものである。
提示装置」(特開平10−154150号)に記載され
ているように、新聞記事のような時間情報を持つ文書を
対象に、話題の遷移を抽出する技術もある。この技術
は、ある文書集合から話題が類似した文書を自動収集し
てカテゴリを作成し、それをある時間間隔で分割し提示
することにより、ある話題に関する記事数や話題の分岐
などの時間変化を抽出するものである。
【0005】図5、図6は情報潮流提示装置(特開平1
0−154150号)によって新聞記事を対象として話
題を抽出した例である。図5は「台風3号」に関する情
報潮流であり、図6は「小学生殺人事件」に関する情報
潮流である。
0−154150号)によって新聞記事を対象として話
題を抽出した例である。図5は「台風3号」に関する情
報潮流であり、図6は「小学生殺人事件」に関する情報
潮流である。
【0006】図5では、日付「1998/06/08」
には話題として「台風3号」が発信され、日付「199
8/06/09」には話題として台風3号の「勢力拡
大」が抽出されていることを表している。また、「台風
3号」では、記事が2件、台風3号の「近畿通過」では
6件の記事が発信されていることを表している。ちなみ
に、日付「1998/06/07」の空のカテゴリは、
「情報潮流が1998/06/08から始まっている」
ことを表している。また、図6では、「小学生殺人事
件」という情報潮流の中に、さまざまな話題が存在して
いることを表している。例えば、日付「1998/06
/28」に「殺人事件」が発生し、日付「1998/0
6/29」では殺された「小学生」の話題や、「医者」
の診断の話題や、犯人の「中学」の話題に分岐して発信
されていることを表している。
には話題として「台風3号」が発信され、日付「199
8/06/09」には話題として台風3号の「勢力拡
大」が抽出されていることを表している。また、「台風
3号」では、記事が2件、台風3号の「近畿通過」では
6件の記事が発信されていることを表している。ちなみ
に、日付「1998/06/07」の空のカテゴリは、
「情報潮流が1998/06/08から始まっている」
ことを表している。また、図6では、「小学生殺人事
件」という情報潮流の中に、さまざまな話題が存在して
いることを表している。例えば、日付「1998/06
/28」に「殺人事件」が発生し、日付「1998/0
6/29」では殺された「小学生」の話題や、「医者」
の診断の話題や、犯人の「中学」の話題に分岐して発信
されていることを表している。
【0007】即ち、情報潮流提示装置とは、各日付ある
いは時刻毎に発信された文書集合から類似した記事同士
を集めカテゴリに割り当て、カテゴリ名を決定し、各時
刻毎に存在する類似した話題のカテゴリを繋げ、その結
果を提示する装置といえる。
いは時刻毎に発信された文書集合から類似した記事同士
を集めカテゴリに割り当て、カテゴリ名を決定し、各時
刻毎に存在する類似した話題のカテゴリを繋げ、その結
果を提示する装置といえる。
【0008】
【発明が解決しようとする課題】本出願人が先に提案し
た情報潮流提示装置(特開平10−154150号)に
記載されている発明では、あらかじめ欲しい情報が既知
の場合に、その情報を情報潮流提示装置に入力しておく
ことで、その情報に応じた話題の変遷を抽出することが
できた。
た情報潮流提示装置(特開平10−154150号)に
記載されている発明では、あらかじめ欲しい情報が既知
の場合に、その情報を情報潮流提示装置に入力しておく
ことで、その情報に応じた話題の変遷を抽出することが
できた。
【0009】本発明の目的は、さらに、情報発信媒体か
ら抽出された大量の話題の遷移の中から必要な話題の遷
移を検索し、かつ順序付けして提示する情報潮流提示方
法および装置を提供することである。
ら抽出された大量の話題の遷移の中から必要な話題の遷
移を検索し、かつ順序付けして提示する情報潮流提示方
法および装置を提供することである。
【0010】
【課題を解決するための手段】まず、入力された記事集
合から話題の遷移(これを情報潮流と呼ぶことにする)
の抽出を行う。そのために情報潮流の抽出を行う。分類
対象となる文書は、時間の情報を有する文書であり、そ
の文書が作成された時間や文書内で表現している時間を
利用する。記事の集合は、新聞社やラジオ局やテレビ局
など、テキスト情報を発信している媒体から発信されて
いる情報を別々に、または組み合わせて利用する。話題
の時間的な変化は、記事集合を時間毎に分類した結果と
話題毎に分類した結果を用いて、共通した話題のカテゴ
リを時間順に従って繋げていく。
合から話題の遷移(これを情報潮流と呼ぶことにする)
の抽出を行う。そのために情報潮流の抽出を行う。分類
対象となる文書は、時間の情報を有する文書であり、そ
の文書が作成された時間や文書内で表現している時間を
利用する。記事の集合は、新聞社やラジオ局やテレビ局
など、テキスト情報を発信している媒体から発信されて
いる情報を別々に、または組み合わせて利用する。話題
の時間的な変化は、記事集合を時間毎に分類した結果と
話題毎に分類した結果を用いて、共通した話題のカテゴ
リを時間順に従って繋げていく。
【0011】情報潮流の検索手法の説明の前に、検索対
象の各文書に対し特徴ベクトルを定義する。特徴ベクト
ルとは実数値のベクトルで、各要素は文書内に存在する
単語それぞれと1対1に対応する。文書iの特徴ベクト
ル
象の各文書に対し特徴ベクトルを定義する。特徴ベクト
ルとは実数値のベクトルで、各要素は文書内に存在する
単語それぞれと1対1に対応する。文書iの特徴ベクト
ル
【0012】
【外1】 は
【0013】
【数1】 で表現できる。nは文書の特徴を表すために用いる単語
の数である。各要素の値は、その単語の出現頻度や文書
集合全体における分布の割合や文字数の長さなどを利用
して決定する手法("Automatic Text Processing" Gera
rd Salton, ADDISON-WESLEY pub. 1989)が一般的であ
る。この特徴ベクトルを用いて、文書間の類似度を定義
することができる。例えば、特徴ベクトル間の内積から
算出されるcosθ(ただし、θは特徴ベクトル間の角
度)などの関数が利用される。
の数である。各要素の値は、その単語の出現頻度や文書
集合全体における分布の割合や文字数の長さなどを利用
して決定する手法("Automatic Text Processing" Gera
rd Salton, ADDISON-WESLEY pub. 1989)が一般的であ
る。この特徴ベクトルを用いて、文書間の類似度を定義
することができる。例えば、特徴ベクトル間の内積から
算出されるcosθ(ただし、θは特徴ベクトル間の角
度)などの関数が利用される。
【0014】次に、情報潮流の検索手法について説明す
る。検索要求は検索したい単語、あるいは検索したい情
報が書かれた文書を用いる。検索要求はそれぞれ一つあ
るいは複数、あるいはいくつかの組合せで指定する。検
索要求が単語の場合、全文書を対象にその単語を含む文
書をすべて選出する。その際に、検索要求の単語と文書
との類似度はその文書の持つ特徴ベクトルの要素の値を
利用する。検索要求が文書であった場合、その文書の特
徴ベクトルを生成し、検索対象の文書の持つ特徴ベクト
ルとの類似度を計算し、類似している文書をすべて選出
する。
る。検索要求は検索したい単語、あるいは検索したい情
報が書かれた文書を用いる。検索要求はそれぞれ一つあ
るいは複数、あるいはいくつかの組合せで指定する。検
索要求が単語の場合、全文書を対象にその単語を含む文
書をすべて選出する。その際に、検索要求の単語と文書
との類似度はその文書の持つ特徴ベクトルの要素の値を
利用する。検索要求が文書であった場合、その文書の特
徴ベクトルを生成し、検索対象の文書の持つ特徴ベクト
ルとの類似度を計算し、類似している文書をすべて選出
する。
【0015】検索要求を満たした文書集合をSDoc=
{doc1,…,docm}で、それぞれの類似度をSD
oc v=(doc v1,…,doc vm)とする。
mは検索要求を満たした文書数である。次に、検索要求
に対する各情報潮流の類似度を計算する。例えば、情報
潮流kの類似度Relk は、情報潮流に割り当てられて
いる文書の検索要求に対する類似度の総和とすると、
{doc1,…,docm}で、それぞれの類似度をSD
oc v=(doc v1,…,doc vm)とする。
mは検索要求を満たした文書数である。次に、検索要求
に対する各情報潮流の類似度を計算する。例えば、情報
潮流kの類似度Relk は、情報潮流に割り当てられて
いる文書の検索要求に対する類似度の総和とすると、
【0016】
【数2】 と表現できる。
【0017】情報潮流の類似度を用いて、類似度が大き
いものから順序付けて検索結果を表示する。また、各情
報潮流が存在する時間情報を利用して、新鮮な文書を数
多く持つ情報潮流をより上位に、あるいは、その逆に順
序付けて表示する方法もある。
いものから順序付けて検索結果を表示する。また、各情
報潮流が存在する時間情報を利用して、新鮮な文書を数
多く持つ情報潮流をより上位に、あるいは、その逆に順
序付けて表示する方法もある。
【0018】もう一つの代表的方法として、情報潮流と
検索語(検索式)との類似度を算出して、類似している
情報潮流を検索結果として提示する方法がある。情報潮
流と検索語との類似度を算出するために情報潮流の特徴
ベクトル
検索語(検索式)との類似度を算出して、類似している
情報潮流を検索結果として提示する方法がある。情報潮
流と検索語との類似度を算出するために情報潮流の特徴
ベクトル
【0019】
【外2】 を導入した。情報潮流の構成品は文書であるので、情報
潮流の特徴ベクトル
潮流の特徴ベクトル
【0020】
【外3】 として情報潮流を構成している文書の特徴ベクトル
【0021】
【外4】 の平均((3)式)を利用する。
【0022】
【数3】 ここで各検索語qの特徴ベクトルを
【0023】
【外5】 とする。特徴ベクトル
【0024】
【外6】 は、各要素qが本文中の単語qと1対1に対応してお
り、検索語qに対応する要素の値を1、それ以外を0と
する。そして「情報潮流」と検索語qとの類似度として
情報潮流の特徴ベクトル
り、検索語qに対応する要素の値を1、それ以外を0と
する。そして「情報潮流」と検索語qとの類似度として
情報潮流の特徴ベクトル
【0025】
【外7】 との内積(ユークリッド空間における三角関数cos
θ)を利用する。
θ)を利用する。
【0026】そして、情報潮流の特徴ベクトルと検索語
の特徴ベクトルとの類似度が0より大きい情報潮流を抽
出し、類似度が大きい順に検索結果として提示する。か
かる手法によって共通の単語が用いられている文書から
なる情報潮流が検索される。
の特徴ベクトルとの類似度が0より大きい情報潮流を抽
出し、類似度が大きい順に検索結果として提示する。か
かる手法によって共通の単語が用いられている文書から
なる情報潮流が検索される。
【0027】検索された複数の情報潮流は共通の単語あ
るいは文書に類似した話題であり、それらを比較するこ
とが可能となる。
るいは文書に類似した話題であり、それらを比較するこ
とが可能となる。
【0028】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
て図面を参照して説明する。
【0029】図1を参照すると、本発明の一実施形態の
情報潮流検索装置は、文書入力部10と文書記憶部10
2と情報潮流抽出部103と検索要求入力部104と情
報潮流検索部105と表示部106とで構成される。
情報潮流検索装置は、文書入力部10と文書記憶部10
2と情報潮流抽出部103と検索要求入力部104と情
報潮流検索部105と表示部106とで構成される。
【0030】本実施形態の情報潮流提示装置では、利用
者が、処理を施したい文書を文書入力部101で入力す
る。処理を施したい文書としては、コンピュータに入力
した文書すべてが含まれる。例えば、新聞記事やインタ
ーネット上のHTMLファイルやネットニュースや文字
放送やFM多重放送やテレビでの放送原稿等がある。
者が、処理を施したい文書を文書入力部101で入力す
る。処理を施したい文書としては、コンピュータに入力
した文書すべてが含まれる。例えば、新聞記事やインタ
ーネット上のHTMLファイルやネットニュースや文字
放送やFM多重放送やテレビでの放送原稿等がある。
【0031】文書記憶部102では、文書入力部101
において入力した情報を、情報発信媒体それぞれ、ある
いは情報発信媒体のいくつか、あるいはすべての情報発
信媒体全体の文書を取り出せるように記憶する。
において入力した情報を、情報発信媒体それぞれ、ある
いは情報発信媒体のいくつか、あるいはすべての情報発
信媒体全体の文書を取り出せるように記憶する。
【0032】情報潮流抽出部103では、文書集合から
の情報潮流の抽出を行う。文書入力部101で入力され
た文書集合に対し、「1999年」「1999年1月」
「1999年1月3日」などのような時間情報による分
類と、「“交通事故”の分類カテゴリ」「“8つ子誕
生”の分類カテゴリ」などのような話題による分類を施
す。各話題に分類された文書を時間情報を用いて並べ
て、情報潮流を生成する。
の情報潮流の抽出を行う。文書入力部101で入力され
た文書集合に対し、「1999年」「1999年1月」
「1999年1月3日」などのような時間情報による分
類と、「“交通事故”の分類カテゴリ」「“8つ子誕
生”の分類カテゴリ」などのような話題による分類を施
す。各話題に分類された文書を時間情報を用いて並べ
て、情報潮流を生成する。
【0033】検索要求入力部104では、利用者が、抽
出された情報潮流の中から、検索したい単語あるいは検
索したい情報が書かれた文書を指定して検索要求を出
す。
出された情報潮流の中から、検索したい単語あるいは検
索したい情報が書かれた文書を指定して検索要求を出
す。
【0034】情報潮流検索部105では、情報潮流抽出
部103で抽出された情報潮流の検索を行う。すなわ
ち、検索要求入力部104から入力された検索条件を満
たす文書あるいは分類カテゴリを各情報潮流から抽出
し、それらの検索条件との類似度を計算し、類似度の大
きい情報潮流から順番に検索結果として表示部106に
表示する。
部103で抽出された情報潮流の検索を行う。すなわ
ち、検索要求入力部104から入力された検索条件を満
たす文書あるいは分類カテゴリを各情報潮流から抽出
し、それらの検索条件との類似度を計算し、類似度の大
きい情報潮流から順番に検索結果として表示部106に
表示する。
【0035】本実施形態の処理の流れを具体例を用いて
説明する。
説明する。
【0036】本装置に入力する文書集合は、新聞社Aと
新聞社Bと新聞社Cのそれぞれの1988年から199
8年の新聞記事とする。文書集合を文書入力部101よ
り入力する。入力された文書は文書記憶部102に記憶
される。
新聞社Bと新聞社Cのそれぞれの1988年から199
8年の新聞記事とする。文書集合を文書入力部101よ
り入力する。入力された文書は文書記憶部102に記憶
される。
【0037】次に、情報潮流抽出部103で、入力され
た文書集合から情報潮流を抽出する。この結果から、例
えば、1996年の「“台風18号”の情報潮流」や1
997年の「“台風18号”の情報潮流」や1993年
の「“日本プロサッカーリーグ(Jリーグ)”の情報潮
流」や1994年の「“Jリーグ”の情報潮流」や19
94年の「“ワールドカップアメリカ大会”の情報潮
流」や1998年の「“ワールドカップフランス大会”
の情報潮流」などが抽出されたとする(図3)。
た文書集合から情報潮流を抽出する。この結果から、例
えば、1996年の「“台風18号”の情報潮流」や1
997年の「“台風18号”の情報潮流」や1993年
の「“日本プロサッカーリーグ(Jリーグ)”の情報潮
流」や1994年の「“Jリーグ”の情報潮流」や19
94年の「“ワールドカップアメリカ大会”の情報潮
流」や1998年の「“ワールドカップフランス大会”
の情報潮流」などが抽出されたとする(図3)。
【0038】次に、情報潮流検索部105で、必要な情
報潮流を検索する。例えば、「サッカー」の情報が欲し
いとする。検索要求入力部104からの検索要求として
「“サッカー”という単語を含む文書が存在する情報潮
流」を入力する(ステップ201)と、1993年の
「“日本プロサッカーリーグ(Jリーグ)”の情報潮
流」や1994年の「“Jリーグ”の情報潮流」や19
94年の「“ワールドカップアメリカ大会” の情報潮
流」や1998年の「“ワールドカップフランス大会”
の情報潮流」が単語「サッカー」を含む文書を含んで
おり、この条件に合う情報潮流として抽出される(図3
ステップ202、203)。表示する時の順序付けは、
例えば、順序付けする条件を「最近の情報潮流から」と
すれば、年数が新しいものから順に順序付けして表示部
105に表示する(ステップ204、205)。
報潮流を検索する。例えば、「サッカー」の情報が欲し
いとする。検索要求入力部104からの検索要求として
「“サッカー”という単語を含む文書が存在する情報潮
流」を入力する(ステップ201)と、1993年の
「“日本プロサッカーリーグ(Jリーグ)”の情報潮
流」や1994年の「“Jリーグ”の情報潮流」や19
94年の「“ワールドカップアメリカ大会” の情報潮
流」や1998年の「“ワールドカップフランス大会”
の情報潮流」が単語「サッカー」を含む文書を含んで
おり、この条件に合う情報潮流として抽出される(図3
ステップ202、203)。表示する時の順序付けは、
例えば、順序付けする条件を「最近の情報潮流から」と
すれば、年数が新しいものから順に順序付けして表示部
105に表示する(ステップ204、205)。
【0039】また、「台風」の情報が欲しいとする。検
索要求として「“台風”という単語を含む文書が存在す
る情報潮流」を用いる(ステップ201)と、1996
年の「“台風18号”の情報潮流」や1997年の
「“台風18号” の情報潮流」や、“台風により試合
が延期”という記事を含む1994年の「“Jリーグ”
の情報潮流」が単語「台風」を含む文書を含んでおり、
この条件に合う情報潮流として抽出される(ステップ2
02、203)。表示する時の順序付けは、例えば、順
序付けする条件を「単語と文書の類似度の総和が大きい
ものから」とすれば、台風の情報を多く含んでいない1
994年の「“Jリーグ”の情報潮流」よりも、199
6年の「“台風18号” の情報潮流」や1997年の
「“台風18号”の情報潮流」が、より上位に順序付け
され、表示部106に表示される(ステップ204、2
05)。
索要求として「“台風”という単語を含む文書が存在す
る情報潮流」を用いる(ステップ201)と、1996
年の「“台風18号”の情報潮流」や1997年の
「“台風18号” の情報潮流」や、“台風により試合
が延期”という記事を含む1994年の「“Jリーグ”
の情報潮流」が単語「台風」を含む文書を含んでおり、
この条件に合う情報潮流として抽出される(ステップ2
02、203)。表示する時の順序付けは、例えば、順
序付けする条件を「単語と文書の類似度の総和が大きい
ものから」とすれば、台風の情報を多く含んでいない1
994年の「“Jリーグ”の情報潮流」よりも、199
6年の「“台風18号” の情報潮流」や1997年の
「“台風18号”の情報潮流」が、より上位に順序付け
され、表示部106に表示される(ステップ204、2
05)。
【0040】図4は本発明の他の実施形態の情報潮流提
示装置である。本実施形態の情報潮流提示装置は入力装
置301と記憶装置302,303と出力装置304と
記録媒体305とデータ処理装置306で構成されてい
る。入力装置301は図1中の文書入力部101に相当
する。記憶装置302は図1中の文書記憶部102に相
当する。記憶装置303はハードディスクである。出力
装置304は図1中の表示部106に相当する。記録媒
体305は、図2に示す処理からなる情報潮流検索プロ
グラムが記録されている、FD(フロッピィ・ディス
ク)、CD−ROM、MO(光磁気ディスク)等の記録
媒体である。データ処理装置306は記録媒体305か
ら情報潮流検索プログラムを記憶装置303に読込ん
で、これを実行するCPUである。
示装置である。本実施形態の情報潮流提示装置は入力装
置301と記憶装置302,303と出力装置304と
記録媒体305とデータ処理装置306で構成されてい
る。入力装置301は図1中の文書入力部101に相当
する。記憶装置302は図1中の文書記憶部102に相
当する。記憶装置303はハードディスクである。出力
装置304は図1中の表示部106に相当する。記録媒
体305は、図2に示す処理からなる情報潮流検索プロ
グラムが記録されている、FD(フロッピィ・ディス
ク)、CD−ROM、MO(光磁気ディスク)等の記録
媒体である。データ処理装置306は記録媒体305か
ら情報潮流検索プログラムを記憶装置303に読込ん
で、これを実行するCPUである。
【0041】
【発明の効果】以上説明したように、本発明は、大量の
文書集合において、個々の文書が持つ話題の情報とその
文書が生成された時間の情報を用いて生成された大量の
情報潮流から、欲しい情報潮流だけを検索でき、それに
よって自分の欲しい情報とその話題の遷移を把握するこ
とが可能となる。
文書集合において、個々の文書が持つ話題の情報とその
文書が生成された時間の情報を用いて生成された大量の
情報潮流から、欲しい情報潮流だけを検索でき、それに
よって自分の欲しい情報とその話題の遷移を把握するこ
とが可能となる。
【図1】本発明の一実施形態の情報潮流検索装置の概略
構成を示すブロック図である。
構成を示すブロック図である。
【図2】図1の情報潮流検索装置での、検索要求の入力
から検索結果の表示までの処理を示すフローチャートの
一例である。
から検索結果の表示までの処理を示すフローチャートの
一例である。
【図3】図1の情報潮流検索装置の検索結果の一出力例
を示す図である。
を示す図である。
【図4】本発明の他の実施形態の情報潮流検索装置の構
成図である。
成図である。
【図5】従来の情報潮流提示装置によって得られた「台
風3号」に関する情報潮流を示す図である。
風3号」に関する情報潮流を示す図である。
【図6】従来の情報潮流提示装置によって得られた「小
学生殺人事件」に関する情報潮流を示す図である。
学生殺人事件」に関する情報潮流を示す図である。
101 文書入力部 102 文書記憶部 103 情報潮流抽出部 104 検索要求入力部 105 情報潮流検索部 106 表示部 201〜205 ステップ 301 入力装置 302,303 記憶装置 304 出力装置 305 記録媒体 306 データ処理装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 森 大二郎 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 NK06 NK10 NK31 NR12 PQ76 QM08
Claims (3)
- 【請求項1】 情報発信媒体から発信された大量の情報
の中から話題とその時間的な遷移を抽出し、検索する情
報潮流検索方法であって、 自然言語で記述された文書を入力する文書入力ステップ
と、 前記文書入力ステップで得た入力データを記憶する文書
記憶ステップと、 前記文書記憶ステップで記憶されている入力データを、
話題に応じて分類し、文書が発信された時間順に並べる
ことで、話題の遷移である情報潮流を抽出する情報潮流
抽出ステップと、 前記抽出された情報潮流の中から、検索したい単語ある
いは検索したい情報が書かれた文書を指定して検索要求
を出す検索要求入力ステップと、 前記検索要求入力ステップで指定された単語を含む文書
または指定された文書と前記情報潮流を比較し、情報潮
流に割り当てられている文書の検索要求に対する類似度
を求め、情報潮流を類似度が大きいものまたは最新のも
のから順序付ける情報潮流検索ステップと、 前記順序付けられた情報潮流を表示する表示ステップを
有する情報潮流検索方法。 - 【請求項2】 情報発信媒体から発信された大量の情報
の中から話題とその時間的な遷移を抽出し、検索する情
報潮流検索装置であって、 自然言語で記述された文書を入力する文書入力部と、 前記文書入力部で得た入力データを記憶する文書記憶部
と、 前記文書記憶部に記憶されている入力データを、話題に
応じて分類し、文書が発信された時間順に並べること
で、話題の遷移である情報潮流を抽出する情報潮流抽出
部と、 前記抽出された情報潮流の中から、検索したい単語ある
いは検索したい情報が書かれた文書を指定して検索要求
を出す検索要求入力部と、 前記検索要求入力部で指定された単語を含む文書または
指定された文書と前記情報潮流を比較し、情報潮流に割
り当てられている文書の検索要求に対する類似度を求
め、情報潮流を類似度が大きいものまたは最新のものか
ら順序付ける情報潮流検索部と、 前記順序付けられた情報潮流を表示する表示部を有する
情報潮流検索装置。 - 【請求項3】 情報発信媒体から発信された大量の情報
の中から話題とその時間的な遷移を抽出し検索する情報
潮流検索プログラムであって、 自然言語で記述された文書を記憶装置に記憶する文書記
憶手順と、 前記文書記憶手順で記憶された入力データを、話題に応
じて分類し、文書が発信された時間順に並べることで、
話題の遷移である情報潮流を抽出する情報潮流抽出手順
と、 前記抽出された情報潮流の中から、検索したい単語ある
いは検索したい情報が書かれた文書を指定した検索要求
で指定された単語を含む文書または指定された文書と前
記情報潮流を比較し、情報潮流に割り当てられている文
書の検索要求に対する類似度を求め、情報潮流を類似度
が大きいものまたは最新のものからから順序付ける情報
潮流検索手順と、 前記順序付けられた情報潮流を表示装置に表示する表示
手順をコンピュータに実行させるための情報潮流検索プ
ログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11040271A JP2000242652A (ja) | 1999-02-18 | 1999-02-18 | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11040271A JP2000242652A (ja) | 1999-02-18 | 1999-02-18 | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000242652A true JP2000242652A (ja) | 2000-09-08 |
Family
ID=12575986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11040271A Pending JP2000242652A (ja) | 1999-02-18 | 1999-02-18 | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000242652A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145753A (ja) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置及び文書検索プログラム |
WO2006030751A1 (ja) * | 2004-09-14 | 2006-03-23 | Intellectual Property Bank Corp. | 文書を時系列に配置した文書相関図の作成装置 |
JP2006338086A (ja) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | 話題規模管理装置 |
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
CN100462966C (zh) * | 2004-09-14 | 2009-02-18 | 株式会社Ipb | 将文件配置成时间序列的文件相关图的制成装置 |
JP2009087002A (ja) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | 市場分析支援方法 |
JP2009087000A (ja) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | 市場分析支援方法 |
JP2009086998A (ja) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | 市場分析支援方法 |
WO2009113266A1 (ja) * | 2008-03-10 | 2009-09-17 | パナソニック株式会社 | コンテンツ検索装置及びコンテンツ検索方法 |
JP2013206434A (ja) * | 2012-03-29 | 2013-10-07 | Nippon Telegr & Teleph Corp <Ntt> | 時間条件提示方法及び装置及びプログラム |
JPWO2020234930A1 (ja) * | 2019-05-17 | 2020-11-26 |
-
1999
- 1999-02-18 JP JP11040271A patent/JP2000242652A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145753A (ja) * | 2002-10-25 | 2004-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索方法及び装置及び文書検索プログラム |
CN100462966C (zh) * | 2004-09-14 | 2009-02-18 | 株式会社Ipb | 将文件配置成时间序列的文件相关图的制成装置 |
WO2006030751A1 (ja) * | 2004-09-14 | 2006-03-23 | Intellectual Property Bank Corp. | 文書を時系列に配置した文書相関図の作成装置 |
JP2006338086A (ja) * | 2005-05-31 | 2006-12-14 | Nomura Research Institute Ltd | 話題規模管理装置 |
JP4595692B2 (ja) * | 2005-06-15 | 2010-12-08 | 日本電信電話株式会社 | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2006350656A (ja) * | 2005-06-15 | 2006-12-28 | Nippon Telegr & Teleph Corp <Ntt> | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
JP2009087002A (ja) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | 市場分析支援方法 |
JP2009087000A (ja) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | 市場分析支援方法 |
JP2009086998A (ja) * | 2007-09-28 | 2009-04-23 | Mazda Motor Corp | 市場分析支援方法 |
WO2009113266A1 (ja) * | 2008-03-10 | 2009-09-17 | パナソニック株式会社 | コンテンツ検索装置及びコンテンツ検索方法 |
US8073851B2 (en) | 2008-03-10 | 2011-12-06 | Panasonic Corporation | Content searching device and content searching method |
JP2013206434A (ja) * | 2012-03-29 | 2013-10-07 | Nippon Telegr & Teleph Corp <Ntt> | 時間条件提示方法及び装置及びプログラム |
JPWO2020234930A1 (ja) * | 2019-05-17 | 2020-11-26 | ||
US11989222B2 (en) | 2019-05-17 | 2024-05-21 | Aixs, Inc. | Cluster analysis method, cluster analysis system, and cluster analysis program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6938025B1 (en) | Method and apparatus for automatically determining salient features for object classification | |
US6654742B1 (en) | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics | |
US7505956B2 (en) | Method for classification | |
US6751776B1 (en) | Method and apparatus for personalized multimedia summarization based upon user specified theme | |
US8452760B2 (en) | Relevancy presentation apparatus, method, and program | |
US8073851B2 (en) | Content searching device and content searching method | |
JP5886733B2 (ja) | 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム | |
US20080235209A1 (en) | Method and apparatus for search result snippet analysis for query expansion and result filtering | |
JP6429382B2 (ja) | コンテンツ推薦装置、及びプログラム | |
JP2009043156A (ja) | 番組検索装置および番組検索方法 | |
JPWO2006019101A1 (ja) | コンテンツ関連情報取得装置、コンテンツ関連情報取得方法、およびコンテンツ関連情報取得プログラム | |
KR20180027278A (ko) | 검색 방법 및 장치 | |
CN102054003A (zh) | 网络信息推荐、建立网络资源索引的方法及系统 | |
JP5306114B2 (ja) | クエリ抽出装置、クエリ抽出方法およびクエリ抽出プログラム | |
CN101261629A (zh) | 基于自动分类技术的特定信息搜索方法 | |
JP2000242652A (ja) | 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体 | |
JP2005107688A (ja) | 情報表示方法及びシステム及び情報表示プログラム | |
JP2004178123A (ja) | 情報処理装置、該情報処理装置を実現するためのプログラム | |
JP4375626B2 (ja) | カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法 | |
JPH11282875A (ja) | 情報フィルタリング装置 | |
EP2595065A1 (en) | Categorizing data sets | |
CN111737567A (zh) | 一种网络文学新书推荐的方法 | |
JP3669167B2 (ja) | 他者グループ嗜好情報を利用した情報提供方法及び情報提供装置、並びに、情報提供プログラムを記録した記録媒体 | |
Ferragina et al. | The anatomy of a hierarchical clustering engine for web-page, news and book snippets | |
JP3964728B2 (ja) | 情報検索方法及びその装置、並びに該方法の実行プログラム及び該方法の実行プログラムを記録した記録媒体 |