[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP3656986B2 - Related discovery type information browsing system - Google Patents

Related discovery type information browsing system Download PDF

Info

Publication number
JP3656986B2
JP3656986B2 JP2000035293A JP2000035293A JP3656986B2 JP 3656986 B2 JP3656986 B2 JP 3656986B2 JP 2000035293 A JP2000035293 A JP 2000035293A JP 2000035293 A JP2000035293 A JP 2000035293A JP 3656986 B2 JP3656986 B2 JP 3656986B2
Authority
JP
Japan
Prior art keywords
content
document information
profile
user
browsing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000035293A
Other languages
Japanese (ja)
Other versions
JP2001229167A (en
Inventor
伸治 安部
聡 井上
佳伸 外村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000035293A priority Critical patent/JP3656986B2/en
Publication of JP2001229167A publication Critical patent/JP2001229167A/en
Application granted granted Critical
Publication of JP3656986B2 publication Critical patent/JP3656986B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、HTMLを始めとするマルチメディア文書の蓄積・検索等の分野において、文書情報コンテンツ間の関連と、利用者の興味と、コンテンツとの間の関連を同時に構造的に提示し、しかも、閲覧利用者の興味の変化に追従して、常に適切な文書情報コンテンツを構造的に提示することによって、漠然とした検索意図を持った閲覧利用者が、キーワード等を用いて明示的に自分の興味を表現できない場合でも、関連発見的に興味にあった文書情報コンテンツとの出会いへ導くための文書情報コンテンツ閲覧に関する。
【0002】
【従来の技術】
検索は、質問を記述することによって、大量の情報の中から該当する情報を抽出する手法である。一般の利用者を想定した場合、質問は自然言語表現を用いるのが自然であるが、現状では、システム側の自然言語理解能力が実用レベルに至っていないので、質問には単数または複数の検索キーワードを使用することが多い。また、複数の検索キーワードを使用する場合には、and/or等、上記複数のキーワード間の結合形式を表す論理記号を使用する。
【0003】
大量の検索対象コンテンツに対して、利用者が、明確な意図を持ち、また、上記意思をシステム側に理解させるだけの能力を持っている場合、言語的な検索キーは、効率的であり、全文検索型であり、しかも極めて強力な検索エンジンが多数存在している。たとえば、Web上のHTMLドキュメントの検索システムとしては、gooやInfoSeek等が存在する。
【0004】
また、WWWは、HTML文書中にURLで示されるリンクを持たせることによって、世界中のWWWサーバに分散する多種多様な情報を閲覧することができる。
【0005】
【発明が解決しようとする課題】
情報の候補数を減少させ、情報を横断的に扱う手段として、キーワード検索が広く使われている。
【0006】
しかし、キーワード検索で得られる全ての情報がユーザの興味に深く関連するとは限らないという問題がある。また、ユーザが自分の興味をキーワードとしてうまく表現できない場合には、利用が難しいという問題がある。
【0007】
特に、明確な意図を持たずに、カタログやガイドブック等を眺め見るように、ある種の情報ブラウジングの過程を支援するためのツールとして、上記キーワード検索の手法を用いることは、次の理由から、必ずしも効率的とは言えない。
(1)漠然とした興味や意図をキーワードで表現することが難しい。
(2)ユーザがその分野に詳しくない場合には、適切なキーワードを知らない可能性がある。
(3)興味の対象や視点が刻一刻と移り変わるような場合、これに追従するような検索を実現することが難しい。
【0008】
また、WWWは、文書中にURLで示されるリンクを持たせることによって、世界中のWWWサーバに分散する多種多様な情報を閲覧できる。しかし、ここで表現されるリンクは、文書作成者の立場に基づいた、コンテンツ依存性の強いリンクであり、利用者の興味を反映させるようには構成されていないので、リンクを辿った場合、ユーザの興味に応じた情報を閲覧することは必ずしも容易ではない。
【0009】
つまり、リンクは、文書の著者によって明示的に張られたものであり、互いに関連する複数の文書同士であっても、著者がその関連を意識しなければ、互いに無関係の文書であるという扱いになる。したがって、興味や視点の変化は、著者によって張られた範囲でのみ、実現されるという問題がある。
【0010】
本発明は、特に明確な意図を持たずに、カタログやガイドブック等を眺め見るように、文書情報コンテンツを、直感的に提示し、閲覧することができる関連発見型情報閲覧システム、関連発見型情報閲覧方法および記録媒体を提供することを目的とするものである。
【0011】
また、本発明は、特に明確な意図を持たずに、カタログやガイドブック等を眺め見るように、文書情報コンテンツを、直感的に提示し、閲覧することができ、しかも、閲覧ユーザの興味に深く関連すると思われる情報文書情報コンテンツを、情報間の関連や構造とともに、直感的に提示し、閲覧することができる関連発見型情報閲覧システム、関連発見型情報閲覧方法および記録媒体を提供することを目的とするものである。
【0012】
【課題を解決するための手段】
本発明は、複数の文書情報コンテンツを、蓄積する文書情報コンテンツ蓄積手段と、上記文書情報コンテンツの全文書を形態素解析し、出現頻度の高い名詞を上位からN個選び、次いで、各文書について、上記N個の名詞のそれぞれの出現頻度を表すN次元のベクトルを構成してコンテンツプロファイルを生成するコンテンツプロファイル生成手段と、上記文書情報コンテンツを表す代表画像であるサムネイルを提示するとともに、所定の閲覧利用者によってサムネイルがクリックされると、対応するコンテンツの詳細文書情報を提示する提示手段と、複数の文書情報コンテンツに対応する複数のサムネイルが閲覧利用者によって順次クリックされると、閲覧利用者によって閲覧された文書情報コンテンツに対応するコンテンツプロファイルの最新の所定回数の履歴から、コンテンツプロファイルの要素毎の平均値を各要素とするN次元の、閲覧利用者の興味を表すユーザプロファイルを演算するユーザプロファイル生成手段と、蓄積された複数の文書情報コンテンツに対し、2つのコンテンツプロファイルの間の関連の度合いをベクトルの距離尺度を用いて表し、コンテンツプロファイルの間の関連の度合いを、多次元尺度構成法を用いて2次元平面空間上の距離尺度として表現し、2次元平面上の文書情報コンテンツの配置座標を計算する第1のサムネイル配置演算手段と、上記ユーザプロファイルと各コンテンツプロファイルとの間の類似度を、ベクトルの大きさを正規化し、対応するベクトル要素間の距離の和に基づいてそれぞれ演算し、3次元的な提示手段を用いて画面垂直方向に演算された類似度が高いコンテンツに対応するサムネイル程、手前に配置するように反映して上記文書情報コンテンツの配置座標を演算する第2のサムネイル配置演算手段とを有することを特徴とする関連発見型情報閲覧システムである。
【0013】
【発明の実施の形態および実施例】
図1は、本発明の実施の形態である装置の構成例を示すブロック図である。
【0014】
図2は、提示コンテンツの決定・配置のためのアルゴリズムを図式的に説明する為の図である。
【0015】
図3は、上記実施例の動作を示すフローチャートである。
【0016】
本装置は、文書情報コンテンツを蓄積する文書コンテンツ蓄積部1と、コンテンツの検索のための書誌情報であるコンテンツプロファイルを検出するコンテンツプロファイル生成部2と、閲覧利用者の興味・指向をあらわすユーザプロファイルを検出するユーザプロファイル生成部3と、コンテンツプロファイルおよびユーザプロファイルを用いて情報コンテンツ提示・配置を演算・決定するための提示コンテンツ決定・配置部4と、閲覧利用者に対する情報コンテンツの提示と情報コンテンツに対する利用者の閲覧操作を可能とする情報コンテンツ提示部5とで構成されている。
【0017】
まず、閲覧対象である大量の文書情報コンテンツを文書コンテンツ蓄積部1に記録蓄積する。
【0018】
あるいは、文書情報コンテンツ自体は本システム内部に必ずしも記録蓄積されている必要はなく、ネットワーク上に分散している情報コンテンツに対しても、コンテンツプロファイルと文書情報コンテンツに対するリンクとを文書コンテンツ蓄積部1に蓄積記録しておいても、本発明の目的は達成される。
【0019】
次に、コンテンツの検索のための書誌情報であるコンテンツプロファイルを検出するコンテンツプロファイル生成部2では、文書を形態素解析にかけ名詞を抽出、各名詞の文書中における出現数を求め、各名詞とそれらの出現数をコンテンツプロファイルとして記録保持する。コンテンツプロファイル並びにその検出手法の例としてたとえば次のような方法がある。
【0020】
まず、蓄積対象の文書全てを形態素解析にかけ名詞を抽出する。次いで、全ての文書にわたって出現頻度の高い名詞を上位からN個選び出す。次いで、各々の文書において、N個の名詞それぞれの出現数を表す次のようなN次元のキーワードベクトルを構成してコンテンツプロファイルとする。この例を図4に示してある。
【0021】
図4は、上記実施例において、選ばれたN種類の名詞と、文書中の出現数(キーワードベクトル)との対応例を示す図である。
【0022】
次に、閲覧利用者が情報コンテンツの閲覧を開始したら、閲覧利用者の興味・指向をあらわすユーザプロファイルを検出するユーザプロファイル生成部3では、閲覧利用者が閲覧した情報コンテンツの履歴をもとにユーザプロファイルを逐次生成する。ユーザプロファイルおよびその生成手法の例としてたとえば次のような方法がある。
【0023】
閲覧利用者が次々と情報コンテンツを閲覧している状況において、現時点から遡り過去M個の閲覧コンテンツのコンテンツプロファイル(キーワードベクトル)の要素毎の平均値を各要素とするようなN次元のベクトルを構成し、これをユーザプロファイルとする。たとえばM=3の場合には、図5に示すようになる。
【0024】
図5は、上記実施例において、時刻t−2に閲覧したコンテンツのプロファイルと、時刻t−1に閲覧したコンテンツのプロファイルと、現時点tに閲覧したコンテンツのプロファイルと、現時点tにおけるユーザプロファイルとの対応例を示す図である。
このとき、コンテンツプロファイルおよびユーザプロファイルを用いて情報コンテンツ提示・配置を演算決定するための提示コンテンツ決定・配置部4では、複数の情報コンテンツ間の関連の度合いを、コンテンツプロファイルをもとに計算する。また、ユーザの興味・指向と情報コンテンツとの間の関連の度合いをコンテンツプロファイルとユーザプロファイルをもとに計算する。たとえば、コンテンツ間のプロファイルの関連の度合いを次のようなベクトルの距離尺度を用いてあらわすことができる。
【0025】
コンテンツiに対するコンテンツプロファイルベクトル
i=(ci,1,ci,2,…,ci,N
コンテンツiとコンテンツjとの関連度合い
【0026】
【数1】

Figure 0003656986
次に提示コンテンツ決定・配置部4では、全ての情報コンテンツの間の関連度合いを多次元尺度構成法を用いて2次元平面空間上の距離尺度として表現し、2次元平面上のコンテンツの配置(座標)を計算しておく。
【0027】
また、たとえば、ユーザプロファイルとコンテンツプロファイルとの類似度を次の計算によって求めることができる。
【0028】
コンテンツプロファイルベクトルVc=(c1,c2…)
ユーザプロファイルベクトルVu=(u1,u2…)
ユーザプロファイルとコンテンツプロファイルとの類似度
【0029】
【数2】
Figure 0003656986
閲覧利用者に対する情報コンテンツの提示と情報コンテンツに対する利用者の閲覧操作を可能とする情報コンテンツ提示部5では、提示コンテンツ決定・配置部4において計算された、情報コンテンツ間の関連と、利用者の興味・指向とコンテンツの間の関連を同時に構造的に提示し、かつ、閲覧利用者の興味・指向の変化に追従して常に適切な情報コンテンツ(サムネイル)を構造的に提示する。たとえば、図1の左側画面のように、コンテンツ間の関連、すなわち多次元尺度構成法を用いて計算された2次元平面上の位置、を画面並行平面方向に提示する(関連の大きい文書のサムネイル同士は平面方向近く、関連の薄い文書のサムネイル同士は離れて提示する)。また、閲覧利用者の興味・指向を反映したユーザプロファイルと各々のコンテンツプロファイルとの類似度をVRML等のような3次元的な提示手段を用いて画面垂直方向に提示する(利用者の興味・指向に近いコンテンツのサムネイルほど手前に提示する)。
【0030】
図2は、提示コンテンツの決定・配置のためのアルゴリズムを図式的に説明するための図である。図2において、もっとも右側の平面は、提示コンテンツ決定・配置部4で、式(1)を用いて計算した全ての情報コンテンツの間の関連度合いを、多次元尺度構成法を用いて2次元平面空間上の距離尺度として表現し、2次元平面上のコンテンツの配置(座標)を計算して作成した平面である。
【0031】
提示コンテンツ決定・配置部4ではさらに、ユーザプロファイルベクトルと各々のコンテンツとの類似度を式(2)を用いて計算し、類似度が図2の中ほどの提示閾値を超えたコンテンツのサムネイルを情報コンテンツ提示部5に提示する。このときの閲覧利用者の視点からの距離は、図2のように式(2)による類似度をもとに提示位置が決定される。したがって、閲覧利用者の興味・指向に近いコンテンツほど画面上手前に提示されることになる。
【0032】
情報コンテンツ提示部5では、閲覧利用者がコンテンツをあらわすサムネイルをクリックすることにより、情報コンテンツの詳細が提示されるとともに、閲覧履歴がユーザプロファイル生成部3に送信される。
【0033】
閲覧履歴の送信によって、ユーザプロファイル生成部3内部で式(2)によるユーザプロファイルの更新が行われ、情報コンテンツ提示部5に提示されるコンテンツサムネイルおよびその配置(奥行き方向の配置)が逐次変更される。
【0034】
また、文書コンテンツ蓄積部1は、複数の文書情報コンテンツを、蓄積する文書情報コンテンツ蓄積手段の例である。
【0035】
コンテンツプロファイル生成部2は、文書情報コンテンツの文書から、その文書内容を表すベクトル型データであるコンテンツプロファイルを生成するコンテンツプロファイル生成手段の例である。
【0036】
ユーザプロファイル生成部3は、複数の文書情報コンテンツに対応する複数のサムネイルが閲覧利用者によって順次クリックされると、閲覧利用者によって閲覧された情報コンテンツに対応するコンテンツプロファイルの履歴から、閲覧利用者の興味を表すユーザプロファイルを演算するユーザプロファイル生成手段の例である。
【0037】
図1において、「イ鮨」、「ロすし」、「ハ寿司」、「竹そば」等がサムネイルの例である。
【0038】
提示コンテンツ決定・配置部4は、蓄積された複数の情報コンテンツに対応する複数のコンテンツプロファイルの間の類似度を演算することと、上記ユーザプロファイルとコンテンツプロファイルとの間の類似度を演算することにより、上記提示手段上へのサムネイルの配置を演算するサムネイル配置演算手段の例である。
【0039】
文書情報コンテンツ提示部5は、文書情報コンテンツを表す代表画像であるサムネイルを提示するとともに、所定の閲覧利用者によってサムネイルがクリックされると、対応するコンテンツの詳細文書情報を提示する提示手段の例である。
【0040】
また、上記サムネイル配置演算手段は、上記文書コンテンツに対する閲覧利用者の興味の度合いが高いコンテンツに対応するサムネイルほど、手前に配置するように演算する手段であり、上記閲覧利用者が所定のサムネイルをクリックする毎に、上記提示手段に提示する上記サムネイルの配置を演算しなおす手段であり上記文書情報コンテンツ同士の関連が強いほど、互いの平面距離を短くするように、サムネイルの配置を演算する手段である。
【0041】
なお、上記実施例を、記録媒体の発明として把握することができる。つまり、上記実施例は、複数の文書情報コンテンツを、蓄積する文書情報コンテンツ蓄積手順と、上記文書情報コンテンツの文書から、その文書内容を表すベクトル型データであるコンテンツプロファイルを生成するコンテンツプロファイル生成手順と、上記文書情報コンテンツを表す代表画像であるサムネイルを提示するとともに、所定の閲覧利用者によってサムネイルがクリックされると、対応するコンテンツの詳細文書情報を提示する提示手順と、複数の文書情報コンテンツに対応する複数のサムネイルが閲覧利用者によってクリックされると、閲覧利用者によって閲覧された情報コンテンツに対応するコンテンツプロファイルの履歴から、閲覧利用者の興味を表すユーザプロファイルを演算するユーザプロファイル生成手順と、蓄積された複数の情報コンテンツに対応する複数のコンテンツプロファイルの間の類似度を演算することと、上記ユーザプロファイルとコンテンツプロファイルとの間の類似度を演算することにより、提示手段上へのサムネイルの配置を演算するサムネイル配置演算手順とをコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体の例である。
【0042】
また、上記記録媒体の例としては、FD、CD、DVD、HD、半導体メモリが考えられる。
【0043】
【発明の効果】
本発明によれば、閲覧ユーザの興味に深く関連すると思われる文書情報コンテンツを、直感的に提示し、閲覧させることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施の形態である装置の構成例を示すブロック図である。
【図2】提示コンテンツの決定・配置のためのアルゴリズムを図式的に説明するための図である。
【図3】上記実施例の動作を示すフローチャートである。
【図4】上記実施例において、選ばれたN種類の名詞と、文書中の出現数(キーワードベクトル)との対応例を示す図である。
【図5】上記実施例において、時刻t−2に閲覧したコンテンツのプロファイルと、時刻t−1に閲覧したコンテンツのプロファイルと、現時点tに閲覧したコンテンツのプロファイルと、現時点tにおけるユーザプロファイルとの対応例を示す図である。
【符号の説明】
100…関連発見型情報閲覧システム、
1…文書コンテンツ蓄積部、
2…コンテンツプロファイル生成部、
3…ユーザプロファイル生成部、
4…提示コンテンツ決定・配置部、
5…文書情報コンテンツ提示部。[0001]
BACKGROUND OF THE INVENTION
The present invention structurally presents relations between document information contents, user interests, and relations at the same time in the field of storage and retrieval of multimedia documents such as HTML. By following the changes in the browsing user's interest and constantly presenting appropriate document information content in a structured manner, browsing users with vague search intentions can express their own The present invention relates to browsing of document information content to lead to encounter with document information content that is interested in related discoveries even when the interest cannot be expressed.
[0002]
[Prior art]
Search is a technique for extracting relevant information from a large amount of information by describing a question. Assuming general users, it is natural to use natural language expressions for questions, but at present, the natural language comprehension ability of the system has not reached a practical level, so there are one or more search keywords for questions. Is often used. Further, when a plurality of search keywords are used, a logical symbol representing a combined form between the plurality of keywords such as and / or is used.
[0003]
If a user has a clear intention for a large amount of search target content and has the ability to make the system understand the above intention, the linguistic search key is efficient. There are many full-text search engines and extremely powerful search engines. For example, as a search system for HTML documents on the Web, there are goo and InfoSeek.
[0004]
The WWW can browse a wide variety of information distributed to WWW servers around the world by providing a link indicated by a URL in an HTML document.
[0005]
[Problems to be solved by the invention]
Keyword search is widely used as a means of reducing the number of information candidates and handling information across the board.
[0006]
However, there is a problem that not all information obtained by keyword search is deeply related to the user's interest. In addition, when the user cannot express his / her interest as a keyword well, there is a problem that it is difficult to use.
[0007]
In particular, using the above keyword search method as a tool to support certain information browsing processes, such as looking at catalogs and guidebooks without clear intentions, is as follows. It is not necessarily efficient.
(1) It is difficult to express vague interests and intentions with keywords.
(2) If the user is not familiar with the field, the user may not know the appropriate keyword.
(3) When the object or viewpoint of interest changes from moment to moment, it is difficult to realize a search that follows this.
[0008]
In addition, the WWW can browse a wide variety of information distributed to WWW servers around the world by providing a link indicated by a URL in a document. However, the link expressed here is a content-dependent link based on the author's position and is not configured to reflect the user's interests. It is not always easy to browse information according to the user's interest.
[0009]
In other words, a link is explicitly set by the author of a document, and even if multiple documents are related to each other, if the author is not aware of the relationship, the link is treated as an unrelated document. Become. Therefore, there is a problem that changes in interest and viewpoint can be realized only within the scope set by the author.
[0010]
The present invention relates to a related discovery type information browsing system and a related discovery type capable of intuitively presenting and browsing document information contents so as to look at a catalog or a guidebook without particularly having a clear intention. An object is to provide an information browsing method and a recording medium.
[0011]
In addition, the present invention can intuitively present and browse document information contents as if looking at a catalog or a guidebook without having a clear intention, and is also of interest to the browsing user. To provide a related discovery type information browsing system, a related discovery type information browsing method, and a recording medium capable of intuitively presenting and browsing information document information contents that are considered to be deeply related, together with relationships and structures between information. It is intended.
[0012]
[Means for Solving the Problems]
The present invention provides a document information content storage means for storing a plurality of document information contents, morphologically analyzes all documents of the document information contents, selects N nouns having a high appearance frequency from the top, and then, for each document, Presenting content profile generation means for generating a content profile by constructing an N-dimensional vector representing the appearance frequency of each of the N nouns, and a thumbnail that is a representative image representing the document information content, and predetermined browsing When a thumbnail is clicked by the user, a presentation means for presenting detailed document information of the corresponding content, and when a plurality of thumbnails corresponding to a plurality of document information contents are sequentially clicked by the browsing user, the browsing user Content profile corresponding to the viewed document information content User profile generation means for calculating an N-dimensional user profile representing the interest of the browsing user from the latest predetermined number of histories as an average value for each element of the content profile, and a plurality of stored document information For content, the degree of association between two content profiles is represented using a vector distance measure, and the degree of association between content profiles is represented as a distance measure in a two-dimensional plane space using a multidimensional scaling method. First thumbnail arrangement calculation means for calculating the arrangement coordinates of the document information content on the two-dimensional plane, the similarity between the user profile and each content profile, the vector size is normalized, Each screen is calculated based on the sum of the distances between the corresponding vector elements, and the screen is displayed using a three-dimensional presentation means. And a second thumbnail arrangement calculating means for calculating the arrangement coordinates of the document information contents by reflecting the thumbnails corresponding to the contents having a higher similarity calculated in the straight direction so that the thumbnails are arranged in front. It is a related discovery type information browsing system.
[0013]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 is a block diagram showing a configuration example of an apparatus according to an embodiment of the present invention.
[0014]
FIG. 2 is a diagram for schematically explaining an algorithm for determining and arranging the presented content.
[0015]
FIG. 3 is a flowchart showing the operation of the above embodiment.
[0016]
The apparatus includes a document content storage unit 1 that stores document information content, a content profile generation unit 2 that detects a content profile that is bibliographic information for content search, and a user profile that represents the interest and orientation of a browsing user. A user profile generation unit 3 for detecting information, a presentation content determination / arrangement unit 4 for calculating / determining information content presentation / arrangement using the content profile and the user profile, and presentation of information content to the browsing user and information content And an information content presentation unit 5 that enables the user to perform browsing operations.
[0017]
First, a large amount of document information content to be browsed is recorded and accumulated in the document content accumulation unit 1.
[0018]
Alternatively, the document information content itself does not necessarily need to be recorded and accumulated in the system, and the content profile and a link to the document information content are also linked to the information content distributed on the network. The object of the present invention can be achieved even if it is stored and recorded in the memory.
[0019]
Next, in the content profile generation unit 2 that detects a content profile that is bibliographic information for content search, the document is subjected to morphological analysis to extract nouns, find the number of occurrences of each noun in the document, Record the number of appearances as a content profile. Examples of content profiles and detection methods thereof include the following methods.
[0020]
First, all documents to be accumulated are subjected to morphological analysis to extract nouns. Next, N nouns having a high appearance frequency are selected from the top in all documents. Next, in each document, the following N-dimensional keyword vector representing the number of appearances of each of the N nouns is constructed to form a content profile. An example of this is shown in FIG.
[0021]
FIG. 4 is a diagram showing an example of correspondence between the selected N types of nouns and the number of appearances (keyword vector) in the document in the above embodiment.
[0022]
Next, when the browsing user starts browsing the information content, the user profile generation unit 3 that detects a user profile that represents the browsing user's interest / direction is based on the history of the information content browsed by the browsing user. User profiles are generated sequentially. Examples of the user profile and its generation method include the following method.
[0023]
In a situation where the browsing user is browsing information content one after another, an N-dimensional vector that takes the average value for each element of the content profile (keyword vector) of the past M browsing contents from the current time as each element Configure this as a user profile. For example, when M = 3, the result is as shown in FIG.
[0024]
FIG. 5 shows the content profile browsed at time t-2, the content profile browsed at time t-1, the content profile browsed at the current time t, and the user profile at the current time t in the above embodiment. It is a figure which shows a correspondence example.
At this time, the presentation content determination / arrangement unit 4 for calculating and determining information content presentation / arrangement using the content profile and the user profile calculates the degree of association between a plurality of information contents based on the content profile. . Also, the degree of association between the user's interest and orientation and the information content is calculated based on the content profile and the user profile. For example, the degree of profile relationship between contents can be expressed using the following vector distance measure.
[0025]
Content profile vector V i = (c i, 1 , c i, 2 ,..., C i, N ) for content i
Degree of association between content i and content j
[Expression 1]
Figure 0003656986
Next, the presentation content determination / arrangement unit 4 expresses the degree of association between all information contents as a distance scale in the two-dimensional plane space using a multidimensional scale construction method, and arranges the contents on the two-dimensional plane ( Calculate the coordinates).
[0027]
For example, the similarity between the user profile and the content profile can be obtained by the following calculation.
[0028]
Content profile vector V c = (c 1 , c 2 ...)
User profile vector V u = (u 1 , u 2 ...)
Similarity between user profile and content profile
[Expression 2]
Figure 0003656986
In the information content presentation unit 5 that enables the presentation of information content to the browsing user and the browsing operation of the user with respect to the information content, the relationship between the information contents calculated by the presentation content determination / placement unit 4 and the user's The relationship between interest / orientation and content is structurally presented at the same time, and appropriate information content (thumbnail) is always presented structurally following changes in the browsing user's interest / orientation. For example, as shown in the left screen of FIG. 1, a relation between contents, that is, a position on a two-dimensional plane calculated by using a multidimensional scaling method is presented in a screen parallel plane direction (a thumbnail of a document with a large relation). They are close to each other in the plane direction, and thumbnails of documents that are not related to each other are presented separately). Also, the degree of similarity between the user profile reflecting the interest and orientation of the browsing user and each content profile is presented in the vertical direction on the screen using a three-dimensional presentation means such as VRML. Display thumbnails of content that is closer to orientation in the foreground).
[0030]
FIG. 2 is a diagram for schematically explaining an algorithm for determining and arranging the presented content. In FIG. 2, the rightmost plane is a two-dimensional plane that uses the multi-dimensional scale construction method to show the degree of association between all information contents calculated by the presentation content determination / arrangement unit 4 using Expression (1). It is a plane created by calculating the arrangement (coordinates) of content on a two-dimensional plane, expressed as a distance measure in space.
[0031]
Further, the presentation content determination / arrangement unit 4 calculates the similarity between the user profile vector and each content using the formula (2), and selects a thumbnail of the content whose similarity exceeds the presentation threshold value in the middle of FIG. Presented to the information content presentation unit 5. As for the distance from the viewpoint of the browsing user at this time, the presentation position is determined based on the similarity according to the equation (2) as shown in FIG. Therefore, the content closer to the browsing user's interest and orientation is presented in front of the screen.
[0032]
In the information content presentation unit 5, when the browsing user clicks on a thumbnail representing the content, details of the information content are presented, and a browsing history is transmitted to the user profile generation unit 3.
[0033]
By transmitting the browsing history, the user profile is updated in accordance with the expression (2) in the user profile generation unit 3, and the content thumbnails to be presented to the information content presentation unit 5 and their arrangement (arrangement in the depth direction) are sequentially changed. The
[0034]
The document content storage unit 1 is an example of a document information content storage unit that stores a plurality of document information contents.
[0035]
The content profile generation unit 2 is an example of content profile generation means for generating a content profile that is vector type data representing the document content from a document of document information content.
[0036]
When a plurality of thumbnails corresponding to a plurality of document information contents are sequentially clicked by the browsing user, the user profile generation unit 3 reads the browsing user from the history of the content profile corresponding to the information content browsed by the browsing user. It is an example of the user profile production | generation means which calculates the user profile showing a user's interest.
[0037]
In FIG. 1, “Imo”, “Rosushi”, “Ha Sushi”, “Take Soba”, etc. are examples of thumbnails.
[0038]
The presented content determination / arrangement unit 4 calculates a similarity between a plurality of content profiles corresponding to a plurality of accumulated information contents, and calculates a similarity between the user profile and the content profile. This is an example of the thumbnail arrangement calculation means for calculating the arrangement of thumbnails on the presentation means.
[0039]
The document information content presentation unit 5 presents a thumbnail that is a representative image representing the document information content, and presents detailed document information of the corresponding content when the thumbnail is clicked by a predetermined browsing user. It is.
[0040]
Further, the thumbnail arrangement calculation means is a means for calculating so that thumbnails corresponding to contents having a higher degree of interest of the browsing user with respect to the document content are arranged in front, and the browsing user selects a predetermined thumbnail. Means for recalculating the arrangement of the thumbnails presented to the presentation means each time the user clicks, and means for calculating the arrangement of the thumbnails so that the planar distance between the document information contents becomes shorter as the relationship between the document information contents is stronger It is.
[0041]
The above embodiment can be grasped as an invention of a recording medium. That is, in the above-described embodiment, a document information content storing procedure for storing a plurality of document information contents, and a content profile generating procedure for generating a content profile that is vector type data representing the document contents from the document information content document. Presenting a thumbnail that is a representative image representing the document information content, and when the thumbnail is clicked by a predetermined browsing user, a presentation procedure for presenting detailed document information of the corresponding content, and a plurality of document information contents User profile generation procedure for calculating a user profile representing the interest of the browsing user from the history of the content profile corresponding to the information content browsed by the browsing user when a plurality of thumbnails corresponding to is clicked by the browsing user And accumulation Arrangement of thumbnails on the presentation means by calculating similarity between a plurality of content profiles corresponding to a plurality of information contents and calculating a similarity between the user profile and the content profile 5 is an example of a computer-readable recording medium on which a program for causing a computer to execute a thumbnail arrangement calculation procedure for calculating the image is recorded.
[0042]
Examples of the recording medium include FD, CD, DVD, HD, and semiconductor memory.
[0043]
【The invention's effect】
According to the present invention, there is an effect that it is possible to intuitively present and browse document information content that seems to be deeply related to the browsing user's interest.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration example of an apparatus according to an embodiment of the present invention.
FIG. 2 is a diagram for schematically explaining an algorithm for determining / arranging presentation contents.
FIG. 3 is a flowchart showing the operation of the embodiment.
FIG. 4 is a diagram showing a correspondence example between selected N types of nouns and the number of appearances (keyword vector) in a document in the embodiment.
FIG. 5 shows a content profile browsed at time t-2, a content profile browsed at time t-1, a content profile browsed at the current time t, and a user profile at the current time t. It is a figure which shows a correspondence example.
[Explanation of symbols]
100 ... Related discovery type information browsing system,
1 ... Document content storage unit,
2 ... content profile generation unit,
3 ... user profile generation unit,
4 ... Presentation content determination / placement section,
5 ... Document information content presentation unit.

Claims (1)

複数の文書情報コンテンツを、蓄積する文書情報コンテンツ蓄積手段と;
上記文書情報コンテンツの全文書を形態素解析し、出現頻度の高い名詞を上位からN個選び、次いで、各文書について、上記N個の名詞のそれぞれの出現頻度を表すN次元のベクトルを構成してコンテンツプロファイルを生成するコンテンツプロファイル生成手段と;
上記文書情報コンテンツを表す代表画像であるサムネイルを提示するとともに、所定の閲覧利用者によってサムネイルがクリックされると、対応するコンテンツの詳細文書情報を提示する提示手段と;
複数の文書情報コンテンツに対応する複数のサムネイルが閲覧利用者によって順次クリックされると、閲覧利用者によって閲覧された文書情報コンテンツに対応するコンテンツプロファイルの最新の所定回数の履歴から、コンテンツプロファイルの要素毎の平均値を各要素とするN次元の、閲覧利用者の興味を表すユーザプロファイルを演算するユーザプロファイル生成手段と;
蓄積された複数の文書情報コンテンツに対し、2つのコンテンツプロファイルの間の関連の度合いをベクトルの距離尺度を用いて表し、コンテンツプロファイルの間の関連の度合いを、多次元尺度構成法を用いて2次元平面空間上の距離尺度として表現し、2次元平面上の文書情報コンテンツの配置座標を計算する第1のサムネイル配置演算手段と;
上記ユーザプロファイルと各コンテンツプロファイルとの間の類似度を、ベクトルの大きさを正規化し、対応するベクトル要素間の距離の和に基づいてそれぞれ演算し、3次元的な提示手段を用いて画面垂直方向に演算された類似度が高いコンテンツに対応するサムネイル程、手前に配置するように反映して上記文書情報コンテンツの配置座標を演算する第2のサムネイル配置演算手段と;
を有することを特徴とする関連発見型情報閲覧システム。
Document information content storage means for storing a plurality of document information contents;
All documents of the document information content are morphologically analyzed, N nouns with high appearance frequencies are selected from the top, and then, for each document, an N-dimensional vector representing the appearance frequency of each of the N nouns is constructed. Content profile generation means for generating a content profile;
Presenting means for presenting a thumbnail which is a representative image representing the document information content and presenting detailed document information of the corresponding content when the thumbnail is clicked by a predetermined browsing user;
When a plurality of thumbnails corresponding to a plurality of document information contents are sequentially clicked by a browsing user, content profile elements are obtained from the latest predetermined number of history of the content profile corresponding to the document information contents browsed by the browsing user. User profile generating means for calculating an N-dimensional user profile representing the interest of the browsing user , with each average value as an element ;
For a plurality of stored document information contents, the degree of association between two content profiles is expressed using a vector distance measure, and the degree of association between content profiles is expressed using a multidimensional scale construction method. First thumbnail arrangement calculation means for expressing the arrangement coordinates of the document information content on the two-dimensional plane expressed as a distance scale in the two-dimensional plane;
The degree of similarity between the user profile and each content profile is calculated based on the sum of the distances between the corresponding vector elements by normalizing the magnitude of the vector, and using a three-dimensional presentation means Second thumbnail arrangement calculation means for calculating the arrangement coordinates of the document information content by reflecting the thumbnail corresponding to the content having a higher degree of similarity calculated in the direction so that it is arranged in front ;
A related discovery type information browsing system characterized by comprising:
JP2000035293A 2000-02-14 2000-02-14 Related discovery type information browsing system Expired - Lifetime JP3656986B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000035293A JP3656986B2 (en) 2000-02-14 2000-02-14 Related discovery type information browsing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000035293A JP3656986B2 (en) 2000-02-14 2000-02-14 Related discovery type information browsing system

Publications (2)

Publication Number Publication Date
JP2001229167A JP2001229167A (en) 2001-08-24
JP3656986B2 true JP3656986B2 (en) 2005-06-08

Family

ID=18559515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000035293A Expired - Lifetime JP3656986B2 (en) 2000-02-14 2000-02-14 Related discovery type information browsing system

Country Status (1)

Country Link
JP (1) JP3656986B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363311B2 (en) 2001-11-16 2008-04-22 Nippon Telegraph And Telephone Corporation Method of, apparatus for, and computer program for mapping contents having meta-information
US20030126601A1 (en) * 2001-12-31 2003-07-03 Koninklijke Philips Electronics N.V. Visualization of entertainment content
US9235849B2 (en) 2003-12-31 2016-01-12 Google Inc. Generating user information for use in targeted advertising
JP4535072B2 (en) * 2007-01-19 2010-09-01 ソニー株式会社 Information mediating device and client device
JP2009080580A (en) * 2007-09-25 2009-04-16 Toshiba Corp Image display device and display method
JP5416063B2 (en) * 2010-09-13 2014-02-12 日本電信電話株式会社 Content recommendation device, content recommendation program and recording medium thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207907A (en) * 1997-01-27 1998-08-07 Mitsubishi Electric Corp Object arrangement, display and operation method and device using three-dimensional space
JPH10326289A (en) * 1997-03-28 1998-12-08 Nippon Telegr & Teleph Corp <Ntt> Method for providing information and system therefor and storage medium for storing the same program
JPH113356A (en) * 1997-06-13 1999-01-06 Nippon Telegr & Teleph Corp <Ntt> Information co-helping method, its system and recording medium storing information co-helping program

Also Published As

Publication number Publication date
JP2001229167A (en) 2001-08-24

Similar Documents

Publication Publication Date Title
US10922350B2 (en) Associating still images and videos
US7548936B2 (en) Systems and methods to present web image search results for effective image browsing
JP4540970B2 (en) Information retrieval apparatus and method
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US7917514B2 (en) Visual and multi-dimensional search
US7739221B2 (en) Visual and multi-dimensional search
US7519588B2 (en) Keyword characterization and application
US9092524B2 (en) Topics in relevance ranking model for web search
US20090265338A1 (en) Contextual ranking of keywords using click data
US20070214133A1 (en) Methods for filtering data and filling in missing data using nonlinear inference
JP2003167914A (en) Multimedia information retrieving method, program, recording medium and system therefor
JP2010086343A (en) Apparatus, method and program for classifying web browsing purpose
Chen et al. Similarity-based image browsing
JP2004178604A (en) Information retrieval system and its method
JP2013516022A (en) Cluster and present search suggestions
EP2291812A2 (en) Forum web page clustering based on repetitive regions
US9507805B1 (en) Drawing based search queries
JP5277941B2 (en) Related product presentation method, related product presentation system, program, recording medium
Wang et al. Interactive browsing via diversified visual summarization for image search results
JP2008146492A (en) Information providing device, information providing method, and computer program
JP3656986B2 (en) Related discovery type information browsing system
JP5010624B2 (en) Search device
JP4883644B2 (en) RECOMMENDATION DEVICE, RECOMMENDATION SYSTEM, RECOMMENDATION DEVICE CONTROL METHOD, AND RECOMMENDATION SYSTEM CONTROL METHOD
Cheng et al. Context-based page unit recommendation for web-based sensemaking tasks
JP2004110834A (en) Information storage retrieval system and method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050307

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080318

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090318

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090318

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100318

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110318

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120318

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130318

Year of fee payment: 8