JP4894580B2 - Seasonal analysis system, seasonality analysis method, and seasonality analysis program - Google Patents
Seasonal analysis system, seasonality analysis method, and seasonality analysis program Download PDFInfo
- Publication number
- JP4894580B2 JP4894580B2 JP2007073388A JP2007073388A JP4894580B2 JP 4894580 B2 JP4894580 B2 JP 4894580B2 JP 2007073388 A JP2007073388 A JP 2007073388A JP 2007073388 A JP2007073388 A JP 2007073388A JP 4894580 B2 JP4894580 B2 JP 4894580B2
- Authority
- JP
- Japan
- Prior art keywords
- article
- cluster
- trackback
- seasonality
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、インターネット上に掲載される記事の旬度を解析する旬度解析システム、旬度解析方法、及び旬度解析プログラムに関する。 The present invention relates to a seasonal analysis system, a seasonal analysis method, and a seasonal analysis program for analyzing the seasonality of articles posted on the Internet.
インターネット上には膨大な数の記事が存在している。一日に何度も更新される性質の記事(例えばブログ)の場合、全ての記事を閲覧して最新の情報を把握しようとすると膨大な時間が掛かってしまう。従って、今現在どのようなテーマがあり、そのテーマがどれだけ盛り上がっているのか分かりにくい。更には、インターネット上に掲載される多数の記事のジャンル(スポーツ、経済等)は多様である。同一のジャンルでありながらも、様々な観点から書かれた記事が数多く掲載されている。従って、インターネット上に掲載される多数の記事の中から、必要な記事だけを選択して閲覧することは難しい。 There are a huge number of articles on the Internet. In the case of articles that are updated many times a day (for example, blogs), it takes an enormous amount of time to browse all articles and grasp the latest information. Therefore, it is difficult to understand what themes are now and how exciting they are. Furthermore, the genres (sports, economy, etc.) of many articles posted on the Internet are diverse. Although it is the same genre, many articles written from various viewpoints are published. Therefore, it is difficult to select and browse only necessary articles from a large number of articles posted on the Internet.
従って、インターネット上にどのようなテーマがあり、そのテーマがどれだけ旬であるか、を知ることのできる技術が望まれる。また、このような技術に対しては、精度よくインターネット上のテーマと旬度を把握できることが要求される。尚、旬とは、スパムなどによる突発的な盛り上がりや長期的なトレンドではなく、記事の人気による短期的な盛り上がりのことを指す。 Therefore, there is a demand for a technology that can know what themes are on the Internet and how seasonal the themes are. In addition, such technology is required to be able to accurately grasp Internet themes and seasons. Season means not a sudden rise or a long-term trend due to spam, but a short-term rise due to the popularity of the article.
上記と関連して、語句の出現頻度によって、どのようなテーマがあるのかを把握しようとする技術が特許文献1〜3に記載されている。特許文献1は、複数のニュースサイトの記事を収集して単語を取りだし、出現頻度の高い単語を抽出して重要語とし、重要語と関連性の有る単語を関連語とし、重要語に対する関連語の関連度を計算してこれらを表示することが記載されている。特許文献2には、記事の作成時刻に基いて、記事の作成時刻が新しいほど、その記事内で出現する語句に重みを与え、カテゴリ別に新出の語句のランキングを行うことが記載されている。特許文献3には、更新通知のあったブログ中において、キーワードの出現頻度をカウントし、出現頻度の数を利用して近未来のトレンドキーワードを予測することが記載されている。
In relation to the above,
また、旬度に関連して、記事に対する人気や重要度を評価する技術が、特許文献4〜6に記載されている。特許文献4には、他のウェブページ(記事)から該当ウェブページに向かうリンク数を用いて、該当ウェブページの人気度を計算することが記載されている。特許文献5には、ホームページのアクセス数を人気とみなすことが記載されている。特許文献6には、ページ重要性ランキングを計算するにあたって、ウェブページデータ中のウェブページのリンクを、あるレベルで集約し、集約されたリンクを使用することが記載されている。
Moreover, the technique which evaluates the popularity and importance with respect to an article in relation to the season is described in
また、特許文献7には、複数の記事を、記事内容に従って分類する文書分類装置についての記載がある。この特許文献7には、文書データ毎に単語出現回数を計数して文書特徴ベクトルを生成し、文書特徴ベクトルに統計的手法を適用することで文書分類を行うことが記載されている。
本発明の目的は、インターネット上にどのようなテーマがあるかを、精度よく知ることのできる技術を提供することにある。 An object of the present invention is to provide a technique capable of accurately knowing what themes are on the Internet.
本発明の他の目的は、インターネット上の記事にあるテーマの旬度を、精度よく把握することのできる技術を提供することに有る。 Another object of the present invention is to provide a technique capable of accurately grasping the seasonality of a theme in an article on the Internet.
以下に、[発明を実施するための最良の形態]で使用される番号・符号を用いて、[課題を解決するための手段]を説明する。これらの番号・符号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために括弧付きで付加されたものである。ただし、それらの番号・符号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。 [Means for Solving the Problems] will be described below using the numbers and symbols used in [Best Mode for Carrying Out the Invention]. These numbers and symbols are added in parentheses in order to clarify the correspondence between the description of [Claims] and [Best Mode for Carrying Out the Invention]. However, these numbers and symbols should not be used for the interpretation of the technical scope of the invention described in [Claims].
本発明の旬度解析システムは、インターネット上に掲載される複数の記事のうち、複数の起点記事と、その複数の起点記事の各々からリンクで辿ることのできる記事群とについて記事内容を収集し、記事を特定する記事情報と対応付けて記事記録部(2)に記録する記事収集部(1)と、記事収集部(1)で収集される起点記事毎に、その起点記事とその起点記事からリンクで辿ることのできる記事群とを含む集合をクラスタとし、その記事情報と対応付けてクラスタ情報を生成し、そのクラスタ情報をクラスタ記録部(4)に記録するクラスタ生成部(3)と、記事記録部(2)及びクラスタ記録部(4)を参照して、そのクラスタに含まれる記事の記事内容に基いて、異なるクラスタ間の類似度をを計算し、計算結果に基いて類似するクラスタ同士をマージしてマージ後クラスタ情報を生成するクラスタ再構成部(5)と、そのマージ後クラスタ情報と記事記録部(2)とを参照し、クラスタ毎に旬度を測定する旬度測定部(7)と、旬度測定部(7)で測定された結果を出力装置に出力させる出力部(8)と、を具備する。 The seasonal analysis system of the present invention collects article contents for a plurality of starting articles and a group of articles that can be traced from each of the plurality of starting articles among a plurality of articles posted on the Internet. The article collection unit (1) that records in the article recording unit (2) in association with the article information that identifies the article, and for each starting article collected by the article collection unit (1), the starting article and the starting article A cluster generation unit (3) for generating a cluster information in association with the article information and recording the cluster information in the cluster recording unit (4). Referring to the article recording unit (2) and the cluster recording unit (4), the similarity between different clusters is calculated based on the article content of the articles included in the cluster, and similar based on the calculation result. The Refers to the cluster reconfiguration unit (5) that merges the clusters and generates post-merge cluster information, and the post-merge cluster information and article recording unit (2), and measures the seasonality for each cluster. A part (7), and an output unit (8) for causing the output device to output the result measured by the seasonality measuring unit (7).
この発明によれば、クラスタ再構成部(5)によって、記事内容の類似するクラスタ同士がまとめられるようにクラスタが再構成されるので、インターネット上の多数の記事をテーマ別に分類させることができる。これにより、インターネット上にどのようなテーマがあるかを、精度よく把握することができる。また、旬度測定部(7)が、テーマ別にマージされたクラスタ毎に旬度を測定するので、テーマに対する旬度を把握することができる。 According to the present invention, the cluster is reconfigured by the cluster restructuring unit (5) so that the clusters having similar article contents are gathered together, so that many articles on the Internet can be classified by theme. Thereby, it is possible to accurately grasp what theme is on the Internet. In addition, since the seasonality measuring unit (7) measures the seasonality for each cluster merged by theme, the seasonality for the theme can be grasped.
上記の旬度解析システムにおいて、クラスタ再構成部(5)は、記事記録部(2)に記録された記事の内容を解析して、単語と出現頻度とを対応付けた出現頻度データを生成し、出現頻度記録部(10)に記録する記事解析部(9)と、クラスタ記録部(4)及び出現頻度記録部(10)とを参照し、クラスタ毎に単語と出現頻度とを対応付けたクラスタ特徴ベクトルを生成し、特徴ベクトル記録部(12)に記録する特徴ベクトル生成部(11)と、そのクラスタ特徴ベクトルに基いて、異なるクラスタ間の類似度を計算し、計算結果に基いて類似するクラスタ同士をマージしてマージ後クラスタ情報を生成する類似度判定部(13)と、を備えることが好ましい。 In the seasonal analysis system, the cluster reconstruction unit (5) analyzes the content of the article recorded in the article recording unit (2), and generates appearance frequency data in which the word and the appearance frequency are associated with each other. Referring to the article analysis unit (9) to be recorded in the appearance frequency recording unit (10), the cluster recording unit (4), and the appearance frequency recording unit (10), the word and the appearance frequency are associated with each cluster. A feature vector generation unit (11) that generates a cluster feature vector and records it in the feature vector recording unit (12), and calculates a similarity between different clusters based on the cluster feature vector, and similar based on the calculation result It is preferable to include a similarity determination unit (13) that merges clusters to generate cluster information after merging.
まあ、この際に、記事解析部(2)は、シソーラス辞書を参照して、出現頻度データ中の類似単語がマージされるように、出現頻度データを生成することが好ましい。 Well, at this time, the article analysis unit (2) preferably refers to the thesaurus dictionary and generates the appearance frequency data so that similar words in the appearance frequency data are merged.
上記の旬度解析システムにおいて、類似度判定部(14)は、異なるクラスタ間で類似度を計算するにあたり、下記式1により類似度を計算することが好ましい。
上記の旬度解析システムにおいて、記事収集部(1)は、記事内容を収集して記録するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報と、トラックバックの張られた時刻とを収集して、記事情報と対応付けて記録することが好ましい。ここで、旬度測定部(7)は、クラスタ毎に新鮮度を計算して新鮮度記録部(16)に記録する新鮮度計算部(15)と、新鮮度の結果に基いて、旬度を算出する旬度計算部(21)とを備える。また、新鮮度計算部(16)は、クラスタ中に含まれるトラックバックの数と、トラックバックの張られた時刻とに基いて、新鮮度を計算する。また、新鮮度計算部(15)は、下記式2により、新鮮度F(t)を計算することが更に好ましい。
上記の旬度解析システムにおいて、記事収集部(1)は、記事内容を収集して記録するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報を収集して、記事情報と対応付けて記録することが好ましい。ここで、旬度測定部(7)は、クラスタ毎に波及度を計算して波及度記録部(20)に記録する波及度計算部(19)と、波及度の結果に基いて旬度を算出する旬度計算部(21)とを備る。波及度計算部(19)は、トラックバック情報に基いて、トラックバックの起点記事からの深さを算出し、クラスタ中に含まれるトラックバックの数と、トラックバックの起点記事からの深さとに基いて、波及度を計算する。このとき、波及度計算部(19)は、下記式3により、波及度I(d)を計算することが更に好ましい。
上記の旬度解析システムにおいて、記事収集部(1)は、記事内容を収集して記録するにあたり、更に、収集される記事に対する読み手の評価を示す評価情報を収集して、記事情報と対応付けて記録することが好ましい。ここで、旬度測定部(7)は、クラスタ毎に人気度を計算して人気度記録部(18)に記録する人気度計算部(17)と、人気度の結果に基いて旬度を算出する旬度計算部(21)とを備える。人気度計算部(21)は、クラスタ中に含まれる記事の数と、記事の評価情報とに基いて、人気度を計算する。この際、評価情報は、収集される記事に対するソーシャルブックマーク数又はアクセス数であることがより好ましい。 In the seasonal analysis system described above, the article collection unit (1) further collects evaluation information indicating the reader's evaluation on the collected article and associates it with the article information when collecting and recording the article content. It is preferable to record. Here, the seasonality measurement unit (7) calculates the popularity for each cluster and records the popularity in the popularity recording unit (18), and the seasonality based on the result of popularity. And a seasonal calculation unit (21) for calculating. The popularity calculation unit (21) calculates the popularity based on the number of articles included in the cluster and the evaluation information of the articles. At this time, the evaluation information is more preferably the number of social bookmarks or the number of accesses to the collected articles.
上記の旬度解析システムにおいて、記事収集部(1)は、記事を収集して記録するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報と、前記トラックバックの張られた時刻と、収集される記事に対する読み手の評価を示す評価情報と、を収集して、前記記事情報と対応付けて記録することが好ましい。ここで、旬度測定部(7)は、クラスタ毎に、クラスタ中に含まれる記事の数と、記事の前記評価情報とに基いて人気度を計算し、人気度記録部(18)に記録する人気度計算部(17)と、クラスタ毎に、トラックバック情報に基いて、トラックバックの起点記事からの深さを算出し、クラスタ中に含まれるトラックバックの数と、トラックバックの起点記事からの深さとに基いて波及度を計算して波及度記録部(20)に記録する波及度計算部(19)と、クラスタ毎に、クラスタ中に含まれるトラックバックの数と、トラックバックの張られた時刻とに基いて、新鮮度を計算して新鮮度記録部(16)に記録する新鮮度計算部(15)と、人気度、前記波及度、及び前記新鮮度の結果に基いて、旬度を算出する旬度計算部(7)とを備える。この時、新鮮度計算部(15)は、下記式4により、新鮮度F(t)を計算し、
波及度計算部(19)は、下記式5により、波及度I(d)を計算し、
前記人気度計算部(17)は、収集される記事に対するソーシャルブックマーク数又はアクセス数を評価情報として、クラスタ毎の総ソーシャルブックマーク数又は総アクセス数を、人気度P(n)として計算し、
旬度計算部(21)は、下記式6により、旬度を計算することが更に好ましい。
The spillover degree calculation unit (19) calculates the spillover degree I (d) by the following
The popularity calculating unit (17) calculates the total number of social bookmarks or the total number of accesses for each cluster as the popularity P (n) using the number of social bookmarks or the number of accesses to the collected articles as evaluation information,
More preferably, the seasonality calculation unit (21) calculates the seasonality according to the following
本発明によれば、インターネット上にどのようなテーマがあるかを、精度よく知ることのできる技術が提供される。 ADVANTAGE OF THE INVENTION According to this invention, the technique which can know exactly what theme exists on the internet is provided.
本発明によれば、更に、インターネット上の記事にあるテーマの旬度を、精度よく把握することのできる技術が提供される。 According to the present invention, there is further provided a technology capable of accurately grasping the seasonality of a theme in an article on the Internet.
(第1の実施形態)
以下、図面を参照しつつ、第1の実施形態について説明する。本実施形態の旬度解析システムは、インターネット上の膨大な記事のなかから、旬度の高い記事を自動的に抽出して、その記事を特定する情報を表示するものである。尚、解析の対象となる記事としては、ブログやWIKIなどの、リンク支援システム付のユーザー参加型ウェブシステム群に含まれる記事が挙げられる。
(First embodiment)
Hereinafter, the first embodiment will be described with reference to the drawings. The seasonal analysis system of the present embodiment automatically extracts articles with high seasonality from a large number of articles on the Internet, and displays information for identifying the articles. The articles to be analyzed include articles included in a user participation type web system group with a link support system, such as a blog or WIKI.
図1は、本実施形態に係る旬度解析システムの構成を示す概略ブロック図である。旬度解析システムは、ROM(Read only memoly)等に格納され、CPUにより実行される旬度解析プログラムと、その旬度解析プログラムの処理内容、結果を記録する記憶装置(RAM、ハードディスク等)から構成される。具体的には、図1に示されるように、記事収集部1、記事記録部2、クラスタ生成部3、クラスタ記録部4、クラスタ再構成部5、マージ後クラスタ記録部6、旬度測定部7、及び表示部8を備えている。
FIG. 1 is a schematic block diagram illustrating a configuration of a seasonality analysis system according to the present embodiment. The seasonal analysis system is stored in a ROM (Read only memory) or the like, and is executed from a seasonal analysis program executed by the CPU and a storage device (RAM, hard disk, etc.) that records the processing contents and results of the seasonal analysis program. Composed. Specifically, as shown in FIG. 1, an
記事収集部1は、インターネット上から定期的に記事を取得して記事データを生成し、記事記録部2に格納する機能を実現する。ここで記事収集部1は、更新された情報や新しい情報のみを記事記録部2に格納する。
The
クラスタ生成部3は、記事収集部1が収集する少なくとも一の記事に対してクラスタを設定し、クラスタ情報としてクラスタ記録部4に格納するものである。
The
クラスタ再構成部5は、記事記録部2とクラスタ記録部4とを参照して、クラスタ間の類似度を判定し、類似クラスタ同士をマージしたマージ後クラスタ情報を生成してマージ後クラスタ情報記録部6に格納するものである。クラスタ再構成部5は、記事解析部9、出現頻度記録部10、特徴ベクトル生成部11、特徴ベクトル記録部12、類似度判定部11、及び類似度記録部14を備えている。
The
旬度測定部7は、記事記録部2とマージ後クラスタ記録部6とを参照して、マージ後のクラスタ毎に旬度を測定するものである。旬度測定部7は、新鮮度計算部15、新鮮度記録部16、人気度計算部17、人気度記録部18、波及度計算部19、波及度記録部20、旬度計算部21、及び旬度記録部22を備えている。
The
表示部8は、旬度測定部7の測定結果を表示画面上に表示するものである。
The
この旬度解析システムは、以下に述べるように動作してその機能を実現する。図2は、本実施形態に係る旬度解析方法を示すフローチャートである。この旬度解析方法は、記事を収集するステップ(S001)、クラスタリングを行うステップ(S002)、類似度を判定してクラスタを再構成するステップ(S003)、旬度を測定するステップ(S004)、及び表示するステップ(S0005)を備えている。各ステップにおける動作について、以下に詳述する。 This seasonal analysis system operates as described below to realize its functions. FIG. 2 is a flowchart showing a seasonality analysis method according to this embodiment. This seasonal analysis method includes a step of collecting articles (S001), a step of clustering (S002), a step of determining similarity to reconstruct a cluster (S003), a step of measuring seasonality (S004), And a displaying step (S0005). The operation in each step will be described in detail below.
((ステップS001;記事の収集))
図3は、記事収集部1がインターネット上に掲載される記事を収集する際の動作を示すフローチャートである。本ステップの説明にあたっては、図4に示されるように、インターネット上に、複数の記事(A〜H)が掲載されている場合を例として説明する。図4中、矢印はトラックバックによるリンクを示しており、例えば記事Aは記事Bからトラックバックされ、記事Aから記事Bにリンクが張られていることを示している。
((Step S001; Collecting articles))
FIG. 3 is a flowchart showing an operation when the
ステップS101
まず、記事収集部1は、起点となる記事(以下、起点記事)を選択する。ここでは、記事Aが起点記事として選ばれたとする。起点記事は、例えば、ソーシャルブックマークの登録数が多い記事や、アクセス数が多い記事、ユーザによって指定された記事などが選ばれる様にすればよい。記事収集部1は、選択した起点記事Aにアクセスして、記事Aに関するデータ(記事データ)を収集し、記事記録部2に格納する。
Step S101
First, the
図5は、記事記録部2に記録されるデータを示す概念図である。記事収集部2は、この図に示される項目のうち、記事内容(タイトル及び本文)、URL(記事内容)、記事Aの作成時刻、記事Aに対するトラックバック元のURL、トラックバックのリンクが張られた時刻、及び評価情報(本実施形態ではソーシャルブックマーク数)を収集する。そして、これらを記事を特定するための記事ID(記事情報;A)と対応付けて、記事記録部2に記録する。この時、図5に示される「訪問済み」の項目はNOにしておく。そして、次のステップ(S102)へと進む。尚、図5では、記事B、C、Dに関する項目も埋められており、「訪問済み」の項目もYESとなっているが、この図5は、最終的な状態の例を示したものであり、本ステップでの処理後の状態をそのまま示したものではない。
FIG. 5 is a conceptual diagram showing data recorded in the
ステップS102
次に、記事収集部2は、記事記録部を参照して未訪問の記事が存在するかを判断する。存在する場合には、次のステップS103に進み、存在しない場合には記事収集に係る処理を終える。この段階では、起点記事Aの訪問が未訪問となっているので、次のステップS103に進む。
Step S102
Next, the
ステップS103、S104
次に、記事収集部1は、未訪問の記事の中から記事IDの最も若い記事を選択する。ここでは、起点記事Aが選択される(S103)。そして、選択した記事にトラックバックが張られているかどうかを確認し、張られている場合にはステップS105へ進み、張られていない場合にはS106に進む。ここでは、選択された起点記事Aに対して、記事Bと記事Cからのトラックバックが張られているので、S105に進む(S104)。
Step S103, S104
Next, the
ステップS105
次に、記事収集部1は、S103で選択した記事のトラックバック元の記事にアクセスし、S101の処理と同様に、記事に関するデータを収集して記事記録部2に格納する。ここでは、記事Bと記事Cとにアクセスして収集する。この際、記事Bと記事Cは、未訪問にしておく。その後、次のステップS106に進む。
Step S105
Next, the
ステップS106
次に、記事収集部1は、S103で選択した記事(記事A)を訪問済みであることを記事記録部2に記録して、S102の処理に戻る。S102では、記事B、記事Cが未訪問であるので、S103へと進み、記事IDの若い記事Bが選択される。S104において、記事Bにはトラックバック元が無いので、S106へと進んで、記事Bが訪問済みであることが記事記録部2に記録される。このような処理を繰り返し、起点記事Aからリンクを辿ってアクセスすることのできる記事群全てについて、記事に関するデータが収集され、記事記録部2に記録される。同様の処理を、他の起点記事(D及びG)についても繰り返して、記事に関するデータを収集して記録する。
Step S106
Next, the
尚、以上の一連の処理の説明では、起点記事からリンクで辿る事のできる全ての記事について記事内容を収集する場合について説明したが、例えば2回目以降の処理のなどで記事記録部2に既に記事内容などが記憶されている場合には、更新された記事及び新しい記事についてのみ、収集すればよい。
In the above description of the series of processes, the case has been described in which the article contents are collected for all articles that can be traced from the starting article. However, for example, in the second and subsequent processes, the
((ステップS002));クラスタリング処理
続いて、クラスタ生成部3が、記事記録部21が収集した複数の記事に対して、起点記事及び起点記事からトラックバックによるリンクを辿ることのできる記事群の集合をクラスタとして設定する。クラスタ生成部3は、設定したクラスタに一意なID(以下、クラスタID)を割り振り、そのクラスタ中の記事IDを関連付けてクラスタ情報を生成し、クラスタ記録部4に記録する。
((Step S002)); Clustering Processing Next, the
図6、7は、クラスタ記録部4に記録されるクラスタ情報の一例を示す概念図であり、図4で挙げた例に対応している。この例では、起点記事A及び起点記事Aからリンクを辿ることのできる記事B、Cからなる集合がクラスタC1として設定されている。同様に、クラスタC2として、起点記事D、記事E、Fからなる集合が設定され、クラスタC3として、起点記事G及び記事Hからなる集合が設定されている。尚、図6中では、説明を分かり易くするために、記事名A、B、を記載しているが、実際には、記事ID(B1、B2・・)とクラスタを示すクラスタIDとが対応付けられている。また、以下の説明でも、記事ID(B1、B2・・・)の代わりに、記事名(A、B、C・・・)を記載することがある。
6 and 7 are conceptual diagrams showing an example of cluster information recorded in the
尚、トラックバックによるリンクを辿ることのできる記事群の集合は、たとえば、記事記録部2に記録されたトラックバック元のURLを参照することで把握することができる。
The set of articles that can follow the trackback link can be grasped by referring to the URL of the trackback source recorded in the
((ステップS003));類似度の判定、クラスタ再構成
続いて、図8は、本ステップにおける動作を示すフローチャートである。本動作は、クラスタ再構成部5の動作により実現される。
((Step S003)); Determination of Similarity, Cluster Reconfiguration Next, FIG. 8 is a flowchart showing the operation in this step. This operation is realized by the operation of the
ステップS201、202;記事の選択
まず、記事解析部9が、記事記録部2に記録された全ての記事内容を取得する(S201)。そして、取得した記事に対して、形態素解析を行う。それにより、記事内容を単語に分解し、その中から名詞を抽出する(S202)。本処理では、記事のテーマ(テーマ)の類似性を判定することが目的であり、テーマを表現するのに適さない品詞は必要がない。従って、形態素解析処理の結果から句読点・動詞・形容詞などを除き、名詞だけを抽出する。記事解析部9は、記事中に出現した名詞の出現回数をカウントし、名詞毎に一意なID(W1、W2・・・)を与えて、図9に例示される出現頻度データを生成し、出現頻度記録部10に記録する。
Step S201, 202; Article Selection First, the
ステップS203;特徴ベクトルの生成
続いて、特徴ベクトル生成部11が、出現頻度データとクラスタ情報とを参照して、各クラスタ毎に、各単語の出現回数を集計する。そして、図10に示されるように、クラスタ毎に、単語ID(W1、W2、・・)と出現回数とを対応付けた特徴ベクトルを生成し、特徴ベクトル記録部12に記録する。この際に、全クラスタ中(全クラスタ中で正しいでしょうか?)で、出現頻度が高い順に上位の単語(例えば上位10単語)を選んで特徴ベクトルを生成する。尚、図10の例は、説明の便宜上、図8で示した例とは対応させていない。
Step S203: Generation of Feature Vector Subsequently, the feature
ステップS204、205;類似度の計算、比較
続いて、類似度判定部13が、特徴ベクトル記録部12から、異なる2つのクラスタの特徴ベクトルを取得する。そして、取得した2つの特徴ベクトルの為す角で類似度を計算する。本実施形態では、下記式7で示される様に、2つのクラスタ(iとj)の特徴ベクトルのなす角の余弦(コサイン)を類似度で定義するものとする。
図10の場合を具体例にして、類似度の算出方法をより具体的に説明する。ここでは、クラスタ1とクラスタ2間の類似度を算出するとする。上式7により、クラスタ1と2の類似度を算出すると、以下の様に計算され、類似度=0.01という結果を得る。
類似度=(3×2+0×2+9×0+7×0)/{√(32+02+02+92+72)×√(22+32+22+02+02)=0.01
Taking the case of FIG. 10 as a specific example, the similarity calculation method will be described more specifically. Here, the similarity between
Similarity = (3 × 2 + 0 × 2 + 9 × 0 + 7 × 0) / {√ (3 2 +0 2 +0 2 +9 2 +7 2 ) × √ (2 2 +3 2 +2 2 +0 2 +0 2 ) = 0.01
類似度判定部13は、計算した類似度から、2つのクラスタ同士が類似しているかどうかを判定する。異なる2つのクラスタの特徴ベクトルに共通して出現する単語が多い程、また出現回数が近い単語が多いほど、特徴ベクトル同士のなす角度が1に近づき、類似度が高くなる。従って、予め類似度の閾値を設定しておき、特徴ベクトルの角度が閾値よりも近い(類似度が閾値よりも1に近い)クラスタ同士は類似している判定し、同一テーマを扱っているものと判定する。上述した例では、仮に閾値を0.07に設定していたとすると、類似度=0.01であり、閾値よりも1に近くないので、類似していないと判定する。(ステップS205)。類似していた場合には、次のステップS206の動作を行い、類似していなかった場合には、S207の動作を行う。
The
尚、上述の処理(S204、205)で計算された類似度は、図11に示されるように、類似度記録部14に格納される。
The similarity calculated in the above-described processing (S204, 205) is stored in the
ステップS206;類似クラスタのマージ
S205の処理で、2つのクラスタ同士が類似していた場合、類似判定部13はクラスタ情報を参照して各単語の出現回数を足し合わせ、類似クラスタ同士をマージする。これにより、新しい特徴ベクトルが生成される。また、類似度判定部は、クラスタ情報を参照して、類似クラスタ同士がマージされたクラスタを付加したマージ後クラスタ情報を生成し、マージ後クラスタ記録部に格納する。図12は、マージ後クラスタ情報の一例を示す概念図である。図12の例では、クラスタC1とクラスタC2とが類似しており、クラスタ1と2を併せたクラスタC4が追加された例を示している。なお、説明の便宜上、既述の図とは対応していない。マージ済みの特徴ベクトル内のクラスタ間同士は、類似度比較の対象とならないように設定し、次のステップS207の処理を行う。
Step S206; Merging Similar Clusters When the two clusters are similar in the process of S205, the
ステップS207;終了判定
以上の処理一連の処理を、全てのクラスタ同士の組み合わせについて繰り返し、全ての組み合わせについて類似性の判定が終わると、処理を終了する。このようにして再構成されたマージ後クラスタ情報は、記事内容に基いて複数の記事がまとめられた物であるので、テーマ別に記事がまとめられたものであるととらえることができる。すなわち、異なるクラスタ内の記事同士はテーマの異なる記事同士であり、同じクラスタ内の記事同士は、同じテーマの記事同士であるととらえることができる。また、S206においてマージされたクラスタの特徴ベクトルは、クラスタ内で頻繁に使われているキーワードを示しているといえる。従って、クラスタ毎にキーワードを表示する様にすれば、ユーザはどのようなテーマが存在しているかを把握することができる。
Step S207: End Determination The above-described series of processing is repeated for all combinations of clusters, and when the similarity determination is completed for all combinations, the processing ends. Since the merged cluster information reconstructed in this way is a collection of a plurality of articles based on the article content, it can be regarded as a collection of articles by theme. That is, articles in different clusters can be regarded as articles having different themes, and articles in the same cluster can be regarded as articles of the same theme. In addition, it can be said that the cluster feature vector merged in S206 indicates a keyword frequently used in the cluster. Therefore, if a keyword is displayed for each cluster, the user can grasp what theme exists.
((ステップS004));旬度の測定
続いて、旬度測定部7が、旬度の測定を行う。図13は、旬度の測定に係る動作を示すフローチャートである。旬度測定部7は、新鮮度の計算(S301)、人気度の計算(S302)、及び波及度の計算(S303)を行い、これらの値からクラスタ毎に旬度を計算する(S304)。新鮮度、人気度、及び波及度の計算はどの順に行われてもよい。また、複数クラスタのマージされたクラスタ(マージクラスタ)が存在する場合には、旬度計算時に、マージクラスタの構成要素クラスタ毎に人気度、新鮮度、及び波及度が計算され、構成要素クラスタの値を合算してマージクラスタの評価値とする。以下に、各ステップにおける動作の詳細について説明する。
((Step S004)); Measurement of Seasonal Value Subsequently, the
ステップS301;新鮮度の計算
新鮮時計算部15は、記事記録部15を参照して、記事IDと、トラックバック元の記事の情報(トラックバック元のURL)と、そのトラックバックの張られた時刻の情報と、を取得する。また、図示しないタイマー機能部から、現在時刻を取得する。一のトラックバックに対して、そのトラックバックが張られてからの経過時間(現在時刻からのトラックバックの張られた時刻の差分)を算出し、トラックバック元の記事、トラックバック先の記事を特定する情報(記事ID)と対応付けて保持する(図14)。尚、図14では、説明を分かり易くするため、記事IDの代わりに、記事名(A、B、・・・)を記載してある。この経過時間の算出を、記事記録部15中に記録される全てのトラックバックに対して行う。そして、各トラックバックに対して、経過時間に基いて新鮮度を計算する。
Step S301: Calculation of Freshness The fresh
本実施形態では、トラックバックの新鮮度は、トラックバックが張られてからの時間の経過に対して、図15に示されるように指数関数的に減少していくものと設定し、下記式8で新鮮度F(t)を求める場合を例として説明する。
尚、式中、tは経過時間を示し、t>=0である。αは、新鮮度の減少量の幅に関する定数である。βは、新鮮度の傾きを示す。γは、新鮮度の初期値を示す値である。
In this embodiment, the freshness of the trackback is set to decrease exponentially as shown in FIG. 15 with respect to the elapse of time after the trackback is stretched. A case where the degree F (t) is obtained will be described as an example.
In the formula, t indicates elapsed time, and t> = 0. α is a constant related to the range of the amount of decrease in freshness. β indicates the slope of freshness. γ is a value indicating an initial value of freshness.
新しいトラックバックが多ければ多いほど、そのトラックバック先の記事は注目が高まっていると考えられる。逆に、古いトラックバックしかなければ低くなる。但し、一定時間が経過しても、一定の価値は残る。従って、上式8で示したように、時間経過とともに減少する指数関数を用いることが好ましい。
The more new trackbacks, the more attention is likely to be placed on the articles behind them. Conversely, if there is only an old trackback, it will be low. However, a certain value remains even after a certain period of time. Therefore, it is preferable to use an exponential function that decreases with the passage of time, as shown in
具体例として、ここではα=10、β=10、γ=0として設定し、各トラックバックの経過時間が図14のように計算されたとする。このとき、新鮮度計算部15は、式9に従い計算し、A−B間のトラックバックの新鮮度=1.4、C−A間のトラックバックの新鮮度=3.7、D−B間のトラックバックの新鮮度=6.1という計算結果を得る(ただし、本例では小数点第3桁は四捨五入した)。
As a specific example, it is assumed here that α = 10, β = 10, and γ = 0, and the elapsed time of each trackback is calculated as shown in FIG. At this time, the
新鮮度計算部15は、算出したトラックバックの新鮮度を、トラックバックを特定する情報と対応付けて、新鮮度記録部16に記録する(図16参照;但し、一例を示したものであり、既述の図の内容とは対応していない)。
The
以上で、新鮮度の計算に係る処理を終了する。 Above, the process which concerns on calculation of freshness is complete | finished.
なお、ある記事Bの書き手が、現在時刻に近い時間に別の記事Aを評価してブログを評価してトラックバックを張れば、そのトラックバック先の記事Aの新鮮度の評価値が高くなると考えられるので、上記で計算したトラックバックの新鮮度は、トラックバック先の記事の新鮮度と捉える事もできる。従って、新鮮度は、記事の盛り上がりのパラメータとしても用いることができる。また、クラスタの新鮮度は、トラックバックの新鮮度の総和に比例するものとして捉えた場合、クラスタ内のトラックバックの新鮮度を合算すれば、クラスタの新鮮度を得る事ができる。従って、新鮮度計算部8がこれらを必要に応じて計算し、表示部8によって表示画面上に表示する様に構成することも有用である。
If a writer of an article B evaluates another article A at a time close to the current time, evaluates the blog and puts a trackback, the evaluation value of the freshness of the article A at the trackback destination is considered to increase. Therefore, the trackback freshness calculated above can be regarded as the freshness of the trackback destination article. Therefore, the freshness level can also be used as a parameter of article excitement. Further, when the freshness of the cluster is regarded as being proportional to the sum of the freshness of the trackback, the freshness of the cluster can be obtained by adding the freshness of the trackback in the cluster. Therefore, it is also useful that the
ステップS302;人気度の計算
人気度計算部17は、記事記録部2を参照して、記事の評価情報(本実施形態ではソーシャルブックマーク数)に基いて、その記事の人気度を算出する。図17に示されるように、記事Aのソーシャルブックマーク数が10、記事Bが5、記事Cが3、記事Dが2であったとすると、記事Aの人気度は10、記事Bの人気度は5、記事Cの人気度は3、記事Dの人気度は2となる。このようにして算出した人気度は、人気度記録部114に記録する。図 19は、本発明の第一の実施形態における人気度のデータの例である。人気度計算部17は、人気度を記事IDと対応付けて、人気度記録部118に記録する(図18参照)。尚、評価情報としては、その記事の読み手側の評価を示す情報であれば、ソーシャルブックマーク数に限られず、アクセス数などの他のデータを用いてもよい。
Step S302: Popularity Calculation The
尚、クラスタ内の記事の人気度を合計して、そのクラスタの人気度としてもよい。 It should be noted that the popularity of articles in a cluster may be totaled to be the popularity of the cluster.
ステップS303;波及度の計算
波及度計算部19は、記事記録部2を参照して、トラックバックの起点記事からのパス長(深さ)に基いて、波及度を計算する。ここで、パス長は、起点記事とトラックバック先の記事との間に存在するリンク(トラックバック)数であるものとする。起点記事から離れている(パス長が長い)記事が有るほど、リンク(トラックバック)が多いほど、そのクラスタではテーマが盛り上がっていると考えられる。従って、パス長が長ければ長いほど、波及度を高くする。具体的に説明するために、図19に示されるように、起点記事Aに対して、記事B及びCからトラックバックが張られており、記事Bに対して記事Dからトラックバックが張られているものとする。このとき、人気度計算部17は、記事BからAに対するトラックバック、及び記事CからAに対するトラックバックのパス長を1であると計算する。また、記事DからBに対するトラックバックのパス長は2であると計算する。
Step S303: Calculation of Ripple Degree The
また、波及度に関しては、記事の信頼性などを考慮して、重み付けを行って計算してもよい。このように、記事の信頼性を考慮した場合の一例として、波及度I(d)を下記式9のように定義することができる。
波及度計算部19は、以上の様にして算出した波及度を、トラックバック元記事ID、トラックバック先記事IDと対応付けて、波及度記録部20に記録する(図20参照)。尚、新鮮度の段で説明したのと同様に、トラックバックの波及度は、トラックバック先の記事の波及度と捉えてもよい。
The ripple
ステップS304;旬度の測定
旬度算出部21は、S301〜303の処理で算出された波及度、新鮮度、及び人気度に基いて、旬度を算出する。この際に、マージ後クラスタ情報に基いて、クラスタ毎に旬度を算出する。
Step S304: Measurement of seasonality The
下記式10は、旬度計算の一例を示す式である。
より具体的に例を挙げると、クラスタC1内に含まれる記事が図19で示される様にトラックバックによりリンクされていたとする。そして、新鮮度として図16に示される結果が、波及度として図20に示される結果が、人気度として図18に示される結果が、それぞれ得られていたものとする。この場合、クラスタC1のテーマの旬度は、
ブログクラスタC1のテーマの旬度
=(A−B間)のトラックバックの波及度×(A−B)間のトラックバックの新鮮度+(A−C)間のトラックバックの波及度×(A−C)のトラックバックの新鮮度+(B−D)のトラックバックの波及度×B−Dのトラックバックの新鮮度+ブログ記事A〜Dの人気度の総和
=1×1.4+1×3.7+2×6.1+(10+5+3+2)
=37.3
となる。
More specifically, it is assumed that articles included in the cluster C1 are linked by trackback as shown in FIG. It is assumed that the result shown in FIG. 16 as the freshness, the result shown in FIG. 20 as the spread, and the result shown in FIG. 18 as the popularity are obtained. In this case, the seasonality of the theme of cluster C1 is
Season of the theme of the blog cluster C1 = Ripple of trackback between (A and B) × Freshness of trackback between (A−B) + Ripple of trackback between (A−C) × (A−C) Trackback Freshness + (BD) Trackback Ripple x BD Trackback Freshness + Sum of Popularity of Blog Articles A to D = 1 × 1.4 + 1 × 3.7 + 2 × 6.1 + (10 + 5 + 3 + 2)
= 37.3
It becomes.
旬度計算部21は、このようにして算出したテーマの旬度を、クラスタIDと対応付けて、旬度記録部22に記録する(図21参照;但し、クラスタC2、C3に関しては、既述の例と対応していない)。
The
尚、既述のように、トラックバックの波及度をトラックバック先の記事の波及度、トラックバックの新鮮度をトラックバック先記事の新鮮度と捉えれば、各記事についても旬度を計算することができる。具体的には、「記事の旬度」=波及度×新鮮度+人気度として求めればよい。 As described above, if the trackback ripple is regarded as the ripple of the trackback destination article and the trackback freshness is regarded as the freshness of the trackback destination article, the seasonality can be calculated for each article. Specifically, it may be obtained as “season of article” = spreading degree × freshness + popularity.
((ステップS005;表示))
表示部12は、記事記録部2、マージ後クラスタ情報を参照して、クラスタ毎に起点記事のタイトル取得する。また、旬度記録部22を参照して旬度の高い順にクラスタを並び替え、図22に示されるように、起点記事のタイトルと対応する旬度を表示画面に表示する。またこの際に、クラスタの特徴ベクトル(図10参照)を参照して、クラスタのキーワードを表示する。また、マージクラスタを表示する場合には、階層的に表示する様にしてもよい。また、起点記事以外の記事を関連記事として表示してもよい。この際、各記事の旬度を求めていれば、各記事の旬度を併せて表示してもよい。
((Step S005; Display))
The
以上説明したように、本実施形態によれば、インターネット上の複数の記事が、記事内容に基いてクラスタリングされ、旬度が高い順に起点記事のタイトルや、キーワードなどが表示されるので、ユーザは全ての記事を閲覧する事無く、最近の旬なテーマとしてどのようなテーマが存在するのかを知る事ができる。また、そのテーマの盛り上がり具合も把握することができる。 As described above, according to the present embodiment, a plurality of articles on the Internet are clustered based on the article content, and the title of the starting article, keywords, etc. are displayed in order from the highest season, so the user can You can find out what themes exist as recent seasonal themes without browsing all the articles. In addition, it is possible to grasp the excitement of the theme.
また、旬度を算出するにあたり波及度を用いているので、テーマがどれほど多面的に、どれほど広く注目を集めているかという点を、旬であるかどうかの評価に反映させることができる。 In addition, since the ripple degree is used to calculate the seasonality, it is possible to reflect in the evaluation of whether it is seasonal how much the theme is attracting attention.
また、旬度を算出するにあたり新鮮度を用いているので、昔の評価と最近の評価とが等価に扱われず、最近の評価ほど重みを増して旬度に反映させる事ができる。 In addition, since freshness is used in calculating seasonality, old evaluations and recent evaluations are not treated equivalently, and more recent evaluations can be weighted and reflected in seasonality.
(第2の実施形態)
本発明の第2の実施形態について説明する。図23は、本実施形態の旬度解析システムの構成を概略的に示すブロック図であり、図24は動作方法を示すフローチャートである。本実施形態の旬度解析システムは、第1の実施形態に対して、記事解析部9にシソーラス解析部23が追加されており(図23)、動作方法としては、単語のシソーラス解析を行うステップ(S202A)が追加されている。その他の構成、動作に関しては、同じ番号を付して省略を説明する。
(Second Embodiment)
A second embodiment of the present invention will be described. FIG. 23 is a block diagram schematically showing the configuration of the seasonality analysis system of this embodiment, and FIG. 24 is a flowchart showing the operation method. The seasonal analysis system of the present embodiment is different from the first embodiment in that a
記事解析部9が出現頻度データを生成すると(S202)、シソーラス解析部23は、シソーラス辞書(図示せず)を参照して、生成した出現頻度データに対してシソーラス解析を行う(S202A)。すなわち、抽出した単語のうち、シソーラスである(類似している)単語同士がないかどうかを判定し、シソーラスと判定された単語同士の出現頻度をマージし、一つの単語として扱う。シソーラス解析部9は、この様にして類似単語のマージされた出現頻度データを、マージ後出現頻度データとして、出現頻度記録部10に記録する(図 24のAS201)。以降のステップS203以降の処理では、第1の実施形態における出現頻度データに代えて、マージ後出現頻度データが用いられる。
When the
本実施形態によれば、単語の出現頻度のみをだけでなく、単語のシソーラスの解析を行い、類似単語を一つにまとめる事により、記事の単語のばらつきを抑えることができ、クラスタの類似度判定の際の精度を向上させることができる。 According to the present embodiment, not only the appearance frequency of words but also the thesaurus of the word is analyzed and the similar words are combined into one, so that the variation of the words of the articles can be suppressed, and the similarity of the clusters The accuracy at the time of determination can be improved.
尚、シソーラス解析部23がシソーラス解析を行うにあたっては、シソーラス解析部23がシソーラス辞書を電子データとして記憶しておく事でシソーラス解析を行ってもよいし、インターネット上のシソーラス辞書を利用してシソーラス解析を行うようにしてもよい。
When the
1 記事収集部
2 記事記録部
3 クラスタ生成部
4 クラスタ記録部
5 クラスタ再構成部
6 マージ後クラスタ記録部
7 旬度測定部
8 表示部
9 記事解析部
10 出現頻度記録部
11 特徴ベクトル生成部
12 特徴ベクトル記録部
13 類似度判定部
14 類似度記録部
15 新鮮度計算部
16 新鮮度記録部
17 人気度計算部
18 人気度記録部
19 波及度計算部
20 波及度記録部
21 旬度計算部
22 旬度記録部
23 シソーラス解析部
DESCRIPTION OF
Claims (25)
前記起点記事毎に、前記起点記事及び前記起点記事からリンクで辿ることのできる記事群からなる集合をクラスタとして設定し、前記クラスタと前記記事情報とを対応付けたクラスタ情報を生成するクラスタ生成部と、
前記記事データ及び前記クラスタ情報に基いて、前記クラスタに含まれる記事の記事内容に基いて異なるクラスタ間の類似度を判定し、判定結果に基いて類似する前記クラスタ同士をマージしてマージ後クラスタ情報を生成するクラスタ再構成部と、
前記マージ後クラスタ情報と前記記事データとを参照し、クラスタ毎に旬度を測定する旬度測定部と、
前記旬度測定部で測定された結果を出力装置に出力させる出力部と、
を具備する
旬度解析システム。 Select a plurality of starting articles from a plurality of articles posted on the Internet, collect article contents for each of the plurality of starting articles and a group of articles that can be traced from each starting article by a link, and An article collection unit that generates article data associated with the article information to be identified;
For each starting article, a cluster generation unit that sets the starting article and a set of articles that can be traced from the starting article as a cluster, and generates cluster information that associates the cluster with the article information. When,
Based on the article data and the cluster information, the similarity between different clusters is determined based on the article contents of the articles included in the cluster, and the similar clusters are merged by merging the similar clusters based on the determination result. A cluster reconfiguration unit that generates information;
A seasonality measuring unit that refers to the cluster information after merging and the article data, and measures the seasonality for each cluster,
An output unit for causing the output device to output the result measured by the seasonality measuring unit;
Seasonal analysis system.
前記クラスタ再構成部は、
前記記事データに基いて記事の記事内容を解析し、単語と出現頻度とを対応付けた出現頻度データを生成する記事解析部と、
前記クラスタ情報及び前記出現頻度データに基いて、前記クラスタ毎に、単語と出現頻度を対応付けたクラスタ特徴ベクトルを生成する特徴ベクトル生成部と、
前記クラスタ特徴ベクトルに基いて、異なるクラスタ間の類似度を計算し、判定結果に基いて類似するクラスタ同士をマージして、前記マージ後クラスタ情報を生成する類似度判定部と、を備える
旬度解析システム。 The seasonal analysis system according to claim 1,
The cluster reconfiguration unit
Analyzing the article content of the article based on the article data, and generating an appearance frequency data in which words and appearance frequencies are associated with each other,
Based on the cluster information and the appearance frequency data, for each cluster, a feature vector generation unit that generates a cluster feature vector in which a word and an appearance frequency are associated;
A similarity determination unit that calculates similarity between different clusters based on the cluster feature vector, merges similar clusters based on a determination result, and generates the cluster information after merging. Analysis system.
更に、
前記記事解析部によって生成された出現頻度データをシソーラス解析し、類似単語をマージしたマージ後出現頻度データを生成するシソーラス解析部
を具備し、
特徴ベクトル生成部は、前記マージ後出現頻度データを参照して前記クラスタ特徴ベクトルを生成する
旬度解析システム。 A seasonal analysis system according to claim 2,
Furthermore,
Thesaurus analysis is performed on the appearance frequency data generated by the article analysis unit, and a thesaurus analysis unit that generates merged appearance frequency data obtained by merging similar words,
The feature vector generation unit generates the cluster feature vector with reference to the merged appearance frequency data.
前記類似度判定部は、下記式1により、クラスタiとクラスタj間の類似度を計算する
旬度解析システム。 A seasonality analysis system according to any one of claims 1 to 3,
The similarity determination unit calculates the similarity between cluster i and cluster j according to the following formula 1.
Seasonal analysis system.
前記記事収集部は、前記記事データを生成するにあたり、更に、収集する記事に対して参照側によって参照側記事へ張られたリンクの元記事を特定するトラックバック情報と、前記トラックバックの張られた時刻とを収集して、前記記事情報と対応付けて前記記事データとし、
前記旬度測定部は、
新鮮度を計算する新鮮度計算部と、
前記新鮮度の結果に基いて、クラスタ毎に旬度を算出する旬度計算部とを備え、
前記新鮮度計算部は、前記トラックバック情報と、前記トラックバックの張られた時刻に基いて、前記トラックバックの新鮮度を計算する
旬度解析システム。 The seasonal analysis system according to claim 1,
In generating the article data, the article collection unit further includes trackback information for identifying an original article of a link attached to a reference-side article by a reference side with respect to an article to be collected, and a time at which the trackback is applied. And the article data in association with the article information,
The seasonality measuring unit is
A freshness calculator for calculating freshness;
Based on the result of the freshness, with a seasonality calculation unit that calculates the seasonality for each cluster,
The freshness calculation unit is a seasonal analysis system that calculates the freshness of the trackback based on the trackback information and the time when the trackback is applied.
前記新鮮度計算部は、前記クラスタ毎に新鮮度を計算するにあたり、下記式2により、新鮮度F(t)を計算する
旬度解析システム A seasonal analysis system according to claim 5,
The freshness calculation unit calculates the freshness F (t) according to the following equation 2 when calculating the freshness for each cluster.
Seasonal analysis system
前記記事収集部は、前記記事データを生成するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報を収集して、前記記事情報と対応付け、
前記旬度測定部は、
前記クラスタ毎に波及度を計算する波及度計算部と、
前記波及度の結果に基いて、旬度を算出する旬度計算部とを備え、
前記波及度計算部は、前記トラックバック情報に基いて、前記トラックバックの前記起点記事からの深さを算出し、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの前記起点記事からの深さとに基いて、前記波及度を計算する
旬度解析システム。 The seasonal analysis system according to claim 1,
The article collection unit, when generating the article data, further collects trackback information for specifying an original article of the trackback that is attached to the collected article, and associates with the article information,
The seasonality measuring unit is
A ripple calculation unit for calculating the ripple for each cluster;
Based on the results of the ripples, a seasonal calculation unit for calculating the seasonality,
The ripple calculation unit calculates the depth of the trackback from the starting article based on the trackback information, and determines the number of the trackbacks included in the cluster, the depth of the trackback from the starting article, A seasonal analysis system for calculating the spread based on the above.
前記波及度計算部は、下記式3により、波及度I(d)を計算する
旬度解析システム。 The seasonal analysis system according to claim 7,
The ripple degree calculation unit calculates the ripple degree I (d) according to Equation 3 below.
Seasonal analysis system.
前記記事収集部は、前記記事データを生成するにあたり、更に、収集される記事に対する読み手の評価を示す評価情報を収集して、前記記事情報と対応付け、
前記旬度測定部は、
前記クラスタ毎に人気度を計算する人気度計算部と、
前記人気度の結果に基いて、旬度を算出する旬度計算部とを備え、
前記人気度計算部は、前記クラスタ中に含まれる記事の数と、記事の前記評価情報とに基いて、前記人気度を計算する
旬度解析システム。 The seasonal analysis system according to claim 1,
In generating the article data, the article collection unit further collects evaluation information indicating a reader's evaluation on the collected articles, and associates with the article information,
The seasonality measuring unit is
A popularity calculation unit for calculating the popularity for each cluster;
Based on the result of popularity, a seasonal calculation unit for calculating the seasonality,
The popularity calculation unit is a seasonal analysis system that calculates the popularity based on the number of articles included in the cluster and the evaluation information of articles.
前記評価情報は、収集される記事に対するソーシャルブックマーク数又はアクセス数である
旬度解析システム。 The seasonal analysis system according to claim 9,
The evaluation information is a seasonal analysis system that is the number of social bookmarks or the number of accesses to collected articles.
前記記事収集部は、前記記事データを生成するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報と、前記トラックバックの張られた時刻と、収集される記事に対する読み手の評価を示す評価情報と、を収集して、前記記事情報と対応付け、
前記旬度測定部は、
前記クラスタ毎に、前記クラスタ中に含まれる記事の数と、記事の前記評価情報とに基いて前記人気度を計算する人気度計算部と、
前記クラスタ毎に、前記トラックバック情報に基いて、前記トラックバックの前記起点記事からの深さを算出し、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの前記起点記事からの深さとに基いて波及度を計算する波及度計算部と、
前記クラスタ毎に、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの張られた時刻とに基いて、新鮮度を計算する新鮮度計算部と、
前記人気度、前記波及度、及び前記新鮮度の結果に基いて、旬度を算出する旬度計算部とを備える
旬度解析システム。 The seasonal analysis system according to claim 1,
When generating the article data, the article collection unit further includes trackback information for identifying an original article of the trackback that is applied to the collected article, the time when the trackback is applied, and the collected article. Collecting evaluation information indicating the reader's evaluation and associating it with the article information;
The seasonality measuring unit is
For each cluster, a popularity calculating unit that calculates the popularity based on the number of articles included in the cluster and the evaluation information of the articles;
For each cluster, the depth of the trackback from the starting article is calculated based on the trackback information, and based on the number of trackbacks included in the cluster and the depth of the trackback from the starting article. And a ripple degree calculation unit for calculating the ripple degree,
For each cluster, a freshness calculation unit that calculates the freshness based on the number of the trackbacks included in the cluster and the time at which the trackback is stretched;
A seasonality analysis system comprising: a seasonality calculation unit that calculates seasonality based on the popularity, the spread, and the freshness results.
前記新鮮度計算部は、前記クラスタ毎に新鮮度を計算するにあたり、下記式4により、新鮮度F(t)を計算し、
前記波及度計算部は、下記式5により、波及度I(d)を計算し、
前記人気度計算部は、収集される記事に対するソーシャルブックマーク数又はアクセス数でを前記評価情報として、前記クラスタ毎の総ソーシャルブックマーク数又は総アクセス数を、前記人気度P(n)として計算し、
前記旬度計算部は、下記式6により、旬度を計算する
旬度解析システム。 The seasonal analysis system according to claim 11,
In calculating the freshness for each cluster, the freshness calculation unit calculates the freshness F (t) according to the following formula 4.
The ripple degree calculation unit calculates the ripple degree I (d) according to the following formula 5.
The popularity calculating unit calculates the number of social bookmarks or the number of accesses to the collected article as the evaluation information, calculates the total number of social bookmarks or the total number of accesses for each cluster as the popularity P (n),
The seasonality calculation unit calculates seasonality according to the following formula 6.
Seasonal analysis system.
前記記事収集ステップで収集される前記起点記事毎に、前記起点記事と前記起点記事からリンクで辿ることのできる記事群とを含む集合をクラスタとし、前記クラスタと前記記事情報との対応関係を示すクラスタ情報を生成するクラスタ生成ステップと、
前記記事データと前記前記クラスタ情報とに基いて、異なるクラスタ間の記事内容に関する類似度をを計算し、計算結果に基いて類似する前記クラスタ同士をマージして、マージ後クラスタ情報を生成するクラスタ再構成ステップと、
前記マージ後クラスタ情報と、前記記事収集ステップで収集された記事の内容とに基いて、前記クラスタ毎に旬度を測定する旬度測定ステップと、
前記旬度測定ステップの測定結果を出力装置によって出力させる出力ステップと、
を具備する
旬度解析方法。 Among a plurality of articles posted on the web, article information that collects article contents and identifies articles about a plurality of starting articles and a group of articles that can be traced from each of the plurality of starting articles. An article collection step for generating article data in association with each other;
For each starting article collected in the article collecting step, a set including the starting article and a group of articles that can be traced from the starting article by a link is defined as a cluster, and the correspondence between the cluster and the article information is indicated. A cluster generation step for generating cluster information;
Clusters that calculate similarity between article contents between different clusters based on the article data and the cluster information, merge similar clusters based on the calculation results, and generate cluster information after merging A reconfiguration step;
A seasonality measuring step of measuring seasonality for each cluster based on the cluster information after merging and the content of the articles collected in the article collecting step;
An output step of causing the output device to output the measurement result of the seasonal measurement step;
A seasonal analysis method comprising:
前記クラスタ再構成ステップは、
前記記事収集ステップで収集された記事内容を解析して、単語と出現頻度とを対応付けた出現頻度データを生成する出現頻度データ生成ステップと、
前記クラスタ情報と前記出現頻度データとに基いて、前記クラスタ毎に、単語と出現頻度を対応付けたクラスタ特徴ベクトルを生成するクラスタ特徴ベクトル生成ステップと、
前記クラスタ特徴ベクトルに基いて、異なるクラスタ間の類似度を計算し、判定結果に基いて類似するクラスタ同士をまとめ、てマージ後クラスタ情報を生成する類似度判定ステップと、を備える
旬度解析方法。 The seasonal analysis method according to claim 13,
The cluster reconfiguration step includes:
Analyzing the content of the article collected in the article collecting step, and generating an appearance frequency data generating step for generating appearance frequency data in which words and appearance frequencies are associated with each other,
Based on the cluster information and the appearance frequency data, a cluster feature vector generation step for generating a cluster feature vector in which a word and an appearance frequency are associated for each cluster;
A similarity analysis step comprising: calculating similarity between different clusters based on the cluster feature vector, combining similar clusters based on a determination result, and generating cluster information after merging. .
前記出現頻度データ生成ステップにおいて、シソーラス辞書を参照し、類似単語がマージされるように、前記出現頻度データを生成する
旬度解析方法。 The seasonal analysis method according to claim 14, wherein
A seasonality analysis method for generating the appearance frequency data so that similar words are merged with reference to a thesaurus dictionary in the appearance frequency data generation step.
前記類似度判定ステップにおいて、異なる前記クラスタ間で類似度を計算するにあたり、
下記式7により類似度を計算する
旬度解析方法。 A seasonality analysis method according to any one of claims 13 to 15,
In calculating the similarity between the different clusters in the similarity determination step,
Calculate the similarity using Equation 7 below
Seasonal analysis method.
前記記事収集ステップにおいて、前記記事データを生成するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報と、前記トラックバックの張られた時刻とを収集し、前記記事情報と対応付けて前記記事−データとし、
前記旬度測定ステップは、
前記クラスタ毎に新鮮度を計算する新鮮度計算ステップと、
前記新鮮度の結果に基いて、旬度を算出する旬度計算ステップとを備え、
前記新鮮度計算ステップにおいて、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの張られた時刻とに基いて、前記新鮮度を計算する
旬度解析方法。 The seasonal analysis method according to claim 13,
In the article collection step, in generating the article data, the article further collects trackback information for identifying the original article of the trackback applied to the collected article and the time when the trackback was applied, and the article The article-data is associated with the information,
The seasonal measurement step includes
A freshness calculating step for calculating freshness for each cluster;
A seasonality calculating step for calculating the seasonality based on the freshness result,
A seasonality analysis method for calculating the freshness in the freshness calculation step, based on the number of the trackbacks included in the cluster and the time when the trackback is applied.
前記新鮮度計算ステップは、前記クラスタ毎に新鮮度を計算するにあたり、下記式8により、新鮮度F(t)を計算する
旬度解析方法。 The seasonal analysis system according to claim 17,
In the freshness calculation step, the freshness F (t) is calculated by the following equation 8 when calculating the freshness for each cluster.
Seasonal analysis method.
前記記事収集ステップにおいて、前記記事データを生成するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報を収集して、前記記事データとし、
前記旬度測定ステップは、
前記クラスタ毎に波及度を計算する波及度計算ステップと、
前記波及度の結果に基いて、旬度を算出する旬度計算ステップと、備え、
前記波及度計算ステップにおいて、前記トラックバック情報に基いて、前記トラックバックの前記起点記事からの深さを算出し、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの前記起点記事からの深さとに基いて、前記波及度を計算する
旬度解析方法。 The seasonal analysis method according to claim 13,
In the article collection step, when generating the article data, further collecting trackback information for specifying an original article of the trackback that is attached to the collected article, and obtaining the article data,
The seasonal measurement step includes
A ripple calculation step for calculating the ripple for each cluster;
A seasonality calculating step for calculating the seasonality based on the result of the spread,
In the ripple degree calculating step, the depth of the trackback from the starting article is calculated based on the trackback information, and the number of the trackbacks included in the cluster, the depth of the trackback from the starting article, A seasonal analysis method for calculating the ripple degree based on the above.
前記波及度計算ステップにおいて、下記式9により、波及度I(d)を計算する
旬度解析方法。 The seasonal analysis method according to claim 19, wherein
In the ripple calculation step, the ripple I (d) is calculated by the following formula 9.
Seasonal analysis method.
前記記事収集ステップにおいて、前記記事データを生成するにあたり、更に、収集される記事に対する読み手の評価を示す評価情報を収集して、前記記事情報と対応付けて前記記事データとし、
前記旬度測定ステップは、
前記クラスタ毎に人気度を計算する人気度計算ステップと、
前記人気度の結果に基いて、旬度を算出する旬度計算ステップと、を備え、
前記人気度計算ステップにおいて、前記クラスタ中に含まれる記事の数と、記事の前記評価情報とに基いて、前記人気度を計算する
旬度解析方法。 The seasonal analysis method according to claim 13,
In the article collection step, when generating the article data, further collecting evaluation information indicating a reader's evaluation on the collected articles, and associating with the article information as the article data,
The seasonal measurement step includes
A popularity calculation step for calculating the popularity for each cluster;
A seasonality calculating step for calculating the seasonality based on the result of the popularity, and
A seasonality analysis method for calculating the popularity based on the number of articles included in the cluster and the evaluation information of articles in the popularity calculating step.
前記評価情報は、収集される記事に対するソーシャルブックマーク数又はアクセス数である
旬度解析方法。 The seasonal analysis method according to claim 21,
The evaluation information is a seasonal analysis method that is the number of social bookmarks or the number of accesses to collected articles.
前記記事収集ステップにおいて、前記記事データを生成するにあたり、更に、収集される記事に対して張られるトラックバックの元記事を特定するトラックバック情報と、前記トラックバックの張られた時刻と、収集される記事に対する読み手の評価を示す評価情報とを収集して、前記記事データとし、
前記旬度測定ステップは、
前記クラスタ毎に、前記クラスタ中に含まれる記事の数と、記事の前記評価情報とに基いて前記人気度を計算する人気度計算ステップと、
前記クラスタ毎に、前記トラックバック情報に基いて、前記トラックバックの前記起点記事からの深さを算出し、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの前記起点記事からの深さとに基いて波及度を計算する波及度計算ステップと、
前記クラスタ毎に、前記クラスタ中に含まれる前記トラックバックの数と、前記トラックバックの張られた時刻とに基いて、新鮮度を計算する新鮮度計算ステップと、
前記人気度、前記波及度、及び前記新鮮度の結果に基いて、旬度を算出する旬度計算ステップと、備える
旬度解析方法。 The seasonal analysis method according to claim 13,
In the article collection step, in generating the article data, the trackback information for identifying the original article of the trackback that is applied to the collected article, the time when the trackback is applied, and the collected article Collect evaluation information indicating the reader's evaluation as the article data,
The seasonal measurement step includes
For each cluster, a popularity calculation step for calculating the popularity based on the number of articles included in the cluster and the evaluation information of the articles;
For each cluster, the depth of the trackback from the starting article is calculated based on the trackback information, and based on the number of trackbacks included in the cluster and the depth of the trackback from the starting article. And a ripple degree calculating step for calculating the ripple degree,
For each cluster, a freshness calculation step of calculating a freshness based on the number of the trackbacks included in the cluster and the time when the trackback is stretched;
A seasonality calculating method for calculating a seasonality based on the results of the popularity degree, the ripple degree, and the freshness degree, and a seasonality analysis method.
前記新鮮度計算ステップにおいて、下記式10により、新鮮度F(t)を計算し、
前記波及度計算ステップにおいて、下記式11により、波及度I(d)を計算し、
前記人気度計算部は、収集される記事に対するソーシャルブックマーク数又はアクセス数でを前記評価情報として、前記クラスタ毎の総ソーシャルブックマーク数又は総アクセス数を、前記人気度P(n)として計算し、
前記旬度計算部は、下記式12により、旬度を計算する
旬度解析方法。 The seasonal analysis method according to claim 23, wherein
In the freshness calculation step, the freshness F (t) is calculated by the following equation 10;
In the ripple degree calculation step, the ripple degree I (d) is calculated by the following equation 11;
The popularity calculating unit calculates the number of social bookmarks or the number of accesses to the collected article as the evaluation information, calculates the total number of social bookmarks or the total number of accesses for each cluster as the popularity P (n),
The seasonality calculation unit calculates the seasonality according to the following formula 12.
Seasonal analysis method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007073388A JP4894580B2 (en) | 2007-03-20 | 2007-03-20 | Seasonal analysis system, seasonality analysis method, and seasonality analysis program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007073388A JP4894580B2 (en) | 2007-03-20 | 2007-03-20 | Seasonal analysis system, seasonality analysis method, and seasonality analysis program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008234338A JP2008234338A (en) | 2008-10-02 |
JP4894580B2 true JP4894580B2 (en) | 2012-03-14 |
Family
ID=39907033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007073388A Expired - Fee Related JP4894580B2 (en) | 2007-03-20 | 2007-03-20 | Seasonal analysis system, seasonality analysis method, and seasonality analysis program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4894580B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763420A (en) * | 2018-05-24 | 2018-11-06 | 广州视源电子科技股份有限公司 | Data object classification method, device, terminal and computer-readable storage medium |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5132511B2 (en) * | 2008-10-08 | 2013-01-30 | ヤフー株式会社 | Search method using knowledge DB |
JP5155130B2 (en) * | 2008-12-15 | 2013-02-27 | ヤフー株式会社 | Category presentation device |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
JP6297835B2 (en) * | 2013-12-26 | 2018-03-20 | Kddi株式会社 | Mining analyzer, method and program |
US9589061B2 (en) * | 2014-04-04 | 2017-03-07 | Fujitsu Limited | Collecting learning materials for informal learning |
JP6429383B2 (en) * | 2015-01-13 | 2018-11-28 | 日本放送協会 | Subordinate expression extraction apparatus and program |
WO2020012595A1 (en) * | 2018-07-12 | 2020-01-16 | 楽天株式会社 | Information processing device, information processing method, program, and storage medium |
JP7165165B2 (en) * | 2019-08-21 | 2022-11-02 | ネイバー コーポレーション | Method and system for long-term highly relevant document clustering |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1115832A (en) * | 1997-06-25 | 1999-01-22 | Fujitsu Ltd | Cluster generation device and recording medium |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
-
2007
- 2007-03-20 JP JP2007073388A patent/JP4894580B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763420A (en) * | 2018-05-24 | 2018-11-06 | 广州视源电子科技股份有限公司 | Data object classification method, device, terminal and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2008234338A (en) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4894580B2 (en) | Seasonal analysis system, seasonality analysis method, and seasonality analysis program | |
Jäschke et al. | Tag recommendations in folksonomies | |
US20060004753A1 (en) | System and method for document analysis, processing and information extraction | |
US20170323199A1 (en) | Method and system for training and neural network models for large number of discrete features for information rertieval | |
Papadopoulos et al. | A graph-based clustering scheme for identifying related tags in folksonomies | |
KR100859918B1 (en) | Method and apparatus for evaluating searched contents using user feedback and providing search results using evaluation results | |
US20130080428A1 (en) | User-Centric Opinion Analysis for Customer Relationship Management | |
CN103425799A (en) | Personalized research direction recommending system and method based on themes | |
KR101955244B1 (en) | Method of evaluating paper and method of recommending expert | |
CN105095281A (en) | Website classification catalogue optimization analysis method based on log mining | |
US20120117043A1 (en) | Measuring Duplication in Search Results | |
CN112487283A (en) | Method and device for training model, electronic equipment and readable storage medium | |
KR100987330B1 (en) | Multi-concept network creation system and method based on user web usage information | |
Lalmas et al. | Evaluating XML retrieval effectiveness at INEX | |
Wolcott et al. | Modeling time-dependent and-independent indicators to facilitate identification of breakthrough research papers | |
KR101212457B1 (en) | Web page searching system and method using access time and frequency | |
JP4970919B2 (en) | Browsing target information evaluation system, method, and program | |
Gargiulo et al. | A deep learning approach for scientific paper semantic ranking | |
JP2022035314A (en) | Information processing unit and program | |
CN103942232A (en) | Method and equipment for mining intentions | |
Yu et al. | Point-of-interest recommendation based on user contextual behavior semantics | |
Hao et al. | An Algorithm for Generating a Recommended Rule Set Based on Learner's Browse Interest | |
JP4569380B2 (en) | Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program | |
JP4539616B2 (en) | Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof | |
Kumar et al. | A sequence-based and context modelling framework for recommendation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091027 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111129 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111212 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150106 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |