JP2011108053A - System for evaluating news article - Google Patents
System for evaluating news article Download PDFInfo
- Publication number
- JP2011108053A JP2011108053A JP2009263398A JP2009263398A JP2011108053A JP 2011108053 A JP2011108053 A JP 2011108053A JP 2009263398 A JP2009263398 A JP 2009263398A JP 2009263398 A JP2009263398 A JP 2009263398A JP 2011108053 A JP2011108053 A JP 2011108053A
- Authority
- JP
- Japan
- Prior art keywords
- article
- blog
- news
- news article
- articles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000011156 evaluation Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
この発明はニュース記事評価システムに係り、特に、インターネット上に開設された各ニュースサイトが提供するニュース記事の影響力を、具体的な数値に基づいて評価する技術に関する。 The present invention relates to a news article evaluation system, and more particularly to a technique for evaluating the influence of a news article provided by each news site established on the Internet based on specific numerical values.
今日、インターネットの普及に伴い、新聞や雑誌といった従来型の紙媒体に代わり、インターネット上に自社の新製品情報や広告情報を公開し、その認知度の向上を目指す企業が増えてきている。
同じく、インターネットの普及に伴い、Webログ(以下「ブログ」)と称する簡易的な日記サイトを開設し、日々の雑感をインターネット上に公開する個人が増えてきており、多くの購読者を抱えた人気ブログの場合、商品の認知度や売上の向上に大きな影響力を有するようになってきている。
Today, with the spread of the Internet, an increasing number of companies are aiming to increase their recognition by releasing their new product information and advertising information on the Internet instead of conventional paper media such as newspapers and magazines.
Similarly, along with the spread of the Internet, a simple diary site called a web log (hereinafter referred to as “blog”) has been opened, and an increasing number of individuals publish their daily feelings on the Internet. In the case of popular blogs, it has come to have a great influence on the improvement of product recognition and sales.
ブログに掲載された情報は顧客のナマの声を反映しており、可視化されたクチコミ情報といえるため、非特許文献1に示すように、ブログ記事を収集・分析することにより、企業のマーケティング活動にフィードバックさせるサービスが既に登場している。
この非特許文献1に記載の分析サービスの場合、キャンペーンやテレビCM放送の前後に亘るブログ記事数の推移やその内容(好意的/批判的)を自動解析し、企業ユーザにレポートする機能を備えている。また、このサービスは、特定企業の商品やサービスについて記述しているブログ開設者(以下「ブロガー」)の属性を分析し、レポートする機能をも備えている。
In the case of the analysis service described in this
このため、このサービスを利用することにより、企業ユーザは自社の広告活動や広報活動がうまく機能しているか否かを確認したり、つぎの展開を模索する上で有益な指針を得ることが可能となる。 For this reason, by using this service, corporate users can check whether their advertising and publicity activities are functioning well, and can obtain useful guidelines for exploring the next development. It becomes.
しかしながら、従来の分析サービスはあくまでも企業の広告活動や広報活動自体の適否を判定するものであり、数あるニュースサイトの中で、どこのサイトのニュース記事が最もブロガーに影響力を及ぼしているのか、どのニュースサイトに自社情報を掲載すれば意図したクチコミ情報が醸成されるのか、については回答不能であった。
企業の広報担当者あるいは広告担当者にとっては、限られた予算の範囲内で最大限の効果を上げることが義務づけられており、そのためには最適なニュースサイトの選定が極めて重要となるにもかかわらず、個々のニュース記事の影響力を定量的に計測する仕組みが存在しなかったため、単純にニュースサイトの規模や定期購読者数、ページビュー数、ブランドイメージ等に基づいて掲載サイトが選定されてきた。
However, conventional analysis services only determine the suitability of corporate advertising and publicity activities, and among the many news sites, which site's news articles have the most influence on bloggers? , It was impossible to respond to which news site the company's information would publish the intended review information.
For corporate spokespersons or advertising professionals, it is obliged to achieve the maximum effect within a limited budget, and the selection of the optimal news site is extremely important for this purpose. Since there was no mechanism for quantitatively measuring the influence of individual news articles, the posting site has been selected simply based on the size of the news site, the number of subscribers, page views, brand image, etc. It was.
この発明は、従来のこのような問題を解決するために案出されたものであり、個々のニュース記事の影響力を定量的に算出することを可能とする技術の提供を目的としている。 The present invention has been devised in order to solve such a conventional problem, and an object of the present invention is to provide a technique capable of quantitatively calculating the influence of each news article.
上記の目的を達成するため、請求項1に記載したニュース記事評価システムは、分析案件毎にキーワードを設定しておく記憶手段と、インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、上記対応関係判定手段は、各ブログ記事中に設定されたリンク情報と各ニュース記事のURLとを比較し、両者が一致している場合にブログ記事とニュース記事との対応関係を認定することを特徴としている。
In order to achieve the above object, a news article evaluation system according to
請求項2に記載したニュース記事評価システムは、キーワードを設定しておく記憶手段と、インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、上記対応関係判定手段は、各ブログ記事と各ニュース記事間の最長共通文字列数(=引用文字数)を算出し、この最長共通文字列数が最も多く、かつ所定の閾値を超えているブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴としている。
The news article evaluation system according to
請求項3に記載したニュース記事評価システムは、キーワードを設定しておく記憶手段と、インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、上記対応関係判定手段は、各ブログ記事と各ニュース記事間の類似度を算出し、この類似度が最も高いブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴としている。
The news article evaluation system according to
請求項4に記載したニュース記事評価システムは、請求項3に記載のシステムであって、さらに上記対応関係判定手段が、各ニュース記事及びブログ記事を形態素単位に分解し、所定の品詞に係る形態素を各記事から抽出する処理と、抽出された各形態素のTF-IDF値を算出する処理と、この各形態素のTF-IDF値に基づいて各記事をベクトル化する処理と、各ニュース記事のベクトルと各ブログ記事のベクトル間の内積を求める処理と、この内積が所定の閾値に最も近いニュース記事とブログ記事との組合せに対して対応関係を認定する処理を実行することを特徴としている。
The news article evaluation system according to
請求項5に記載したニュース記事評価システムは、請求項1〜4に記載のシステムであって、さらに、分析案件毎に少なくとも一つのサブキーワードを設定しておく記憶手段を備え、上記影響力解析手段が、各ニュース記事に対応付けられたブログ記事の中で、上記サブキーワードを含むものの件数を集計し、このサブキーワード毎のブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する処理を実行することを特徴としている。
The news article evaluation system according to
請求項6に記載したニュース記事評価システムは、請求項1〜5に記載のシステムであって、さらに、ブログ記事の内容が肯定的か否定的かを判定するために用いる複数の評価語と、各評価語の有する肯定的意味合いの強弱あるいは否定的意味合いの強弱に応じて設定されたポイントとの組合せを格納しておく評価語辞書と、各ブログ記事を形態素単位に分解し、所定の品詞を備えた形態素を抽出する手段と、各形態素と上記評価語とを比較し、評価語と一致する形態素に対して該当のポイントを付与する手段と、ブログ記事単位でポイントを集計し、当該集計ポイントが設定値以上の場合に当該ブログ記事の内容を肯定的と認定し、設定値未満の場合には否定的と認定する手段とを備え、上記影響力解析手段は、上記ブログ記事の総数の中で、肯定的と認定されたブログ記事の数と、否定的と認定されたブログ記事の数を集計し、上記解析結果記憶手段に格納する処理を実行することを特徴としている。
The news article evaluation system according to
請求項1に記載したニュース記事評価システムによれば、所定のキーワードを含み、したがって同一事象について報道する各ニュース記事毎に、それぞれのニュース記事にリンクを張っているブログ記事の件数が算出されるため、このブログ記事の総数を相互に比較することにより、最も影響力の大きいニュース記事を特定することが可能となる。
According to the news article evaluation system described in
請求項2に記載したニュース記事評価システムによれば、所定のキーワードを含み、したがって同一事象について報道する各ニュース記事毎に、それぞれのニュース記事を引用しているブログ記事の件数が算出されるため、このブログ記事の総数を相互に比較することにより、最も影響力の大きいニュース記事を特定することが可能となる。
According to the news article evaluation system described in
請求項3及び4に記載したニュース記事評価システムによれば、所定のキーワードを含み、したがって同一事象について報道する各ニュース記事毎に、それぞれのニュース記事と内容において類似しているブログ記事の件数が算出されるため、このブログ記事の総数を相互に比較することにより、最も影響力の大きいニュース記事を特定することが可能となる。
According to the news article evaluation system described in
請求項5に記載したニュース記事評価システムにあっては、各ニュース記事に対応付けられたブログ記事の中で、所定のサブキーワードを含むブログ記事の件数を集計する機能を備えているため、このサブキーワードに関する各ニュース記事の記述内容の巧拙を評価することが可能となる。
The news article evaluation system according to
請求項6に記載したニュース記事評価システムによれば、各ニュース記事に対応付けられたブログ記事の中で、肯定的な内容のものと否定的な内容のものとの構成比率がわかるため、これに基づいて各ニュース記事の記述内容の巧拙を推し量ることが可能となる。
According to the news article evaluation system described in
図1は、この発明に係るニュース記事評価システム10の全体構成を示すブロック図であり、記事収集部12と、ニュース記事記憶部14と、ブログ記事記憶部16と、対応関係判定部18と、影響力解析部20と、評価語辞書21と、解析結果記憶部22と、ユーザ設定記憶部24を備えている。
FIG. 1 is a block diagram showing the overall configuration of a news
上記の記事収集部12、対応関係判定部18及び影響力解析部20は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記のニュース記事記憶部14、ブログ記事記憶部16、評価語辞書21、解析結果記憶部22及びユーザ設定記憶部24は、同コンピュータのハードディスク内に設けられている。
The
The news
上記記事収集部12は、インターネット26を介して、複数のブログサーバ28及び複数のニュースサーバ30と接続されている。
ブログサーバ28は、インターネットを介して接続されたクライアント端末32に対して、ブログ記事の投稿受付機能及びブログ記事の公開機能を提供するWebサーバである。
また、ニュースサーバ30は、インターネットを介して接続されたクライアント端末32に対して、ニュース記事の公開機能を提供するWebサーバである。
The
The
The
上記解析結果記憶部22及びユーザ設定記憶部24には、通信ネットワークを介してWebサーバ34が接続されている。
このWebサーバ34は、インターネット等の通信ネットワークで接続された複数のクライアント端末36に対して、ニュース記事の評価サービスを提供する機能を備えている。
A
The
このニュース記事評価システム10の場合、主として広告企画会社や広告代理店が、自社が関与した広告対象製品(サービスを含む)について、どのニュースサイトに掲載された記事がブロガーに対して大きな影響を及ぼしたのかを検証する目的に利用される。もちろん、メーカー自身が自社製品に関して同様の検証を行う目的にも有効に活用できる。
In the case of this news
まず、このニュース記事評価システム10の利用者である広告企画会社等(以下「ユーザ企業」)の担当者は、クライアント端末36からWebサーバ34内の専用サイトにアクセスし、自己のアカウント及びパスワードを入力してログインする。
図2は、クライアント端末36のWebブラウザ上に表示された分析案件一覧画面40を示しており、当該ユーザ企業が分析対象として登録している分析案件がリスト表示されている。
この分析案件リスト42には、案件名、実施タイプ、実施間隔、初回実施日、最終実施日、設定内容、結果の表示項目が設定されている。
First, a person in charge of the news
FIG. 2 shows an analysis
In this
ここで担当者が「案件追加」のボタン44をクリックすると、図3に示すように、分析案件追加画面46が表示される。
これに対し担当者は、まず案件名設定欄48、キーワード指定欄49、サブキーワード指定欄50に対して、必要な入力を行う。図においては、案件名とキーワードに同じ「ePhone 3GS」が設定されているが、両者を異ならせることも当然に可能である。
Here, when the person in charge clicks the “add case”
On the other hand, the person in charge first makes necessary inputs to the case
詳細は後述するが、ここで指定したキーワードに基づいて記事収集部12は各ニュースサイト及びブログサイトからニュース記事及びブログ記事を抽出し、ニュース記事記憶部14及びブログ記事記憶部16にそれぞれ格納することとなる。これに対しサブキーワードは、キーワードに基づいて抽出された各ブログ記事中に、当該サブキーワードが含まれているか否かを検証するために利用される。
デフォルトでは3つのサブキーワード指定欄50が設けられているが、担当者は「追加」ボタン51をクリックすることにより、さらに多くのサブキーワードを設定することができる。
Although details will be described later, based on the keyword specified here, the
By default, three
つぎに担当者は、基準日指定欄52において、分析対象となるニュース記事及びブログ記事をフィルタリングするための基準日(年月日)を設定する。
デフォルトでは現在の日付が設定されているため、変更の必要がある場合のみ、任意の日付を担当者は選択入力する。
Next, the person in charge sets a reference date (year / month / day) for filtering news articles and blog articles to be analyzed in the reference
Since the current date is set by default, the person in charge selects and inputs an arbitrary date only when it needs to be changed.
つぎに担当者は、ニュースサイト指定欄54において、記事の収集先となるニュースサイトの設定を行う。
まず既定のニュースサイトのチェックボックス55にチェックを入れると、システムの側で予め用意した複数のニュースサイトを包括的に指定可能となる。ここで担当者が「確認」ボタン56を押下すると、既定のニュースサイトの一覧画面が表示される(図示省略)。ここに列挙された各ニュースサイトのチェックを外すことにより、担当者は不要と考えるニュースサイトを収集先から除外することができる。
Next, the person in charge sets a news site as a collection destination of articles in the news
First, when a
また、既定のニュースサイトに漏れがある場合、担当者は「特定ニュースサイトの登録」ボタン57を押下する。この結果、特定ニュースサイトの指定画面が表示されるため(図示省略)、担当者は当該ニュースサイトの名称及びURLを入力し、登録ボタンを押下する。これにより、当該案件に関して特定ニュースサイトが記事の収集先として追加される。
If there is a leak in the default news site, the person in charge presses the “Register specific news site”
さらに担当者は、「特定記事の追加」ボタン58を押下して特定記事の指定画面を表示させ(図示省略)、当該ニュース記事のURLを入力することにより、当該案件に関して特定ニュース記事を収集対象に含めることができる。
In addition, the person in charge presses the “Add Specific Article”
つぎに担当者は、実施タイプ指定欄60において、「一時実施」及び「定期実施」の何れかのラジオボタンにチェックを入れ、実施タイプを二者択一的に選択する。
ここで「定期実施」を選択した担当者は、その実施間隔についても設定を行う。例えば、基本間隔設定欄61において「週」を選択すると共に、詳細間隔設定欄62において「1週ごと」及び「月曜日」を選択することが該当する。
Next, the person in charge checks one of the radio buttons of “temporary execution” and “periodic execution” in the execution
Here, the person in charge who selects “Periodic execution” also sets the execution interval. For example, “week” is selected in the basic
図示は省略したが、基本間隔として「日」を選択した場合には、何日ごとに実施するのかを指定するための詳細間隔設定欄が再表示される。また、基本間隔として「月」を選択した場合には、何ヶ月ごとに実施するのか、及び毎月何日に実施するのかを指定するための詳細間隔設定欄が再表示される。 Although illustration is omitted, when “day” is selected as the basic interval, a detailed interval setting field for designating every number of days is displayed again. In addition, when “month” is selected as the basic interval, the detailed interval setting column for designating every month and how many days every month is displayed again.
分析案件追加画面46において必要事項の入力を済ませた担当者が「登録」ボタン63をクリックすると、入力データがクライアント端末36からWebサーバ34に送信される。Webサーバ34は、この入力データをユーザ設定記憶部24に格納する。
担当者は、図2の分析案件一覧画面40において、「設定内容」項目の「確認・変更」ボタン64をクリックすることにより、一旦設定した内容を自由に変更することができる。
When the person in charge who has entered the necessary items on the analysis
The person in charge can freely change the contents once set by clicking the “confirmation / change”
以後、担当者が設定した内容に従い、ニュース記事評価システム10によって自動的にニュース記事の収集処理、ブログ記事の収集処理、各ブログ記事とニュース記事との対応付け処理、各ニュース記事の影響力解析処理が実行され、解析結果記憶部22に解析結果が蓄積される。
これに対し担当者は、クライアント端末36からWebサーバ34にアクセスし、解析結果を随時参照可能となる。
具体的には、図2の分析案件一覧画面40において、「結果」項目の「表示」ボタン65をクリックすると、Webサーバ34から分析結果一覧画面がクライアント端末36に送信される。
Thereafter, according to the content set by the person in charge, the news
On the other hand, the person in charge can access the
Specifically, when the “display”
図4は、クライアント端末36のWebブラウザ上に表示された分析結果一覧画面68を例示するものであり、ニュース記事毎に当該ニュース記事の影響を受けたと推定されるブログの総数等が列記されている。
例えば、NO.1の「Responde」のニュースサイトに掲載された「ePhone 3GS」に関する記事の場合、掲載日が2009年1月25日であり、関連ブログの総数が120件に上り、その中で記事の内容がポジティブ(肯定的)なものが95件、ネガティブ(否定的)なものが25件で、ポジティブの占める率が79%であったことが示されている。
また、サブキーワードとして設定された「動画撮影」の文字列が記載された関連ブログの総数が115件に上り、その中で記事の内容がポジティブなものが92件、ネガティブなものが23件で、ポジティブの占める率が80%であったことが示されている。
さらに、サブキーワードとして設定された「7.2Mbps」の文字列が記載された関連ブログの総数が40件に上り、その中で記事の内容がポジティブなものが35件、ネガティブなものが5件で、ポジティブの占める率が88%であったことが示されている。
FIG. 4 illustrates an analysis
For example, in the case of an article about “ePhone 3GS” posted on the No. 1 “Responde” news site, the publication date was January 25, 2009, and the total number of related blogs reached 120. It is shown that 95 articles were positive (positive) and 25 were negative (negative), with 79% of positives.
In addition, the total number of related blogs with the sub-keyword “video shooting” text string is 115, of which 92 are positive and 23 are negative. It is shown that the percentage of positives was 80%.
In addition, the total number of related blogs with the "7.2Mbps" character string set as a sub-keyword is 40, of which 35 are positive and 5 are negative. It was shown that the percentage of positives was 88%.
同様に、NO.2の「BNET Japan」のニュースサイトに掲載された記事の場合、掲載日が2009年1月25日であり、関連ブログの総数が90件に上り、その中で記事の内容がポジティブなものが70件、ネガティブなものが20件で、ポジティブの占める率が78%であったことが示されている。
また、サブキーワードとして設定された「動画撮影」の文字列が記載された関連ブログの総数が88件に上り、その中で記事の内容がポジティブなものが67件、ネガティブなものが21件で、ポジティブの占める率が77%であったことが示されている。
さらに、サブキーワードとして設定された「7.2Mbps」の文字列が記載された関連ブログの総数が70件に上り、その中で記事の内容がポジティブなものが63件、ネガティブなものが7件で、ポジティブの占める率が90%であったことが示されている。
Similarly, in the case of an article published on the No. 2 “BNET Japan” news site, the date of publication was January 25, 2009, and the total number of related blogs reached 90, of which the contents of the article There are 70 positive cases and 20 negative cases, and the percentage of positives is 78%.
In addition, the total number of related blogs with the sub-keyword “video shooting” text string is 88, of which 67 are positive and 21 are negative. It is shown that the percentage of positives was 77%.
In addition, the total number of related blogs with the "7.2Mbps" character string set as a sub-keyword is 70, of which 63 are positive and 7 are negative. It is shown that the percentage of positives was 90%.
この分析結果一覧画面68を検討することにより、担当者は多くの知見を得ることができる。
単純なところでは、上位にランキングされたRespondeやBNETJapanのニュースサイトに広告記事を出稿すれば、次回も世間の大きな注目を浴びる可能性が高いことを認識できる。
さらに細かい部分に目を転じれば、Respondeの記事では「動画撮影」のように一般受けするテーマについては反響が大きい(115/120件)が、「7.2Mbps」のように比較的マニアックなテーマに関しては反響が小さい(40/120件)ことが読み取れる。これに対しBNETJapanの記事の場合、「7.2Mbps」のサブキーワードに関して相対的に大きな反響を得ており(70/90件)、Respondeの読者層よりもマニアックな読者が多いのではないか、あるいはRespondeよりも技術寄りの記者が多いのではないか、という仮説が成り立つ。
By examining the analysis
In a simple place, you can recognize that if you publish an advertising article on the top ranked Responde or BNETJapan news sites, it will likely attract a lot of attention the next time.
Turning to the more detailed parts, Responde's article has a large response (115/120) for themes that are commonly received, such as “video shooting”, but relatively maniac themes such as “7.2 Mbps” It can be seen that the response is small (40/120). On the other hand, in the case of BNETJapan's article, there is a relatively great response to the “7.2Mbps” sub-keyword (70/90 cases), and there may be more readers who are more enthusiastic than Responde's readers. The hypothesis is that there may be more reporters who are more technical than Responde.
以下、図5のフローチャートに従い、このシステム10における処理手順を説明する。
まず一定間隔で(例えば1日1回)、記事収集部12はユーザ設定記憶部24に格納された各分析案件の実施間隔をチェックし(S10)、実施のタイミングが到来した分析対象案件が存在する場合には(S12)、当該案件に設定されたキーワードを読み込む(S14)。
Hereinafter, the processing procedure in the
First, at regular intervals (for example, once a day), the
つぎに記事収集部12は、設定されたニュースサイトにアクセスし、サイト内に設置された検索窓にキーワード(例えば「ePhone 3GS」)を投入することにより、必要なニュース記事を検索する(S16)。
つぎに記事収集部12は、当該ニュースサイトから取得したニュース記事の中で、設定された基準日以降の日付を有するものを抽出し、ニュース記事記憶部14に格納する(S17)。
Next, the
Next, the
つぎに記事収集部12は、所定のブログサイトにアクセスし、サイト内に設置された検索窓に同キーワードを投入することにより、必要なブログ記事を検索する(S18)。
つぎに記事収集部12は、当該ブログサイトから取得したブログ記事の中で、設定された基準日以降の日付を有するものを抽出し、ブログ記事記憶部16に格納する(S19)。
Next, the
Next, the
なお、ニュース記事の収集処理(S16及びS17)と、ブログ記事の収集処理(S18及びS19)は順不同であり、ブログ記事の収集処理を先に実行してもよいし、両者を同時に実行してもよい。
また、上記のように複数のニュースサイトやブログサイトに個別にアクセスしてニュース記事やブログ記事を取得する代わりに、Google(登録商標)やYahoo!(登録商標)等の検索サイト内に設けられた検索窓にキーワードを投入し、取得した検索結果リストの中から必要なニュースサイトやブログサイトのURLを含む記事をまとめて抽出してもよい。
The news article collection process (S16 and S17) and the blog article collection process (S18 and S19) are in no particular order, and the blog article collection process may be executed first, or both may be executed simultaneously. Also good.
Also, instead of accessing multiple news sites and blog sites individually and acquiring news articles and blog articles as described above, it is provided in search sites such as Google (registered trademark) and Yahoo! (registered trademark). A keyword may be input to the search window, and articles including URLs of necessary news sites and blog sites may be collectively extracted from the obtained search result list.
つぎに、対応関係判定部18が起動し、収集したニュース記事毎に、当該ニュース記事に基づいて記述された対応ブログ記事を特定する(S20)。
以下、図6のフローチャートに従い、ニュース記事とブログ記事との対応付けに係る処理手順を説明する。
Next, the
Hereinafter, a processing procedure related to associating a news article with a blog article will be described according to the flowchart of FIG.
まず対応関係判定部18は、ブログ記事記憶部16内に格納された各ブログ記事について、記事中にリンク情報が含まれているか否かをチェックし(S20-01)、リンク情報が含まれている場合には(S20-02)、ニュース記事記憶部14内に格納された各ニュース記事のURLとリンク情報とを比較する(S20-03)。そして、リンク情報と一致するURLを備えたニュース記事については、当該ブログ記事との間に「リンク関係あり」と認定する(S20-04)。
First, the
図7はこの具体例を示すものであり、ブログ記事中の「詳しくはこちら」のボタンに設定されたリンク情報と、ニュース記事のURLが一致しているため、両者間に「リンク関係あり」の対応関係が認定されている。
この「リンク関係あり」の対応関係は排他的なものではなく、あるブログ記事中に複数のニュース記事のリンク情報が設定されていた場合には、複数のニュース記事との間で「リンク関係あり」と認定される。
FIG. 7 shows this specific example. Since the link information set in the “Click here for details” button in the blog article matches the URL of the news article, there is a “link relationship” between the two. Has been certified.
The correspondence relationship of “with link relationship” is not exclusive, and when link information of multiple news articles is set in a blog article, there is a “link relationship with multiple news articles”. "
つぎに対応関係判定部18は、各ニュース記事と各ブログ記事とを、LCS(Longest Common Subsequence)の解法を用いて比較し(S20-05)、最長共通文字列数(=引用文字数)が所定の閾値以上(例えば20文字以上)のブログ記事とニュース記事との組合せを引用関係候補と認定する(S20-06)。
そして、一つのブログ記事に対して複数のニュース記事が引用関係候補と認定された場合には、最も引用文字数が多いニュース記事との間で「引用関係あり」と認定される(S20-07)。
図8はこの具体例を示すものであり、ニュース記事中の一部の文字列が、ほぼそのままの形でブログ記事中に埋め込まれているため、両者間に引用関係が認定されている。
Next, the
When a plurality of news articles are recognized as citation relation candidates for one blog article, it is recognized as “quoting relation” with a news article having the largest number of quotation characters (S20-07). .
FIG. 8 shows a specific example of this. Since some character strings in the news article are embedded in the blog article almost as they are, the citation relationship is recognized between them.
LCSの解法自体は公知技術であるが、図9に基づきその基本原理を説明する。
まず、対応関係判定部18は与えられた文章を形態素単位に分解し、特定の品詞(例えば名詞、動詞、形容詞)に係る形態素を抽出した後、形態素毎にユニークなIDを割り振る。
The LCS solution itself is a known technique, but its basic principle will be described with reference to FIG.
First, the
例えば、同図(a)の「今日はいい天気だ。だから今日は野球をするよ。」という文章からは、「今日」、「いい」、「天気」、「今日」、「野球」、「する」の形態素が取り出され、「今日」→(1)、「いい」→(2)、「天気」→(3)、「野球」→(4)、「する」→(5)というように、(1)〜(5)のIDが付与される。
また、同図(b)の「今日はいい天気です。今日はサッカーをします。」という文章からは、「今日」、「いい」、「天気」、「今日」、「サッカー」、「する(『します』の原形)」の形態素が取り出され、「今日」→(1)、「いい」→(2)、「天気」→(3)、「サッカー」→(6)、「する」→(5)というように、(1)〜(3)、(5)、(6)のIDが付与される。
For example, from the sentence "Today is good weather. So today I will play baseball" in the figure (a), "Today", "Good", "Weather", "Today", "Baseball", ""Todo" morpheme is taken out, "Today" → (1), "Good" → (2), "Weather" → (3), "Baseball" → (4), "Yes" → (5) , (1) to (5) are given IDs.
Also, from the sentence “Today is good weather. I will play soccer today” in the figure (b), “Today”, “Good”, “Weather”, “Today”, “Soccer”, “Yes” (The original form of “Shima”) is taken out, “Today” → (1), “Good” → (2), “Weather” → (3), “Soccer” → (6), “Yes” → As shown in (5), IDs (1) to (3), (5), and (6) are assigned.
つぎに対応関係判定部18は、(a)(b)両文章のIDの並びを比較し、両者間で連続的に一致する(1)(2)(3)(1)を最長共通文字列と認定する。この場合、最長共通文字列数は「4」となる。
このように、文字列同士を直接比較する代わりに、共通の形態素単位でユニークなIDを割り振ることにより、処理の高速化を図ることができる。
また、両文章中から特定の品詞を備えた文字列のみを抽出して比較することにより、多少の表現の違い(言い回しの変更)を吸収することが可能となる。
Next, the
As described above, instead of directly comparing character strings, a unique ID is allocated in common morpheme units, so that the processing speed can be increased.
In addition, by extracting and comparing only character strings having specific parts of speech from both sentences, it becomes possible to absorb a slight difference in expression (phrase change).
つぎに対応関係判定部18は、TF-IDF及びベクトル空間法を用いて、各ニュース記事と各ブログ記事間の類似度を算出する(S20-08)。
以下、図10のフローチャート及び図11、図12の説明図に従い、この類似度算出に係る処理手順を説明する。
Next, the
Hereinafter, the processing procedure for calculating the similarity will be described with reference to the flowchart of FIG. 10 and the explanatory diagrams of FIGS. 11 and 12.
まず対応関係判定部18は、各ニュース記事及びブログ記事に対して形態素解析を施し(S20-08-01)、各記事から特定品詞(例えば名詞)を抽出する(S20-08-02)。
図11の例では、文書A(ブログ記事)の「今日が締め切りだ。今日も徹夜かな。」から「今日/締め切り/今日/徹夜」の用語が、文書B(ブログ記事)の「今日も煮干しだ。飽き飽きだ。」から「今日/煮干し」の用語が、文書C(ニュース記事)の「今日は天気がよい。野球をしよう。」から「今日/天気/野球」の用語が、文書D(ニュース記事)の「天気がよい。サッカーをしよう。」から「天気/サッカー」の用語がそれぞれ取り出されている。
First, the
In the example of FIG. 11, the term “Today is the deadline. Today is the deadline.” To “Today / deadline / Today / all night” in document A (blog article) From the word “Today / Weather / Baseball” from Document C (News Article) “Today is good weather. Let's play baseball.” In the document D (news article), the term “weather / soccer” is extracted from “weather is good. Let's play soccer”.
つぎに対応関係判定部18は、各記事における各用語の頻度(TF/Term Frequency)を算出する(S20-08-03)。例えば、文書Aにおける「今日」の頻度は「2」となる。
Next, the
つぎに対応関係判定部18は、用語毎に当該用語を含む記事数(DF/Document Frequency)を算出し(S20-08-04)、DF辞書70に格納する(S20-08-05)。例えば、文書A〜Dにおける「今日」を含む記事の数は「3」となる。
Next, the
つぎに対応関係判定部18は、このDF辞書70に基づいて各文書をベクトル化する。
例えば、文書Aの場合はDF辞書70に収録された用語の中、「今日」「締め切り」「徹夜」の3種類の用語を含んでいるため、対応関係判定部18はこれらの用語のDFに基づいて、IDF(Inverse Document Frequency)及びTF-IDFを求める。
Next, the
For example, in the case of document A, since the terms included in the
まず対応関係判定部18は、以下のようにして各用語のIDFを算出する(S20-08-06)。
IDF(今日)=log(文書数/DF)
=log(4/3)
First, the
IDF (today) = log (number of documents / DF)
= Log (4/3)
つぎに対応関係判定部18は、以下のようにして各用語のTF-IDFを算出する(S20-08-07)。
TF-IDF(今日)=TF(今日)×IDF(今日)
=2×log(4/3)=0.25
同様の処理により、対応関係判定部18は「締め切り」のTF-IDF=0.5、「徹夜」のTF-IDF=0.5を算出する。
Next, the
TF-IDF (today) = TF (today) x IDF (today)
= 2 x log (4/3) = 0.25
By similar processing, the
ここで、文書Aに含まれる「今日」「締め切り」「徹夜」の3種類の用語はDF辞書70における掲載順が1〜3番であるため、図12に示すように、ベクトル要素として1〜3行までに0.33、0.62、0.43の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されたベクトルが対応関係判定部18によって生成され、文書Aのベクトルとなされる(S20-08-08)。
Here, since the three types of terms “Today”, “Deadline”, and “Tonight” included in the document A are listed in the
なお、「今日」のTF-IDFは0.25であり、文書Aにおける「今日」の頻度は「2」であるが、ベクトル長を1に揃えるための正規化を施された結果、トータルで0.33という数値が導かれている。同様に、「締め切り」のTF-IDF:0.5及び「徹夜」のTF-IDF:0.5も、ベクトル長を1に揃えるための正規化により、それぞれ0.62及び0.43に変換されている。文書B以下についても同様である。 Note that the TF-IDF of “Today” is 0.25, and the frequency of “Today” in the document A is “2”. However, as a result of normalization to make the vector length equal to 1, the total is 0.33. Numerical values are derived. Similarly, “deadline” TF-IDF: 0.5 and “all night” TF-IDF: 0.5 are also converted to 0.62 and 0.43, respectively, by normalization to align the vector length to 1. The same applies to document B and the following.
文書Bの場合にはDF辞書70に収録された用語の中、「今日」「煮干し」の2種類の用語を含んでおり、これらの用語のDF辞書70における掲載順が1番と4番であるため、ベクトル要素として1行目及び4行目に0.16及び0.43の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されている。
In the case of Document B, among the terms recorded in the
また、文書Cの場合はDF辞書70に収録された用語の中、「今日」「天気」「野球」の3種類の用語を含んでおり、これらの用語のDF辞書70における掲載順が1番と5番、6番であるため、ベクトル要素として1行目、5行目、6行目にそれぞれ0.16、0.43、0.43の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されている。
In the case of the document C, the terms included in the
また、文書Dの場合はDF辞書辞書70に収録された用語の中、「天気」「サッカー」の2種類の用語を含んでおり、これらの用語のDF辞書70における掲載順が6番と7番であるため、ベクトル要素として6行目及び7行目にそれぞれ0.43、0.22の数値が代入され、他の用語の掲載順に対応する行には0.0が代入されている。
In the case of document D, two terms “weather” and “soccer” are included in the terms recorded in the
つぎに対応関係判定部18は、各ニュース記事のベクトルと各ブログ記事のベクトルとの間の内積(距離)を求める(S20-08-09)。この内積が、両記事間の類似度を表している。
Next, the
つぎに対応関係判定部18は、この類似度が最も高くなるブログ記事とニュース記事との組合せに対して「類似関係あり」を認定する(図6のS20-09)。具体的には、ベクトル間の内積が1.0に最も近いものが、最高の類似度と評価される。この閾値は、別途実験にて得られた知見に従い定められた数値である。
図13はこの具体例を示すものであり、ブログ記事は作者自身の言葉で綴られているが、そこに登場する用語の組合せの共通性からニュース記事との間に類似関係が認定されている。
Next, the
FIG. 13 shows a specific example of this, and the blog article is spelled in the author's own words, but the similarity between the news article is recognized because of the common combination of terms appearing there. .
つぎに対応関係判定部18は、リンク、引用、類似の何れかの関係が認定されたブログ記事とニュース記事との間に対応関係を認定する(図6のS20-10)。
図14の例では、(a)の「リンク関係」についてはニュース記事A及びニュース記事Bがブログαに対して対応関連ありとされ、(b)の「引用関係」についてはニュース記事Aがブログαに対して対応関連ありと認定され、(c)の「類似関係」についてはニュース記事Bがブログαに対して対応関連ありとされている場合に、最終的にニュース記事A及びBとブログ記事αとの間に対応関係が認定されている。
Next, the
In the example of FIG. 14, news article A and news article B are associated with blog α for “link relation” in (a), and news article A is blogged for “quotation relation” in (b). It is recognized that there is a corresponding relationship with α, and for the “similarity” in (c), when news article B is determined to have a corresponding relationship with blog α, the news articles A and B and the blog are finally included. Correspondence is certified with article α.
上記においては、対応関係判定部18がリンク関係の有無、引用関係の有無、及び類似関係の有無に基づいてニュース記事とブログ記事間の対応関係を判定する例を説明したが、これらの中の少なくとも一つによってニュース記事とブログ記事間の対応関係を判定してもよい。
In the above, the example in which the
以上のようにして対応関係判定部18によるブログ記事とニュース記事との対応付けが完了すると、影響力解析部20が起動し、分析案件毎に各ニュース記事の影響力が算出される(図5のS22)。
以下、図15のフローチャートに従い、この影響力算出に係る処理手順を説明する。
When the association between the blog article and the news article is completed by the
Hereinafter, a processing procedure related to the influence calculation will be described with reference to the flowchart of FIG.
まず影響力解析部20は、評価語辞書21を参照して各ブログ記事の内容を分析し、記述内容がポジティブ(肯定的)かネガティブ(否定的)であるかを判定する(S22-01)。
すなわち、図16に示すように、評価語辞書21内にはブログ記事の内容を判定するのに役立つ評価語が予め多数蓄積されており、各評価語の持つ肯定的意味合いの強さや否定的意味合いの強さに応じた正負のポイントが設定されている。
このため影響力解析部20は、ブログ記事を形態素に分解して特定の品詞(名詞や形容詞等)を取り出した後、評価語辞書に格納された各評価語と比較して行き、当該ブログ記事中に評価語を発見する都度、そのポイントを加算する。そして、最終的なポイントがプラスの場合には当該ブログ記事をポジティブと認定し、0またはマイナスの場合にはネガティブと認定する。
First, the
That is, as shown in FIG. 16, a large number of evaluation words useful for determining the content of the blog article are stored in advance in the
For this reason, the
つぎに影響力解析部20は、各ニュース記事に対応付けられたブログ記事の数を集計し(S22-02)、その総数を当該ニュース記事の影響力とする。この総数が多いということは、多くのブログ記事に影響を与えたことを意味するからである。
つぎに影響力解析部20は、当該ニュース記事に対応付けられたブログ記事の中で、予め設定されたサブキーワードを含むものの数を、サブキーワード毎に集計する(S22-03)。
最後に影響力解析部20は、当該ニュース記事に対応付けられたブログ記事の中で、内容がポジティブなものの数とネガティブなものの数、及びポジティブが占める比率を、対応付けられたブログ記事全体と、各サブキーワードを含むブログ記事別に算出する(S22-04)。
Next, the
Next, the
Finally, the
この算出結果は、解析結果記憶部22に格納され(図5のS24)、上記の通り、Webサーバ34を介してクライアント端末36に送信される分析結果一覧画面68中に表示される(図4参照)。
This calculation result is stored in the analysis result storage unit 22 (S24 in FIG. 5), and displayed on the analysis
10 ニュース記事評価システム
12 記事収集部
14 ニュース記事記憶部
16 ブログ記事記憶部
18 対応関係判定部
20 影響力解析部
21 評価語辞書
22 解析結果記憶部
24 ユーザ設定記憶部
26 インターネット
28 ブログサーバ
30 ニュースサーバ
32 クライアント端末
34 Webサーバ
36 クライアント端末
40 分析案件一覧画面
42 分析案件リスト
44 「案件追加」ボタン
46 分析案件追加画面
48 案件名設定欄
49 キーワード指定欄
50 サブキーワード指定欄
51 「追加」ボタン
52 基準日指定欄
54 ニュースサイト指定欄
55 チェックボックス
56 「確認」ボタン
57 「特定ニュースサイトの登録」ボタン
58 「特定記事の追加」ボタン
60 実施タイプ指定欄
61 基本間隔設定欄
62 詳細間隔設定欄
63 「登録」ボタン
64 「確認・変更」ボタン
65 「表示」ボタン
68 分析結果一覧画面
70 DF辞書
10 News article evaluation system
12 Article collection department
14 News article storage
16 Blog article storage
18 Correspondence judgment section
20 Impact Analysis Department
21 Evaluation word dictionary
22 Analysis result storage
24 User setting memory
26 Internet
28 Blog server
30 news server
32 client terminals
34 Web server
36 Client terminal
40 Analysis Item List Screen
42 Analytical case list
44 Add Item button
46 Analysis project addition screen
48 Item name setting field
49 Keyword specification field
50 Sub-keyword specification field
51 Add button
52 Base date specification field
54 News site designation field
55 Check box
56 Confirm button
57 “Register specific news site” button
58 Add Specific Article button
60 Implementation type designation field
61 Basic interval setting field
62 Detailed interval setting field
63 “Register” button
64 Confirm / Change button
65 Display button
68 Analysis result list screen
70 DF Dictionary
Claims (6)
インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、
インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、
各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、
ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、
上記対応関係判定手段は、各ブログ記事中に設定されたリンク情報と各ニュース記事のURLとを比較し、両者が一致している場合にブログ記事とニュース記事との対応関係を認定することを特徴とするニュース記事評価システム。 Storage means to set keywords for each analysis case;
Means for acquiring a news article including the keyword from a news server installed on the Internet and storing it in a news article storage means;
Means for acquiring a blog article including the keyword from a blog server installed on the Internet and storing it in a blog article storage means;
Correspondence determination means for identifying a news article corresponding to each blog article,
For each news article, there is an impact analysis means that counts the number of blog articles that have a correspondence relationship, and stores the total number of blog articles in the analysis result storage means in association with each news article,
The correspondence determination means compares the link information set in each blog article with the URL of each news article, and if the two match, certifies the correspondence between the blog article and the news article. A featured news article evaluation system.
インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、
インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、
各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、
ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、
上記対応関係判定手段は、各ブログ記事と各ニュース記事間の最長共通文字列数を算出し、この最長共通文字列数が最も多く、かつ所定の閾値を超えているブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴とするニュース記事評価システム。 Storage means for setting keywords;
Means for acquiring a news article including the keyword from a news server installed on the Internet and storing it in a news article storage means;
Means for acquiring a blog article including the keyword from a blog server installed on the Internet and storing it in a blog article storage means;
Correspondence determination means for identifying a news article corresponding to each blog article,
For each news article, there is an impact analysis means that counts the number of blog articles that have a correspondence relationship, and stores the total number of blog articles in the analysis result storage means in association with each news article,
The correspondence determination means calculates the longest common character string number between each blog article and each news article, and the combination of the blog article and the news article that has the largest number of the longest common character string and exceeds a predetermined threshold value. A news article evaluation system characterized by certifying the correspondence relations.
インターネット上に設置されたニュースサーバから、上記キーワードを含むニュース記事を取得し、ニュース記事記憶手段に格納する手段と、
インターネット上に設置されたブログサーバから、上記キーワードを含むブログ記事を取得し、ブログ記事記憶手段に格納する手段と、
各ブログ記事と対応関係にあるニュース記事を特定する対応関係判定手段と、
ニュース記事毎に、対応関係にあるブログ記事の件数を集計し、このブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する影響力解析手段を備え、
上記対応関係判定手段は、各ブログ記事と各ニュース記事間の類似度を算出し、この類似度が最も高いブログ記事及びニュース記事の組合せに対して対応関係を認定することを特徴とするニュース記事評価システム。 Storage means for setting keywords;
Means for acquiring a news article including the keyword from a news server installed on the Internet and storing it in a news article storage means;
Means for acquiring a blog article including the keyword from a blog server installed on the Internet and storing it in a blog article storage means;
Correspondence determination means for identifying a news article corresponding to each blog article,
For each news article, there is an impact analysis means that counts the number of blog articles that have a correspondence relationship, and stores the total number of blog articles in the analysis result storage means in association with each news article,
The correspondence determining means calculates a similarity between each blog article and each news article, and determines a correspondence for a combination of the blog article and the news article having the highest similarity. Evaluation system.
各ニュース記事及びブログ記事を形態素単位に分解し、所定の品詞に係る形態素を各記事から抽出する処理と、
抽出された各形態素のTF-IDF値を算出する処理と、
この各形態素のTF-IDF値に基づいて各記事をベクトル化する処理と、
各ニュース記事のベクトルと各ブログ記事のベクトル間の内積を求める処理と、
この内積が所定の閾値に最も近いニュース記事とブログ記事との組合せに対して対応関係を認定する処理を実行することを特徴とする請求項3に記載のニュース記事評価システム。 The correspondence determination means
A process of decomposing each news article and blog article into morpheme units and extracting a morpheme related to a predetermined part of speech from each article;
Processing to calculate the TF-IDF value of each extracted morpheme;
A process of vectorizing each article based on the TF-IDF value of each morpheme,
A process for obtaining an inner product between each news article vector and each blog article vector;
4. The news article evaluation system according to claim 3, wherein a process of determining a correspondence relation is performed for a combination of a news article and a blog article whose inner product is closest to a predetermined threshold.
上記影響力解析手段は、各ニュース記事に対応付けられたブログ記事の中で、上記サブキーワードを含むものの件数を集計し、このサブキーワード毎のブログ記事の総数を各ニュース記事に関連付けて解析結果記憶手段に格納する処理を実行することを特徴とする請求項1〜4の何れかに記載のニュース記事評価システム。 A storage means for setting at least one sub-keyword for each analysis item is provided.
The influence analysis means counts the number of blog articles associated with each news article that include the sub-keyword, and associates the total number of blog articles for each sub-keyword with each news article to obtain an analysis result. The news article evaluation system according to any one of claims 1 to 4, wherein a process of storing in the storage means is executed.
各ブログ記事を形態素単位に分解し、所定の品詞を備えた形態素を抽出する手段と、
各形態素と上記評価語とを比較し、評価語と一致する形態素に対して該当のポイントを付与する手段と、
ブログ記事単位でポイントを集計し、当該集計ポイントが設定値以上の場合に当該ブログ記事の内容を肯定的と認定し、設定値未満の場合には否定的と認定する手段とを備え、
上記影響力解析手段は、上記ブログ記事の総数の中で、肯定的と認定されたブログ記事の数と、否定的と認定されたブログ記事の数を集計し、上記解析結果記憶手段に格納する処理を実行することを特徴とする請求項1〜5の何れかに記載のニュース記事評価システム。 A combination of multiple evaluation words used to determine whether the content of a blog article is positive or negative, and points set according to the strength of the positive meaning or the negative meaning of each evaluation word Evaluation word dictionary to be stored,
Means for decomposing each blog article into morpheme units and extracting morphemes with predetermined parts of speech;
Means for comparing each morpheme and the evaluation word, and assigning a corresponding point to the morpheme that matches the evaluation word;
A means is provided for counting points in units of blog articles, certifying the content of the blog article as positive when the calculated point is greater than or equal to the set value, and determining as negative when the calculated point is less than the set value,
The influence analysis means aggregates the number of blog articles certified as positive and the number of blog articles certified as negative among the total number of blog articles, and stores the result in the analysis result storage means. 6. The news article evaluation system according to claim 1, wherein processing is executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009263398A JP2011108053A (en) | 2009-11-18 | 2009-11-18 | System for evaluating news article |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009263398A JP2011108053A (en) | 2009-11-18 | 2009-11-18 | System for evaluating news article |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011108053A true JP2011108053A (en) | 2011-06-02 |
Family
ID=44231437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009263398A Pending JP2011108053A (en) | 2009-11-18 | 2009-11-18 | System for evaluating news article |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011108053A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013130913A (en) * | 2011-12-20 | 2013-07-04 | Canon Marketing Japan Inc | Information processing system and control method therefor, program, aggregation server, and portable terminal |
JP2013164687A (en) * | 2012-02-09 | 2013-08-22 | Ricoh Co Ltd | Retrieval object evaluation device and retrieval object evaluation method |
JP2015064864A (en) * | 2013-08-26 | 2015-04-09 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing system, evaluation analysis method, control method, and program |
WO2015072055A1 (en) * | 2013-11-12 | 2015-05-21 | International Business Machines Corporation | Extracting and mining of quote data across multiple languages |
JP2015148894A (en) * | 2014-02-05 | 2015-08-20 | 日本電信電話株式会社 | data update apparatus, method, and program |
JP2015535111A (en) * | 2012-11-02 | 2015-12-07 | グーグル インコーポレイテッド | Adjusting content distribution based on user posts |
WO2016009985A1 (en) * | 2014-07-15 | 2016-01-21 | Kddi株式会社 | Program, device, and method for analyzing effect of promotion site on transition of psychological state of user |
JP2017167923A (en) * | 2016-03-17 | 2017-09-21 | ヤフー株式会社 | Determination device and determination method |
CN113609424A (en) * | 2021-06-22 | 2021-11-05 | 深圳市网联安瑞网络科技有限公司 | Computing and early warning system and method for network public sentiment popularity |
JP7481050B1 (en) | 2023-11-07 | 2024-05-10 | 株式会社内外切抜通信社 | Information processing device, information processing method, and program |
JP7481051B1 (en) | 2023-11-07 | 2024-05-10 | 株式会社内外切抜通信社 | Information processing device, information processing method, and program |
-
2009
- 2009-11-18 JP JP2009263398A patent/JP2011108053A/en active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013130913A (en) * | 2011-12-20 | 2013-07-04 | Canon Marketing Japan Inc | Information processing system and control method therefor, program, aggregation server, and portable terminal |
JP2013164687A (en) * | 2012-02-09 | 2013-08-22 | Ricoh Co Ltd | Retrieval object evaluation device and retrieval object evaluation method |
JP2015535111A (en) * | 2012-11-02 | 2015-12-07 | グーグル インコーポレイテッド | Adjusting content distribution based on user posts |
JP2015064864A (en) * | 2013-08-26 | 2015-04-09 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing system, evaluation analysis method, control method, and program |
US9558269B2 (en) | 2013-11-12 | 2017-01-31 | International Business Machines Corporation | Extracting and mining of quote data across multiple languages |
WO2015072055A1 (en) * | 2013-11-12 | 2015-05-21 | International Business Machines Corporation | Extracting and mining of quote data across multiple languages |
US9569530B2 (en) | 2013-11-12 | 2017-02-14 | International Business Machines Corporation | Extracting and mining of quote data across multiple languages |
JP2015148894A (en) * | 2014-02-05 | 2015-08-20 | 日本電信電話株式会社 | data update apparatus, method, and program |
JP2016021174A (en) * | 2014-07-15 | 2016-02-04 | Kddi株式会社 | Program, device and method for analyzing effect of user's psychology transit to promotion site |
WO2016009985A1 (en) * | 2014-07-15 | 2016-01-21 | Kddi株式会社 | Program, device, and method for analyzing effect of promotion site on transition of psychological state of user |
CN106471494A (en) * | 2014-07-15 | 2017-03-01 | Kddi株式会社 | For analyzing sales promotion website to the program of the effect that user psychology state changes, apparatus and method |
CN106471494B (en) * | 2014-07-15 | 2019-12-20 | Kddi株式会社 | Program, apparatus and method for analyzing effect of promotion site on user's psychological state transition |
JP2017167923A (en) * | 2016-03-17 | 2017-09-21 | ヤフー株式会社 | Determination device and determination method |
CN113609424A (en) * | 2021-06-22 | 2021-11-05 | 深圳市网联安瑞网络科技有限公司 | Computing and early warning system and method for network public sentiment popularity |
CN113609424B (en) * | 2021-06-22 | 2024-06-11 | 深圳市网联安瑞网络科技有限公司 | Calculation and early warning system and method for internet public opinion heat |
JP7481050B1 (en) | 2023-11-07 | 2024-05-10 | 株式会社内外切抜通信社 | Information processing device, information processing method, and program |
JP7481051B1 (en) | 2023-11-07 | 2024-05-10 | 株式会社内外切抜通信社 | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011108053A (en) | System for evaluating news article | |
Conrad et al. | Social media as an alternative to surveys of opinions about the economy | |
Duarte Torres et al. | Analysis of search and browsing behavior of young users on the web | |
Rubin et al. | Assessing Credibility of Weblogs. | |
CA2578513C (en) | System and method for online information analysis | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
US20180246888A1 (en) | Enhanced online user-interaction tracking and document rendition | |
US7756720B2 (en) | Method and system for the objective quantification of fame | |
JP4896071B2 (en) | Advertisement evaluation method, advertisement evaluation system, and recording medium using keyword comparison | |
Wang et al. | Automatic online news topic ranking using media focus and user attention based on aging theory | |
CN111052109B (en) | Expert search thread invitation engine | |
Demus et al. | Detox: A comprehensive dataset for German offensive language and conversation analysis | |
Potthast et al. | Information retrieval in the commentsphere | |
Kim et al. | Text mining for the evaluation of public services: the case of a public bike-sharing system | |
Piccardi et al. | On the Value of Wikipedia as a Gateway to the Web | |
Yom-Tov et al. | The werther effect revisited: Measuring the effect of news items on user behavior | |
US20190347296A1 (en) | Method of recommending at least one skin care product to a user | |
Faisal et al. | A novel framework for social web forums’ thread ranking based on semantics and post quality features | |
JP2020521246A (en) | Automated classification of network accessible content | |
JP4569380B2 (en) | Vector generation method and apparatus, category classification method and apparatus, program, and computer-readable recording medium storing program | |
Bondielli et al. | Dataset for multimodal fake news detection and verification tasks | |
JP2016197332A (en) | Information processing system, information processing method, and computer program | |
Balali et al. | Content diffusion prediction in social networks | |
Vattikonda et al. | Interpreting advertiser intent in sponsored search | |
Xu et al. | Identify user variants based on user behavior on social media |