JP4466334B2 - 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 - Google Patents
情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Download PDFInfo
- Publication number
- JP4466334B2 JP4466334B2 JP2004324241A JP2004324241A JP4466334B2 JP 4466334 B2 JP4466334 B2 JP 4466334B2 JP 2004324241 A JP2004324241 A JP 2004324241A JP 2004324241 A JP2004324241 A JP 2004324241A JP 4466334 B2 JP4466334 B2 JP 4466334B2
- Authority
- JP
- Japan
- Prior art keywords
- topic word
- topic
- document
- word
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、(ステップ1)と、
文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップ(ステップ2)と、
話題語集約ルール記憶手段に格納された話題語集約ルールに基づいて、話題語データベースから読み出された話題語候補を集約する話題語集約ステップ(ステップ3)と、
話題語データベースの話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さ及び文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップ(ステップ5)と、
話題語データベースの話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップ(ステップ6)と、を行い、
話題語スコア算出ステップ(ステップ5)では、
話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計し、
文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する。
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルール22を格納した話題語ルール記憶手段620と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルール23を格納した話題語集約ルール記憶手段630と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベース20に格納するデータ収集手段300と、
文書データベース20から文書データを読み出して、該文書データから、話題語ルール記憶手段620に格納されている話題語ルール22を参照して、話題語候補を抽出し、話題語データベース21に格納する話題語候補抽出手段310と、
話題語集約ルール記憶手段630に格納された話題語集約ルール23に基づいて、話題語データベース21から読み出された話題語候補を集約する話題語集約手段320と、
話題語データベース21の話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さ及び文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段340と、
話題語データベース21の前記話題語候補それぞれが持つ話題語スコアが所定数以上の話題語候補に絞り、さらに、話題語候補の文字列を含む文書の数量が所定数以上の話題語候補に絞ることにより話題語を選定し、話題語スコアが高い順に文書データを話題語毎に分類する文書分類手段350と、を有し、
話題語スコア算出手段340は、
話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、
を含む。
話題語集約手段320は、
話題語として、
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているNGワードリスト24に存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する手段を含む。
本発明の第1の実施の形態では、あるキーワードを基に取得したWebページ等からの文書から話題語を抽出し、その話題語毎にその文書をクラスタリングすることを目的とする。この文書は、話題語を抽出するという目的から、何らかの特徴を持っていた方が適する。例えば、Weblogやニュース、一般的なWebページの新着ページを基にするとその時々で盛り上がっている話題が抽出できる。また、ある特定の事柄について説明しているようなページ、例えば、フランスの歴史について複数ページにわたって説明している文書であればその歴史の主な話題を抽出することもできる。処理の詳細は以下に説明する。
図5は、本発明の第1の実施の形態におけるデータ収集処理のフローチャートである。
(a)抽出情報対象先:既存のDBや、インターネット上のWebページ全般、Weblog、ニュース記事等;
(b)関連キーワード:ユーザの得たい情報に関連するキーワードや特に関心のある話題等;
である。(a)は、(b)のキーワードを基に検索を行うので、検索できるデータ(DBもしくは検索エンジンを利用できるようなデータ)である必要がある。(a)でDBを利用しない場合、検索エンジンは一般に公開されている検索サイトを利用してもよいし、あるいは事前に検索サーバを構築し、設定しておくことで実現できる。
「http://blog.goo.ne.jp/search/serch.php?status=select&tg=all&ts=goo&st=time&dc=10&dp=all&ts=all&MT=検索キーワード&da=all」
のようなアドレスを送るだけで「検索キー」を検索キーワードとした検索結果(検索結果出力順位、ページのタイトル、更新日付、検索キーワードを含む前後の文章等)が返ってくる。但し、この検索キーワードは、URLエンコード(エスケープ)する必要がある。例えば、「サッカー」は「%A5%B5%A5%C3%A5%AB%A1%BC」となる。
図6は、本発明の第1の実施の形態における話題語候補抽出処理のフローチャートである。
2.(p?(n│N)s?){1,3}a(p?(n│N){1,3}
3.N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを話題候補として取得する。これに従うと、例えば、「テロ組織の犯行声明」、「シフォンケーキ」「アメリカ大統領選挙」等が取得できる。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。
図7は、本発明の第1の実施の形態における話題語選定処理のフローチャートである。
1.[1] KD
[2] KaD
[3] D
としたとき、[1]と[2]の候補が共存した場合、[2]に集約する。
[2] DaK
[3] D
としたとき、[1][2]の候補が共存した場合、[2]に集約する。
a:格助詞の「の」
K:キーワード
D:(p?(n│N)s?){1,3}
であるとする。
図8は、本発明の第1の実施の形態における話題語スコア算出処理及び、文書分類処理のフローチャートであり、ステップ801〜ステップ804が、話題語スコア算出処理部540で行われる処理であり、ステップ805〜ステップ808が、後述する文書分類処理部550で行われる処理である。
図8のフローチャートを用いて文書分類処理部550の動作を説明する。
本発明の第2の実施の形態では、RSSフォーマットで提供されているニュースやWebBlogポータルから最新のRSSを取得し、そこから得られた情報から話題語を抽出し、その話題語毎に、コンテンツをクラスタリングすることを目的とする。RSSフォーマットで提供される情報は、随時更新されていることから、この情報を定期的に更新し、随時新着情報を取得し、新着の話題語とそのコンテンツをユーザに提供することができる。
図11に本発明の第2の実施の形態におけるデータ収集処理のフローチャートを示す。
http://blog.goo.ne.jp/search/search.php?status&tg=all&st=time&dc=50&dp=all&bu=&ts=all&MT=「検索キー」&da=all&rss=1&fr=1
のようなアドレスを送るだけで、「検索キー」を検索キーワードとした検索結果50件分がRSSフォーマットで返ってくる。但し、この検索キーは、URLエンコード(エスケープ)する必要がある。「サッカー」は、「%A5%B5%A5%C3%A5%AB%A1%BC」となる
これは、複数のサイト(URI)を事前に登録しておくことも可能である。複数のサイト(URI)が登録してある場合は、データ収集処理部500のフローを登録数分繰り返すことで実現できる。
図13に本発明の第2の実施の形態における話題語候補抽出処理のフローチャートを示す。
2. (p?(n│N)s?){1,3}a(p?(n│N)s?){1,3}
3. N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長のマッチングを話題語候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。
図14は、本発明の第2の実施の形態に置ける話題語集約処理のフローチャートである。
図15に本発明の第2の実施の形態における時刻経過検査処理のフローチャートを示す。
この処理は、第1の実施の形態における話題スコア算出処理部540及び文書分類処理部550と同じ処理を行うため、これらの処理部の説明は省略する。
11 表示部
12 指示入力部
20 文書DB
21 話題語DB
22 話題語ルール
23 話題語集約ルール
24 NGワードリスト
40 ネットワーク
300 データ収集手段
310 話題語候補抽出手段
320 話題語集約手段
330 時刻経過検査手段
340 話題語スコア算出手段
350 文書分類手段
500 データ収集処理部
510 話題語候補抽出処理部
520 話題語集約処理部
530 時刻経過検査処理部
540 話題語スコア算出処理部
550 文書分類処理部
620 話題語ルール記憶手段、話題語ルール記憶部
630 話題語集約ルール記憶手段、話題語集約ルール
640 NGワードリスト記憶手段、NGワードリスト記憶部
Claims (5)
- あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類装置であって、
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルールを格納した話題語ルール記憶手段と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルールを格納した話題語集約ルール記憶手段と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集手段と、
前記文書データベースから文書データを読み出して、該文書データから、前記話題語ルール記憶手段に格納されている前記話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出手段と、
前記話題語集約ルール記憶手段に格納された前記話題語集約ルールに基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約手段と、
前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さ及び文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段と、
前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアが所定数以上の話題語候補に絞り、さらに、話題語候補の文字列を含む文書の数量が所定数以上の話題語候補に絞ることにより話題語を選定し、話題語スコアが高い順に文書データを話題語毎に分類する文書分類手段と、を有し、
前記話題語スコア算出手段は、
前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
前記文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、
を含むことを特徴とする情報分類装置。 - 前記話題語集約手段は、
前記話題語として、
前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
前記検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているNGワードリストに存在しない語句、
前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
を抽出する手段を含む請求項1記載の情報分類装置。 - 前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査手段を更に有する請求項1記載の情報分類装置。
- 請求項1乃至3のいずれか1項に記載の情報分類装置を構成する各手段としてコンピュータを機能させるための情報分類プログラム。
- 請求項4に記載の情報分類プログラムを格納した、コンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004324241A JP4466334B2 (ja) | 2004-11-08 | 2004-11-08 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004324241A JP4466334B2 (ja) | 2004-11-08 | 2004-11-08 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006134183A JP2006134183A (ja) | 2006-05-25 |
JP2006134183A5 JP2006134183A5 (ja) | 2007-04-05 |
JP4466334B2 true JP4466334B2 (ja) | 2010-05-26 |
Family
ID=36727663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004324241A Expired - Fee Related JP4466334B2 (ja) | 2004-11-08 | 2004-11-08 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4466334B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515854A (zh) * | 2017-07-27 | 2017-12-26 | 上海交通大学 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139470A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegraph & Telephone East Corp | 情報提供装置および情報提供方法ならびにそのプログラム |
JP4755948B2 (ja) * | 2006-07-20 | 2011-08-24 | シャープ株式会社 | 端末装置およびコンテンツ記録方法 |
JP5157209B2 (ja) * | 2007-03-20 | 2013-03-06 | 大日本印刷株式会社 | テーマキーワードの関連キーワードを表示する方法、および、ウェブサーバ |
WO2010035412A1 (ja) | 2008-09-25 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP5165616B2 (ja) * | 2009-02-18 | 2013-03-21 | ヤフー株式会社 | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
JP4934169B2 (ja) * | 2009-06-24 | 2012-05-16 | ヤフー株式会社 | カテゴリを対応付けする装置、方法、およびプログラム |
JP5156047B2 (ja) | 2010-03-31 | 2013-03-06 | 株式会社東芝 | キーワード提示装置、方法及びプログラム |
KR101371318B1 (ko) * | 2010-07-29 | 2014-03-11 | 네이버 주식회사 | 문서 순위 결정 시스템 및 방법 |
JP5491446B2 (ja) * | 2011-05-20 | 2014-05-14 | 日本電信電話株式会社 | 話題語獲得装置、方法、及びプログラム |
US9069798B2 (en) * | 2012-05-24 | 2015-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method of text classification using discriminative topic transformation |
JP6115487B2 (ja) * | 2014-01-29 | 2017-04-19 | トヨタ自動車株式会社 | 情報収集方法、対話システム及び情報収集装置 |
CN108961071B (zh) * | 2018-06-01 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 自动预测组合业务收益的方法及终端设备 |
CN112052397B (zh) * | 2020-09-29 | 2024-05-03 | 北京百度网讯科技有限公司 | 用户特征生成方法、装置、电子设备及存储介质 |
JP7512159B2 (ja) * | 2020-10-07 | 2024-07-08 | 株式会社東芝 | 文書検索装置、方法、プログラムおよび学習装置 |
-
2004
- 2004-11-08 JP JP2004324241A patent/JP4466334B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515854A (zh) * | 2017-07-27 | 2017-12-26 | 上海交通大学 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
CN107515854B (zh) * | 2017-07-27 | 2021-06-04 | 上海交通大学 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006134183A (ja) | 2006-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6813591B2 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
CN105824959B (zh) | 舆情监控方法及系统 | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Fukuhara et al. | Understanding Sentiment of People from News Articles: Temporal Sentiment Analysis of Social Events. | |
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2010211594A (ja) | テキスト分析装置および方法、並びにプログラム | |
KR20090087269A (ko) | 컨텍스트 기반 정보 처리 방법 및 장치, 그리고 컴퓨터기록 매체 | |
CN110147494A (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2011070291A (ja) | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム | |
Jawad et al. | Combination of convolution neural networks and deep neural networks for fake news detection | |
JP5661719B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2006293767A (ja) | 文章分類装置、文章分類方法および分類辞書作成装置 | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP4462014B2 (ja) | 話題語結合方法及び装置及びプログラム | |
KR101265467B1 (ko) | 블로그 문서에서의 경험 문장 추출 방법 및 동사 분류 방법 | |
JP2006099754A (ja) | キーワード抽出方法、キーワード抽出プログラム、キーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体およびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラム、メタデータ作成プログラムを記録したコンピュータ読み取り可能な記録媒体およびメタデータ作成装置 | |
Pizzato et al. | Extracting exact answers using a meta question answering system | |
JP2010282403A (ja) | 文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |