JP5679400B2 - カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents
カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP5679400B2 JP5679400B2 JP2010012397A JP2010012397A JP5679400B2 JP 5679400 B2 JP5679400 B2 JP 5679400B2 JP 2010012397 A JP2010012397 A JP 2010012397A JP 2010012397 A JP2010012397 A JP 2010012397A JP 5679400 B2 JP5679400 B2 JP 5679400B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- phrase
- word
- subject
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書を語句の集合に分解する形態素解析手段11と、
形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段12と、
形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段13と、
カテゴリ毎に、第1の記憶手段に格納されている該カテゴリのタイトル中語句統計情報集計手段12の集計結果と、第2の記憶手段に格納されている全文中語句統計情報集計手段13の集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出手段14と、を有する。
形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出手段を更に有し、
主題語句抽出手段14は、
カテゴリ毎に主題を表す語句に、第3の記憶手段に格納されている語句流行度を付記して出力する手段を含む。
予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出手段と、
カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計手段と、
入力文書を語句集合に分解する形態素解析手段と、
形態素解析手段の結果である語句集合、第2の記憶手段に格納されている語句統計情報集計手段の集計結果から、カテゴリcの文書中で語句wが出現する確率により、第1の記憶手段に格納されているカテゴリ名をタグとして入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出手段と、
形態素解析手段の結果である語句集合、第2の記憶手段に格納されている語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出手段と、
第3の記憶手段に格納されているカテゴリタグスコア算出手段の算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出手段の算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与手段と、を有する。
前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出手段を更に有し、
タグ付与手段は、
第3の記憶手段に格納されているカテゴリタグスコア算出手段の算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出手段の算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で第5の記憶手段に格納されているキーワードタグスコア算出手段の算出結果が大きい語句をタグとして入力文書に付与する手段を含む。
形態素解析手段、タイトル中語句統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段を有する装置において、
形態素解析手段が、文書を語句の集合に分解する形態素解析ステップ(ステップ1)と、
タイトル中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップ(ステップ2)と、
全文中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップ(ステップ3)と、
主題語句抽出手段が、カテゴリ毎に、第1の記憶手段に格納されている該カテゴリのタイトル中語句統計情報集計ステップ(ステップ2)の集計結果と、第2の記憶手段に格納されている全文中語句統計情報集計ステップ(ステップ3)の集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出ステップ(ステップ4)と、を行う。
装置の語句流行度算出手段が、形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出ステップを更に行い、
主題語句抽出ステップにおいて、
カテゴリ毎に主題を表す語句に、第3の記憶手段に格納されている語句流行度を付与して出力する。
カテゴリ主題語句抽出手段、語句統計情報集計手段、形態素解析手段、カテゴリタグスコア算出手段、カテゴリ主題タグスコア算出手段、タグ付与手段を有する装置において、
カテゴリ主題語句抽出手段が、予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出ステップと、
語句統計情報集計手段が、カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計ステップと、
形態素解析手段が、入力文書を語句集合に分解する形態素解析ステップと、
カテゴリタグスコア算出手段が、形態素解析ステップの結果である語句集合、第2の記憶手段に格納されている語句統計情報集計ステップの集計結果から、カテゴリcの文書中で語句wが出現する確率により、第1の記憶手段に格納されているカテゴリ名をタグとして入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出ステップと、
カテゴリ主題タグスコア算出手段が、形態素解析ステップの結果である語句集合、第2の記憶手段に格納されている語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出ステップと、
タグ付与手段が、第3の記憶手段に格納されているカテゴリタグスコア算出ステップの算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与ステップと、を行う。
装置のキーワードタグスコア算出手段が、形態素解析ステップの結果である語句集合、第2の記憶手段に格納されている語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出ステップを更に行い、
タグ付与ステップにおいて、
第3の記憶手段に格納されているカテゴリタグスコア算出ステップの算出結果と第4の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で第5の記憶手段に格納されているキーワードタグスコア算出ステップの算出結果が大きい語句をタグとして入力文書に付与する。
本実施の形態では、予めカテゴリ分けされた文書群からカテゴリの主題を示す語句を抽出するカテゴリ主題語句抽出装置について説明する。
本実施の形態では、カテゴリ主題語句抽出装置の第1の実施の形態とは異なる構成、動作を説明する。
本実施の形態では、階層的タグ付与装置について説明する。
本実施の形態では、階層的タグ付与装置において、新奇な語句もタグとして付与できるようにした例を説明する。
11、21 形態素解析手段、形態素解析部
12、22 タイトル中語句統計情報集計手段、タイトル中語句統計情報集計部
13、23 全文中語句統計情報集計手段、全文中語句統計情報集計部
14 主題語句抽出手段、主題語句抽出部
24 語句流行度算出部
25 主題語句抽出部
3050 階層的タグ付与装置
31,51 カテゴリ主題語句抽出部
32,52 語句統計情報集計部
33,53 形態素解析部
34,55 カテゴリタグスコア算出部
35,56 カテゴリ主題タグスコア算出部
36,57 タグ付与部
40 カテゴリ分けされた文書DB
54 キーワードタグスコア算出部
Claims (10)
- 予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出装置であって、
文書を語句の集合に分解する形態素解析手段と、
形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計手段と、
前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計手段と、
カテゴリ毎に、前記第1の記憶手段に格納されている該カテゴリの前記タイトル中語句統計情報集計手段の集計結果と、前記第2の記憶手段に格納されている前記全文中語句統計情報集計手段の集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出手段と、
を有することを特徴とするカテゴリ主題語句抽出装置。 - 前記形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出手段を更に有し、
前記主題語句抽出手段は、
前記カテゴリ毎に主題を表す語句に、前記第3の記憶手段に格納されている前記語句流行度を付記して出力する手段を含む
ことを特徴とする請求項1記載のカテゴリ主題語句抽出装置。 - 入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ自動付与装置であって、
予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出手段と、
前記カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計手段と、
入力文書を語句集合に分解する形態素解析手段と、
前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果から、カテゴリcの文書中で語句wが出現する確率により、前記第1の記憶手段に格納されているカテゴリ名をタグとして前記入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出手段と、
前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出手段と、
前記第3の記憶手段に格納されている前記カテゴリタグスコア算出手段の算出結果と前記第4の記憶手段に格納されている前記カテゴリ主題タグスコア算出手段の算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、前記入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与手段と、
を有することを特徴とする階層的タグ付与装置。 - 前記形態素解析手段の結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計手段の集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出手段を更に有し、
前記タグ付与手段は、
前記第3の記憶手段に格納されている前記カテゴリタグスコア算出手段の算出結果と前記第4の記憶手段に格納されている前記カテゴリ主題タグスコア算出手段の算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で前記第5の記憶手段に格納されている前記キーワードタグスコア算出手段の算出結果が大きい語句をタグとして前記入力文書に付与する手段を含む
ことを特徴とする請求項3記載の階層的タグ付与装置。 - 予めカテゴリ分けされた文書集合から各カテゴリの主題を表す語句を抽出するカテゴリ主題語句抽出方法であって、
形態素解析手段、タイトル中語句統計情報集計手段、全文中語句統計情報集計手段、主題語句抽出手段を有する装置において、
前記形態素解析手段が、文書を語句の集合に分解する形態素解析ステップと、
前記タイトル中語句統計情報集計手段が、形態素解析結果の各カテゴリに属する文書のタイトル中に語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第1の記憶手段に格納するタイトル中語句統計情報集計ステップと、
前記全文中語句統計情報集計手段が、前記形態素解析結果の各カテゴリに属する文書の全文中に出現する語句が出現する文書数の合計を含む語句の出現に関する情報の統計量、または、語句の出現するカテゴリ数、語句の出現する日数、語句の出現する時間間隔のいずれかを含む統計情報を集計し、第2の記憶手段に格納する全文中語句統計情報集計ステップと、
前記主題語句抽出手段が、カテゴリ毎に、前記第1の記憶手段に格納されている該カテゴリの前記タイトル中語句統計情報集計ステップの集計結果と、前記第2の記憶手段に格納されている前記全文中語句統計情報集計ステップの集計結果を入力として「カテゴリcに属する文書タイトル中に語句wが出現する比率と、カテゴリcを除くカテゴリに属する文書の全文書中に語句wが出現する比率は等しい」という帰無仮説の下で統計的検定を行った結果の有意確率が閾値αよりも小さな値となる語句を、主題を表す語句として抽出する主題語句抽出ステップと、
を行うことを特徴とするカテゴリ主題語句抽出方法。 - 前記装置の語句流行度算出手段が、前記形態素解析結果の語句の各カテゴリにおける出現文書数に関する時間情報に対応する統計量を語句流行度として算出し、第3の記憶手段に格納する語句流行度算出ステップを更に行い、
前記主題語句抽出ステップにおいて、
前記カテゴリ毎に主題を表す語句に、前記第3の記憶手段に格納されている前記語句流行度を付与して出力する
ことを特徴とする請求項5記載のカテゴリ主題語句抽出方法。 - 入力文書に対して、予めカテゴリ分けされた文書集合を基に、該入力文書の内容に即した意味的階層構造を有する複数のタグを自動的に付与する階層的タグ付与方法であって、
カテゴリ主題語句抽出手段、語句統計情報集計手段、形態素解析手段、カテゴリタグスコア算出手段、カテゴリ主題タグスコア算出手段、タグ付与手段を有する装置において、
前記カテゴリ主題語句抽出手段が、予めカテゴリ分けされた文書集合から請求項1または請求項2に記載のカテゴリ主題語句抽出装置を使用して、各カテゴリの主題を表す語句を抽出し、第1の記憶手段に格納するカテゴリ主題語句抽出ステップと、
前記語句統計情報集計手段が、前記カテゴリ分けされた文書集合に出現する語句の統計情報をカテゴリ毎に集計し、第2の記憶手段に格納する語句統計情報集計ステップと、
前記形態素解析手段が、入力文書を語句集合に分解する形態素解析ステップと、
前記カテゴリタグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計ステップの集計結果から、カテゴリcの文書中で語句wが出現する確率により、前記第1の記憶手段に格納されているカテゴリ名をタグとして前記入力文書へ付与すべき度合いを算出し、第3の記憶手段に格納するカテゴリタグスコア算出ステップと、
前記カテゴリ主題タグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書へ付与すべき度合いを算出し、第4の記憶手段に格納するカテゴリ主題タグスコア算出ステップと、
前記タグ付与手段が、前記第3の記憶手段に格納されている前記カテゴリタグスコア算出ステップの算出結果と前記第4の記憶手段に格納されているカテゴリ主題タグスコア算出ステップの算出結果とを乗算した値が大きいカテゴリとカテゴリ主題語句をタグとし、前記入力文書に対して該入力文書の内容に即した意味的階層構造を有する複数のタグを付与するタグ付与ステップと、
を行うことを特徴とする階層的タグ付与方法。 - 前記装置のキーワードタグスコア算出手段が、前記形態素解析ステップの結果である語句集合、前記第2の記憶手段に格納されている前記語句統計情報集計ステップの集計結果であるカテゴリcに属し、カテゴリ主題語句tが出現する文書数Nct個と、該カテゴリcに属し、該カテゴリ主題語句tが出現する文書のうち、語句wが出現する文書数Dct(w)の比率により、前記第1の記憶手段に格納されているカテゴリの主題を表す語句名をタグとして前記入力文書に出現する語句の重要度を算出し、第5の記憶手段に格納するキーワードタグスコア算出ステップを更に行い、
前記タグ付与ステップにおいて、
前記第3の記憶手段に格納されている前記カテゴリタグスコア算出ステップの算出結果と前記第4の記憶手段に格納されている前記カテゴリ主題タグスコア算出ステップの算出結果を乗算した値が大きいカテゴリとカテゴリ主題語句を選出し、該カテゴリ主題語句を除いた中で前記第5の記憶手段に格納されている前記キーワードタグスコア算出ステップの算出結果が大きい語句をタグとして前記入力文書に付与する
ことを特徴とする請求項7記載の階層的タグ付与方法。 - 請求項1または2に記載のカテゴリ主題語句抽出装置を構成する各手段としてコンピュータを機能させるためのカテゴリ主題語句抽出プログラム。
- 請求項3または4に記載の階層的タグ付与装置を構成する各手段としてコンピュータを機能させるための階層的タグ付与プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012397A JP5679400B2 (ja) | 2010-01-22 | 2010-01-22 | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010012397A JP5679400B2 (ja) | 2010-01-22 | 2010-01-22 | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011150603A JP2011150603A (ja) | 2011-08-04 |
JP5679400B2 true JP5679400B2 (ja) | 2015-03-04 |
Family
ID=44537505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010012397A Expired - Fee Related JP5679400B2 (ja) | 2010-01-22 | 2010-01-22 | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5679400B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015145524A1 (ja) * | 2014-03-24 | 2015-10-01 | 株式会社Ubic | 文書分析システム、文書分析方法、および、文書分析プログラム |
JP7456486B2 (ja) * | 2020-02-25 | 2024-03-27 | 日本電気株式会社 | アイテム分類支援システム、方法およびプログラム |
CN113836905B (zh) * | 2021-09-24 | 2023-08-08 | 网易(杭州)网络有限公司 | 一种主题提取方法、装置、终端及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004235497A (ja) * | 2003-01-31 | 2004-08-19 | Matsushita Electric Ind Co Ltd | パターン寸法測定方法 |
JP4360167B2 (ja) * | 2003-09-30 | 2009-11-11 | ソニー株式会社 | キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム |
KR100953491B1 (ko) * | 2007-09-06 | 2010-04-16 | 엔에이치엔(주) | 최신정보 제공 방법 및 시스템 |
-
2010
- 2010-01-22 JP JP2010012397A patent/JP5679400B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011150603A (ja) | 2011-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gambhir et al. | Recent automatic text summarization techniques: a survey | |
Weiss et al. | Fundamentals of predictive text mining | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
Jeon et al. | A framework to predict the quality of answers with non-textual features | |
Weiss et al. | Text mining: predictive methods for analyzing unstructured information | |
US9015153B1 (en) | Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document | |
Kanaris et al. | Learning to recognize webpage genres | |
Smith et al. | Corpus tools and methods, today and tomorrow: Incorporating linguists’ manual annotations | |
Ransom et al. | Facets of user‐assigned tags and their effectiveness in image retrieval | |
Kettunen et al. | Names, right or wrong: Named entities in an OCRed historical Finnish newspaper collection | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Wiedemann et al. | Document retrieval for large scale content analysis using contextualized dictionaries | |
Angrosh et al. | Context identification of sentences in research articles: Towards developing intelligent tools for the research community | |
CN111881695A (zh) | 一种审计知识的检索方法及装置 | |
Marshman et al. | Portability of cause–effect relation markers across specialised domains and text genres: a comparative evaluation | |
Wang et al. | Unsupervised opinion phrase extraction and rating in Chinese blog posts | |
Greenbacker et al. | Improving the accessibility of line graphs in multimodal documents | |
Kim et al. | Genre classification in automated ingest and appraisal metadata | |
Kuş et al. | An Extractive Text Summarization Model for Generating Extended Abstracts of Medical Papers in Turkish | |
Sirajzade et al. | The LuNa Open Toolbox for the Luxembourgish Language | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
DeVille et al. | Text as Data: Computational Methods of Understanding Written Expression Using SAS | |
Muhammad et al. | Revisiting the challenges and surveys in text similarity matching and detection methods. | |
Dave et al. | A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130805 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5679400 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |