JP2003141134A - テキストマイニング処理方法及びその実施装置 - Google Patents
テキストマイニング処理方法及びその実施装置Info
- Publication number
- JP2003141134A JP2003141134A JP2001341474A JP2001341474A JP2003141134A JP 2003141134 A JP2003141134 A JP 2003141134A JP 2001341474 A JP2001341474 A JP 2001341474A JP 2001341474 A JP2001341474 A JP 2001341474A JP 2003141134 A JP2003141134 A JP 2003141134A
- Authority
- JP
- Japan
- Prior art keywords
- text mining
- appearance
- user
- processing unit
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 ユーザの望む解像度のテキストマイニング結
果を得る為のテキストマイニング処理を効率的に支援す
ることが可能な技術を提供する。 【解決手段】 予め登録された文書の集合を対象として
その文書集合に関する各種情報を取得するテキストマイ
ニング処理方法において、予め登録された文書の集合を
対象として、その全体または一部分を取り出した処理対
象文書集合に特徴的に出現する語句を抽出するステップ
と、処理対象文書の細分化を行う基準となる区分によっ
て構成される分析軸を設定するステップと、前記設定さ
れた分析軸を構成する各区分と関連する度合が高い関連
語句を前記抽出した語句の中から取得するステップと、
前記取得した関連語句の文書集合における出現偏りしき
い値をユーザから受付けて設定するステップと、前記設
定された出現偏りしきい値よりも大きい出現偏り値を持
つ関連語句のみを前記取得した関連語句から抽出してテ
キストマイニング結果とするステップとを有するもので
ある。
果を得る為のテキストマイニング処理を効率的に支援す
ることが可能な技術を提供する。 【解決手段】 予め登録された文書の集合を対象として
その文書集合に関する各種情報を取得するテキストマイ
ニング処理方法において、予め登録された文書の集合を
対象として、その全体または一部分を取り出した処理対
象文書集合に特徴的に出現する語句を抽出するステップ
と、処理対象文書の細分化を行う基準となる区分によっ
て構成される分析軸を設定するステップと、前記設定さ
れた分析軸を構成する各区分と関連する度合が高い関連
語句を前記抽出した語句の中から取得するステップと、
前記取得した関連語句の文書集合における出現偏りしき
い値をユーザから受付けて設定するステップと、前記設
定された出現偏りしきい値よりも大きい出現偏り値を持
つ関連語句のみを前記取得した関連語句から抽出してテ
キストマイニング結果とするステップとを有するもので
ある。
Description
【0001】
【発明の属する技術分野】本発明は予め登録された文書
のデータベースを対象として、指定された文書集合に関
する各種情報を取得するテキストマイニング処理装置に
関し、特にユーザのニーズに応じたテキストマイニング
処理を支援するテキストマイニング処理装置に適用して
有効な技術に関するものである。
のデータベースを対象として、指定された文書集合に関
する各種情報を取得するテキストマイニング処理装置に
関し、特にユーザのニーズに応じたテキストマイニング
処理を支援するテキストマイニング処理装置に適用して
有効な技術に関するものである。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータ等の普及により、これらによって作成される
電子化情報は増大してきている。また、WWW(World Wide
Web)や電子メール、電子ニュース等から入手可能な電
子化情報も急速に増加している。企業活動においても、
電子メールや電子ニュース等の電子化情報が仕事の仲介
情報として、また仕事の結果として大量に蓄積されてい
る。そして、これらの蓄積された電子化情報が、企業活
動に有用な「知識」の源泉として注目されている。その
為、これらの電子化情報の内容を分析し、有効に活用す
ることが企業における重要な課題となっている。
ンピュータ等の普及により、これらによって作成される
電子化情報は増大してきている。また、WWW(World Wide
Web)や電子メール、電子ニュース等から入手可能な電
子化情報も急速に増加している。企業活動においても、
電子メールや電子ニュース等の電子化情報が仕事の仲介
情報として、また仕事の結果として大量に蓄積されてい
る。そして、これらの蓄積された電子化情報が、企業活
動に有用な「知識」の源泉として注目されている。その
為、これらの電子化情報の内容を分析し、有効に活用す
ることが企業における重要な課題となっている。
【0003】これらの電子化情報には、選択肢とそれに
対する回答等、機械的に処理し易い形式の情報もある
が、一般にはテキスト、すなわち文章形式で記述されて
いる情報が多く含まれる。この様なテキスト情報、例え
ば自由回答形式のアンケート等は、機械的に分析するこ
とが困難である為、従来人手による分析が行われてき
た。しかし、この人手による分析処理には以下の様な問
題点がある。 (1)処理対象文書を全て読まなければならず、文書数
が増加した場合には実用的ではない。 (2)主観的な判断に基づき分析が行われる為、ユーザ
の知識や熟練度によって結果が異なる。
対する回答等、機械的に処理し易い形式の情報もある
が、一般にはテキスト、すなわち文章形式で記述されて
いる情報が多く含まれる。この様なテキスト情報、例え
ば自由回答形式のアンケート等は、機械的に分析するこ
とが困難である為、従来人手による分析が行われてき
た。しかし、この人手による分析処理には以下の様な問
題点がある。 (1)処理対象文書を全て読まなければならず、文書数
が増加した場合には実用的ではない。 (2)主観的な判断に基づき分析が行われる為、ユーザ
の知識や熟練度によって結果が異なる。
【0004】この為、人手による分析を支援する技術と
してテキストマイニングへのニーズが高まっている。テ
キストマイニングの処理手順については、本願出願人が
先に出願した特願2000−142232号に具体的に
記載されている。以下、これを従来技術1と呼ぶ。
してテキストマイニングへのニーズが高まっている。テ
キストマイニングの処理手順については、本願出願人が
先に出願した特願2000−142232号に具体的に
記載されている。以下、これを従来技術1と呼ぶ。
【0005】テキストマイニングとは、予め登録された
テキスト情報を対象として、処理対象情報に含まれる語
句の共起関係や出現傾向等から新たな知識を発見する手
法のことである。具体的には、処理対象文書集合に対し
て、分析を行う視点である分析軸を設定し、分析軸の区
分に対応付けて文書集合の特徴を表す語句を取得する。
テキスト情報を対象として、処理対象情報に含まれる語
句の共起関係や出現傾向等から新たな知識を発見する手
法のことである。具体的には、処理対象文書集合に対し
て、分析を行う視点である分析軸を設定し、分析軸の区
分に対応付けて文書集合の特徴を表す語句を取得する。
【0006】ここで、「分析軸の構成要素に対応付けて
語句を取得する」とは、例えば「分析軸の構成要素と予
め定められた範囲内で共起する語句を取得する」ことを
意味する。この語句を参照することにより、ユーザは文
書集合の傾向をつかむことが可能となる。
語句を取得する」とは、例えば「分析軸の構成要素と予
め定められた範囲内で共起する語句を取得する」ことを
意味する。この語句を参照することにより、ユーザは文
書集合の傾向をつかむことが可能となる。
【0007】例えば、“サルモネラ菌による集団食中
毒”に関する新聞記事集合を、掲載月を分析軸として分
析する場合、掲載月を分析軸として分析することによ
り、分析軸の区分である“6月”と対応付けて「感染、
患者、症状、入院、…」、“7月”と対応付けて「衝
撃、給食、入院、集団感染、…」、“8月”と対応付け
て「売上、マイナス、食料品、生鮮、…」といった語句
が取得される。この語句を参照することにより、ユーザ
は“6月”には「サルモネラ菌に感染した患者が入
院」、“7月”には「給食でサルモネラ菌に集団感染が
発生」、“8月”には「サルモネラ菌の影響で生鮮食品
等の売上が低下」した話題が文書集合に存在するという
傾向を把握することが可能となる。
毒”に関する新聞記事集合を、掲載月を分析軸として分
析する場合、掲載月を分析軸として分析することによ
り、分析軸の区分である“6月”と対応付けて「感染、
患者、症状、入院、…」、“7月”と対応付けて「衝
撃、給食、入院、集団感染、…」、“8月”と対応付け
て「売上、マイナス、食料品、生鮮、…」といった語句
が取得される。この語句を参照することにより、ユーザ
は“6月”には「サルモネラ菌に感染した患者が入
院」、“7月”には「給食でサルモネラ菌に集団感染が
発生」、“8月”には「サルモネラ菌の影響で生鮮食品
等の売上が低下」した話題が文書集合に存在するという
傾向を把握することが可能となる。
【0008】従来技術1の処理手順では、まず処理対象
文書集合から内容を特徴付ける語句(以下「特徴語」と
呼ぶ)を抽出する。この特徴語は辞書を参照して抽出し
ても良いし、統計情報を用いて抽出しても良い。そし
て、分析を行う視点である分析軸を設定する。ここでは
文書の書誌情報として付与されている日付や年齢、性別
等を分析軸として設定したり、指定された語句を分析軸
の区分として設定する。例えば、アンケートから年齢に
よる意識の違いを知りたい場合には、ここで年齢を分析
軸として設定する。この場合、“20”や“30”等の
年齢を表す数値が分析軸の区分となる。
文書集合から内容を特徴付ける語句(以下「特徴語」と
呼ぶ)を抽出する。この特徴語は辞書を参照して抽出し
ても良いし、統計情報を用いて抽出しても良い。そし
て、分析を行う視点である分析軸を設定する。ここでは
文書の書誌情報として付与されている日付や年齢、性別
等を分析軸として設定したり、指定された語句を分析軸
の区分として設定する。例えば、アンケートから年齢に
よる意識の違いを知りたい場合には、ここで年齢を分析
軸として設定する。この場合、“20”や“30”等の
年齢を表す数値が分析軸の区分となる。
【0009】次に、分析軸の区分の数だけ以下の処理を
繰返す。すなわち、前記抽出した特徴語の中から、分析
軸の該当区分と関連の深い語句、例えば予め定められた
範囲内で共起する語句を取得する。予め定められた範囲
としては、同一文書内、同一段落内、同一文章内または
m語以内、n文字以内(m、nは整数)等を用いる。そ
して、前記取得した特徴語の集合を、特徴語の出現頻度
やどれだけ陳腐に現れるかを示す出現偏り(例えば"IDF"
→"Inverted Document Frequency"の略:注目する単語の
現れる文書数が多いほど小さな値をとる:"Information
Retrieval"、 W.B.Frakes & R.Baeza-Yates、 Prentice H
all、pp373)に基づいてランク付けを行い、ランク付けの
結果をユーザに提示する。ランク付けに用いる指標とし
ては、具体的には、特徴語の出現頻度か、或いは出現頻
度にIDFの値を乗じたもの(「TF・IDF」と呼ば
れる:"TF"→"Term Frequency"の略: 単語の出現頻度
のこと)が用いられることが多い。
繰返す。すなわち、前記抽出した特徴語の中から、分析
軸の該当区分と関連の深い語句、例えば予め定められた
範囲内で共起する語句を取得する。予め定められた範囲
としては、同一文書内、同一段落内、同一文章内または
m語以内、n文字以内(m、nは整数)等を用いる。そ
して、前記取得した特徴語の集合を、特徴語の出現頻度
やどれだけ陳腐に現れるかを示す出現偏り(例えば"IDF"
→"Inverted Document Frequency"の略:注目する単語の
現れる文書数が多いほど小さな値をとる:"Information
Retrieval"、 W.B.Frakes & R.Baeza-Yates、 Prentice H
all、pp373)に基づいてランク付けを行い、ランク付けの
結果をユーザに提示する。ランク付けに用いる指標とし
ては、具体的には、特徴語の出現頻度か、或いは出現頻
度にIDFの値を乗じたもの(「TF・IDF」と呼ば
れる:"TF"→"Term Frequency"の略: 単語の出現頻度
のこと)が用いられることが多い。
【0010】以上の様に、従来技術1では、分析軸の区
分に対応付けて語句を取得することにより、ユーザが文
書集合の傾向を把握することを支援している。この様に
従来技術1では、分析軸の区分に対応付けて、自動的に
処理対象文書集合を特徴付ける語句を取得している為、
ユーザの負担の軽減、ユーザによる分析結果の相違の低
減が図れる。
分に対応付けて語句を取得することにより、ユーザが文
書集合の傾向を把握することを支援している。この様に
従来技術1では、分析軸の区分に対応付けて、自動的に
処理対象文書集合を特徴付ける語句を取得している為、
ユーザの負担の軽減、ユーザによる分析結果の相違の低
減が図れる。
【0011】
【発明が解決しようとする課題】前記従来のテキストマ
イニング技術において、出現偏りの具体例として例えば
IDFを用い、特徴語を出現頻度や出現偏りに基づいて
ランク付けした場合、IDFの低い単語(分析軸の多く
の区分に現れる単語)が上位にランクされ易いという問
題点がある。これは、IDFの低い単語は出現頻度が高
い為に生じる。ランク付けの基準として出現頻度そのも
のを用いる場合は勿論だが、基準としてTF・IDFを
用いても、一般に出現頻度の寄与がIDFの寄与よりも
高くなる傾向があると言われている(久光徹 丹羽芳樹
辻井潤一(1999)、タームのrepresentativenessを測る、
情報処理学会研究会報告(自然言語処理研究会)、 Vol. 9
9-NL-133、 pp.115-122.)。
イニング技術において、出現偏りの具体例として例えば
IDFを用い、特徴語を出現頻度や出現偏りに基づいて
ランク付けした場合、IDFの低い単語(分析軸の多く
の区分に現れる単語)が上位にランクされ易いという問
題点がある。これは、IDFの低い単語は出現頻度が高
い為に生じる。ランク付けの基準として出現頻度そのも
のを用いる場合は勿論だが、基準としてTF・IDFを
用いても、一般に出現頻度の寄与がIDFの寄与よりも
高くなる傾向があると言われている(久光徹 丹羽芳樹
辻井潤一(1999)、タームのrepresentativenessを測る、
情報処理学会研究会報告(自然言語処理研究会)、 Vol. 9
9-NL-133、 pp.115-122.)。
【0012】例えば前記の例では「A県」や「患者」
「給食」といった、多くの区分に現れる単語が上位を占
め、各区分の他区分に対する特徴を良く表す様な「牛
乳」「野菜」といった単語が下位に追いやられることが
ある。こうした傾向は、ランク付けの基準として出現頻
度を用いても、また出現頻度にIDFの値を乗じたもの
を用いても、共通して現れる傾向である(ランク付けの
基準として出現頻度を用いる場合は勿論だが、TF・I
DFを用いても、上で述べた様に、出現頻度の寄与がI
DFの寄与よりも高くなる傾向がある為)。こうした傾
向がある為、各区分の特徴が良く分からない、という問
題点が出てくる。
「給食」といった、多くの区分に現れる単語が上位を占
め、各区分の他区分に対する特徴を良く表す様な「牛
乳」「野菜」といった単語が下位に追いやられることが
ある。こうした傾向は、ランク付けの基準として出現頻
度を用いても、また出現頻度にIDFの値を乗じたもの
を用いても、共通して現れる傾向である(ランク付けの
基準として出現頻度を用いる場合は勿論だが、TF・I
DFを用いても、上で述べた様に、出現頻度の寄与がI
DFの寄与よりも高くなる傾向がある為)。こうした傾
向がある為、各区分の特徴が良く分からない、という問
題点が出てくる。
【0013】この問題点に対する対策としては、「ID
Fしきい値を設け、IDFの低い単語を特徴語から排除
する」といった方法が考えられる。これにより、各区分
の特徴を良く表す様な特徴語が上位を占めることが期待
できる。しかし、この方法を用いる場合には以下に示す
様な問題点がある。
Fしきい値を設け、IDFの低い単語を特徴語から排除
する」といった方法が考えられる。これにより、各区分
の特徴を良く表す様な特徴語が上位を占めることが期待
できる。しかし、この方法を用いる場合には以下に示す
様な問題点がある。
【0014】すなわち、この方法を適用することによっ
て、今度は全体的な傾向が読み取り難くなる。例えば、
前記の例でIDFの低い「A県」や「給食」といった単
語が、サルモネラ菌の話題全体を代表する様な単語であ
ることが読み取れるが、IDFの低い単語を排除した場
合にはそういった情報を読み取ることができなくなる。
更に、複数の区分から構成される「ある一期間」を特徴
付ける様な、中間的なマイニング結果を得る為にIDF
のしきい値を設定しようとしても、適切な値を設定する
ことが難しい、といった問題点もある(一般に、IDF
しきい値を大きくすると、より各区分固有の特徴が表現
でき、IDFしきい値を小さくすると、より全体的な傾
向が表現できる、という性質がある)。
て、今度は全体的な傾向が読み取り難くなる。例えば、
前記の例でIDFの低い「A県」や「給食」といった単
語が、サルモネラ菌の話題全体を代表する様な単語であ
ることが読み取れるが、IDFの低い単語を排除した場
合にはそういった情報を読み取ることができなくなる。
更に、複数の区分から構成される「ある一期間」を特徴
付ける様な、中間的なマイニング結果を得る為にIDF
のしきい値を設定しようとしても、適切な値を設定する
ことが難しい、といった問題点もある(一般に、IDF
しきい値を大きくすると、より各区分固有の特徴が表現
でき、IDFしきい値を小さくすると、より全体的な傾
向が表現できる、という性質がある)。
【0015】本発明の目的は上記問題を解決し、ユーザ
の望む解像度のテキストマイニング結果を得る為のテキ
ストマイニング処理を効率的に支援することが可能な技
術を提供することにある。
の望む解像度のテキストマイニング結果を得る為のテキ
ストマイニング処理を効率的に支援することが可能な技
術を提供することにある。
【0016】
【課題を解決するための手段】本発明は、予め登録され
た文書の集合を対象としてその文書集合に関する各種情
報を取得するテキストマイニング処理装置において、処
理対象文書集合に特徴的に出現し、分析軸を構成する各
区分と関連する度合が高く、その出現偏り値がユーザか
ら受付けたしきい値よりも大きい特徴語を抽出するもの
である。
た文書の集合を対象としてその文書集合に関する各種情
報を取得するテキストマイニング処理装置において、処
理対象文書集合に特徴的に出現し、分析軸を構成する各
区分と関連する度合が高く、その出現偏り値がユーザか
ら受付けたしきい値よりも大きい特徴語を抽出するもの
である。
【0017】本発明のテキストマイニング処理装置で
は、予め登録された文書の集合を対象として、その全体
または一部分を取り出した処理対象文書集合に特徴的に
出現する語句を抽出する。ここでは辞書を参照して特徴
語を抽出しても良いし、統計情報を用いて抽出を行って
も良い。
は、予め登録された文書の集合を対象として、その全体
または一部分を取り出した処理対象文書集合に特徴的に
出現する語句を抽出する。ここでは辞書を参照して特徴
語を抽出しても良いし、統計情報を用いて抽出を行って
も良い。
【0018】特徴語が抽出された後、処理対象文書の細
分化を行う基準となる区分によって構成される分析軸を
設定する。ここでは文書の書誌情報として付与されてい
る日付、年齢や性別等を分析軸として設定したり、指定
された語句を分析軸の区分として設定する。
分化を行う基準となる区分によって構成される分析軸を
設定する。ここでは文書の書誌情報として付与されてい
る日付、年齢や性別等を分析軸として設定したり、指定
された語句を分析軸の区分として設定する。
【0019】分析軸の区分の数だけ前記設定を繰返した
後、前記設定された分析軸を構成する各区分と関連する
度合が高い関連語句、例えば予め定められた範囲内で共
起する語句を前記抽出した語句の中から取得した後、そ
の取得した特徴語の集合を、特徴語の出現頻度やIDF
等の出現偏りに基づいてランク付けを行う。
後、前記設定された分析軸を構成する各区分と関連する
度合が高い関連語句、例えば予め定められた範囲内で共
起する語句を前記抽出した語句の中から取得した後、そ
の取得した特徴語の集合を、特徴語の出現頻度やIDF
等の出現偏りに基づいてランク付けを行う。
【0020】次に、IDF等の出現偏りの値を指定でき
る範囲となる出現偏りしきい値指定可能範囲を設定す
る。ここで、前記出現偏りしきい値指定可能範囲を予め
定められた値に設定しても良いし、出現偏りしきい値の
指定可能範囲をユーザから受付けて前記出現偏りしきい
値指定可能範囲として設定しても良い。
る範囲となる出現偏りしきい値指定可能範囲を設定す
る。ここで、前記出現偏りしきい値指定可能範囲を予め
定められた値に設定しても良いし、出現偏りしきい値の
指定可能範囲をユーザから受付けて前記出現偏りしきい
値指定可能範囲として設定しても良い。
【0021】前記の様にして設定された出現偏りしきい
値指定可能範囲をユーザに提示した後、前記取得した関
連語句の文書集合における出現偏りしきい値をユーザか
ら受付けて設定し、前記設定された出現偏りしきい値よ
りも大きい出現偏り値を持つ関連語句のみを前記取得し
た関連語句から抽出してテキストマイニング結果として
表示する。
値指定可能範囲をユーザに提示した後、前記取得した関
連語句の文書集合における出現偏りしきい値をユーザか
ら受付けて設定し、前記設定された出現偏りしきい値よ
りも大きい出現偏り値を持つ関連語句のみを前記取得し
た関連語句から抽出してテキストマイニング結果として
表示する。
【0022】そして、出現偏りしきい値や出現偏りしき
い値指定可能範囲の変更指示がユーザから入力されてい
るかどうかを調べ、変更指示が入力されている場合には
入力内容に従って出現偏りしきい値または出現偏りしき
い値指定可能範囲を変更した後、再度テキストマイニン
グ結果を抽出して表示する。
い値指定可能範囲の変更指示がユーザから入力されてい
るかどうかを調べ、変更指示が入力されている場合には
入力内容に従って出現偏りしきい値または出現偏りしき
い値指定可能範囲を変更した後、再度テキストマイニン
グ結果を抽出して表示する。
【0023】前記の様に本発明において、ユーザは、テ
キストマイニングの結果を見ながら、自分の望む結果が
得られる様に、対話的に出現偏りしきい値を操作するこ
とができる。
キストマイニングの結果を見ながら、自分の望む結果が
得られる様に、対話的に出現偏りしきい値を操作するこ
とができる。
【0024】以上の様に本発明のテキストマイニング処
理装置によれば、処理対象文書集合に特徴的に出現し、
分析軸を構成する各区分と関連する度合が高く、その出
現偏り値がユーザから受付けたしきい値よりも大きい特
徴語を抽出するので、ユーザの望む解像度のテキストマ
イニング結果を得る為のテキストマイニング処理を効率
的に支援することが可能である。
理装置によれば、処理対象文書集合に特徴的に出現し、
分析軸を構成する各区分と関連する度合が高く、その出
現偏り値がユーザから受付けたしきい値よりも大きい特
徴語を抽出するので、ユーザの望む解像度のテキストマ
イニング結果を得る為のテキストマイニング処理を効率
的に支援することが可能である。
【0025】
【発明の実施の形態】以下に予め登録された文書の集合
を対象としてその文書集合に関する各種情報を取得する
一実施形態のテキストマイニング処理装置について説明
する。
を対象としてその文書集合に関する各種情報を取得する
一実施形態のテキストマイニング処理装置について説明
する。
【0026】図1は本実施形態のテキストマイニング処
理装置の概略構成を示す図である。図1に示す様に本実
施形態のテキストマイニング処理装置は、システム制御
処理部111と、特徴語抽出処理部112と、分析軸設
定処理部113と、共起語句取得処理部114と、特徴
語ランク付け処理部115と、指定可能範囲自動設定処
理部116と、IDFしきい値自動設定処理部117
と、指定可能範囲手動設定処理部118と、IDFしき
い値手動設定処理部119と、マイニング結果表示処理
部120とを有している。
理装置の概略構成を示す図である。図1に示す様に本実
施形態のテキストマイニング処理装置は、システム制御
処理部111と、特徴語抽出処理部112と、分析軸設
定処理部113と、共起語句取得処理部114と、特徴
語ランク付け処理部115と、指定可能範囲自動設定処
理部116と、IDFしきい値自動設定処理部117
と、指定可能範囲手動設定処理部118と、IDFしき
い値手動設定処理部119と、マイニング結果表示処理
部120とを有している。
【0027】システム制御処理部111は、キーボード
102やポインティングデバイス103からのテキスト
マイニング実行指示や、他の処理部からの関数呼び出し
等を受け起動し、特徴語抽出処理部112、分析軸設定
処理部113、共起語句取得処理部114、特徴語ラン
ク付け処理部115、指定可能範囲自動設定処理部11
6、IDFしきい値自動設定処理部117、指定可能範
囲手動設定処理部118、IDFしきい値手動設定処理
部119及びマイニング結果表示処理部120の制御を
行う処理部である。
102やポインティングデバイス103からのテキスト
マイニング実行指示や、他の処理部からの関数呼び出し
等を受け起動し、特徴語抽出処理部112、分析軸設定
処理部113、共起語句取得処理部114、特徴語ラン
ク付け処理部115、指定可能範囲自動設定処理部11
6、IDFしきい値自動設定処理部117、指定可能範
囲手動設定処理部118、IDFしきい値手動設定処理
部119及びマイニング結果表示処理部120の制御を
行う処理部である。
【0028】特徴語抽出処理部112は、予め登録され
た文書の集合を対象として、その全体または一部分を取
り出した処理対象文書集合に特徴的に出現する語句を抽
出する処理部である。分析軸設定処理部113は、処理
対象文書の細分化を行う基準となる区分によって構成さ
れる分析軸を設定する処理部である。
た文書の集合を対象として、その全体または一部分を取
り出した処理対象文書集合に特徴的に出現する語句を抽
出する処理部である。分析軸設定処理部113は、処理
対象文書の細分化を行う基準となる区分によって構成さ
れる分析軸を設定する処理部である。
【0029】共起語句取得処理部114は、前記設定さ
れた分析軸を構成する各区分と関連する度合が高い関連
語句を前記抽出した語句の中から取得する関連語句取得
処理部であり、予め定められた範囲内で共起する語句を
取得する処理部である。
れた分析軸を構成する各区分と関連する度合が高い関連
語句を前記抽出した語句の中から取得する関連語句取得
処理部であり、予め定められた範囲内で共起する語句を
取得する処理部である。
【0030】特徴語ランク付け処理部115は、前記取
得した関連語句の文書集合を、その出現頻度やIDF等
の出現偏りに基づいてランク付けする処理部である。指
定可能範囲自動設定処理部116は、前記取得した関連
語句の文書集合におけるIDFしきい値の指定可能範囲
を示すIDFしきい値指定可能範囲を予め定められたデ
フォールトの値に設定する処理部である。
得した関連語句の文書集合を、その出現頻度やIDF等
の出現偏りに基づいてランク付けする処理部である。指
定可能範囲自動設定処理部116は、前記取得した関連
語句の文書集合におけるIDFしきい値の指定可能範囲
を示すIDFしきい値指定可能範囲を予め定められたデ
フォールトの値に設定する処理部である。
【0031】IDFしきい値自動設定処理部117は、
前記IDFしきい値をIDFしきい値指定可能範囲の中
間値に設定する処理部である。指定可能範囲手動設定処
理部118は、前記IDFしきい値の指定可能範囲をユ
ーザから受付けてIDFしきい値指定可能範囲として設
定する処理部である。
前記IDFしきい値をIDFしきい値指定可能範囲の中
間値に設定する処理部である。指定可能範囲手動設定処
理部118は、前記IDFしきい値の指定可能範囲をユ
ーザから受付けてIDFしきい値指定可能範囲として設
定する処理部である。
【0032】IDFしきい値手動設定処理部119は、
前記取得した関連語句の文書集合におけるIDFしきい
値をユーザから受付けて設定する処理部である。マイニ
ング結果表示処理部120は、前記設定されたIDFし
きい値よりも大きいIDF値を持つ関連語句のみを前記
取得した関連語句から抽出してテキストマイニング結果
として表示する処理部である。
前記取得した関連語句の文書集合におけるIDFしきい
値をユーザから受付けて設定する処理部である。マイニ
ング結果表示処理部120は、前記設定されたIDFし
きい値よりも大きいIDF値を持つ関連語句のみを前記
取得した関連語句から抽出してテキストマイニング結果
として表示する処理部である。
【0033】テキストマイニング処理装置をシステム制
御処理部111、特徴語抽出処理部112、分析軸設定
処理部113、共起語句取得処理部114、特徴語ラン
ク付け処理部115、指定可能範囲自動設定処理部11
6、IDFしきい値自動設定処理部117、指定可能範
囲手動設定処理部118、IDFしきい値手動設定処理
部119及びマイニング結果表示処理部120として機
能させる為のプログラムは、CD−ROM等の記録媒体
に記録され磁気ディスク等に格納された後、メモリにロ
ードされて実行されるものとする。なお前記プログラム
を記録する記録媒体はCD−ROM以外の他の記録媒体
でも良い。また前記プログラムを当該記録媒体から情報
処理装置にインストールして使用しても良いし、ネット
ワークを通じて当該記録媒体にアクセスして前記プログ
ラムを使用するものとしても良い。
御処理部111、特徴語抽出処理部112、分析軸設定
処理部113、共起語句取得処理部114、特徴語ラン
ク付け処理部115、指定可能範囲自動設定処理部11
6、IDFしきい値自動設定処理部117、指定可能範
囲手動設定処理部118、IDFしきい値手動設定処理
部119及びマイニング結果表示処理部120として機
能させる為のプログラムは、CD−ROM等の記録媒体
に記録され磁気ディスク等に格納された後、メモリにロ
ードされて実行されるものとする。なお前記プログラム
を記録する記録媒体はCD−ROM以外の他の記録媒体
でも良い。また前記プログラムを当該記録媒体から情報
処理装置にインストールして使用しても良いし、ネット
ワークを通じて当該記録媒体にアクセスして前記プログ
ラムを使用するものとしても良い。
【0034】本実施形態では、出現偏りとして特にID
Fを用いる例を示すが、本発明における出現偏りはID
Fに限定されるものではない。
Fを用いる例を示すが、本発明における出現偏りはID
Fに限定されるものではない。
【0035】本実施形態を適用したテキストマイニング
処理装置は、図1に示す様に、ディスプレイ101、キ
ーボード102、ポインティングデバイス103、中央
演算処理装置105(CPU)、フレキシブルディスク
ドライブ106(FDD)、磁気ディスク装置108、
主記憶装置110及びこれらを結ぶバス104から構成
される。磁気ディスク装置108は二次記憶装置の一つ
であり、テキストファイル109が格納される。フレキ
シブルディスク107に格納される情報は、フレキシブ
ルディスクドライブ106によりアクセスされる。フレ
キシブルディスクドライブ106や磁気ディスク装置1
08は、通信回線(図1には示していない)等で接続さ
れた他の装置と接続する様な構成をとっても構わない。
処理装置は、図1に示す様に、ディスプレイ101、キ
ーボード102、ポインティングデバイス103、中央
演算処理装置105(CPU)、フレキシブルディスク
ドライブ106(FDD)、磁気ディスク装置108、
主記憶装置110及びこれらを結ぶバス104から構成
される。磁気ディスク装置108は二次記憶装置の一つ
であり、テキストファイル109が格納される。フレキ
シブルディスク107に格納される情報は、フレキシブ
ルディスクドライブ106によりアクセスされる。フレ
キシブルディスクドライブ106や磁気ディスク装置1
08は、通信回線(図1には示していない)等で接続さ
れた他の装置と接続する様な構成をとっても構わない。
【0036】主記憶装置110には、システム制御処理
部111、特徴語抽出処理部112、分析軸設定処理部
113、共起語句取得処理部114、特徴語ランク付け
処理部115、指定可能範囲自動設定処理部116、I
DFしきい値自動設定処理部117、指定可能範囲手動
設定処理部118、IDFしきい値手動設定処理部11
9、マイニング結果表示処理部120としてコンピュー
タを機能させる為のプログラムが格納されると共に、ワ
ークエリア121が確保される。以上のプログラムは磁
気ディスク装置108や、フレキシブルディスク107
等のコンピュータで読み書きできる記憶媒体に格納する
こともできる。
部111、特徴語抽出処理部112、分析軸設定処理部
113、共起語句取得処理部114、特徴語ランク付け
処理部115、指定可能範囲自動設定処理部116、I
DFしきい値自動設定処理部117、指定可能範囲手動
設定処理部118、IDFしきい値手動設定処理部11
9、マイニング結果表示処理部120としてコンピュー
タを機能させる為のプログラムが格納されると共に、ワ
ークエリア121が確保される。以上のプログラムは磁
気ディスク装置108や、フレキシブルディスク107
等のコンピュータで読み書きできる記憶媒体に格納する
こともできる。
【0037】システム制御処理部111は、キーボード
102やポインティングデバイス103からのテキスト
マイニング実行指示や、他のプログラムからの関数呼び
出し等を受けて起動し、特徴語抽出処理部112、分析
軸設定処理部113、共起語句取得処理部114、特徴
語ランク付け処理部115、指定可能範囲自動設定処理
部116、IDFしきい値自動設定処理部117、指定
可能範囲手動設定処理部118、IDFしきい値手動設
定処理部119及びマイニング結果表示処理部120の
制御を行う。
102やポインティングデバイス103からのテキスト
マイニング実行指示や、他のプログラムからの関数呼び
出し等を受けて起動し、特徴語抽出処理部112、分析
軸設定処理部113、共起語句取得処理部114、特徴
語ランク付け処理部115、指定可能範囲自動設定処理
部116、IDFしきい値自動設定処理部117、指定
可能範囲手動設定処理部118、IDFしきい値手動設
定処理部119及びマイニング結果表示処理部120の
制御を行う。
【0038】以下、本実施形態の処理内容の概要を、図
1の構成図と図2のフローチャートを用いて説明する。
1の構成図と図2のフローチャートを用いて説明する。
【0039】図2は本実施形態のテキストマイニング処
理装置の処理手順を示すフローチャートである。まずス
テップ201において、システム制御処理部111は、
特徴語抽出処理部112を起動し、テキストファイル1
09の集合から内容を特徴付ける語句である特徴語を抽
出する。この特徴語は、辞書等を参照して抽出しても良
いし、統計情報を用いて抽出しても良い。更には、同義
語辞書等を用いて同じ意味を持つ語句をまとめて、単一
の語句に置き換える様な処理を施しても良い。
理装置の処理手順を示すフローチャートである。まずス
テップ201において、システム制御処理部111は、
特徴語抽出処理部112を起動し、テキストファイル1
09の集合から内容を特徴付ける語句である特徴語を抽
出する。この特徴語は、辞書等を参照して抽出しても良
いし、統計情報を用いて抽出しても良い。更には、同義
語辞書等を用いて同じ意味を持つ語句をまとめて、単一
の語句に置き換える様な処理を施しても良い。
【0040】次にステップ202において、システム制
御処理部111は分析軸設定処理部113を起動し、分
析を行う視点である分析軸を設定する。ここでは文書の
書誌情報として付与されている日付、年齢や性別等を分
析軸として設定したり、指定された特徴語を分析軸の区
分として設定する。例えば、アンケートから年齢による
意識の違いを知りたい場合には、ここで年齢を分析軸と
して設定する。この場合、“20”や“30”等の年齢
を表す数値が分析軸の区分となる。
御処理部111は分析軸設定処理部113を起動し、分
析を行う視点である分析軸を設定する。ここでは文書の
書誌情報として付与されている日付、年齢や性別等を分
析軸として設定したり、指定された特徴語を分析軸の区
分として設定する。例えば、アンケートから年齢による
意識の違いを知りたい場合には、ここで年齢を分析軸と
して設定する。この場合、“20”や“30”等の年齢
を表す数値が分析軸の区分となる。
【0041】ステップ203はループAの始端であり、
ステップ203からステップ207までのループAが、
分析軸の区分の数だけ繰返される。ステップ204にお
いて、システム制御処理部111は共起語句取得処理部
114を起動し、ステップ201で抽出した特徴語の中
から、分析軸の該当区分と関連の深い語句、例えば予め
定められた範囲内で共起する語句を取得する。次にステ
ップ205において、システム制御処理部111は特徴
語ランク付け処理部115を起動し、ステップ204で
取得した特徴語の集合を、特徴語の出現頻度やIDFに
基づいてランク付けを行う。
ステップ203からステップ207までのループAが、
分析軸の区分の数だけ繰返される。ステップ204にお
いて、システム制御処理部111は共起語句取得処理部
114を起動し、ステップ201で抽出した特徴語の中
から、分析軸の該当区分と関連の深い語句、例えば予め
定められた範囲内で共起する語句を取得する。次にステ
ップ205において、システム制御処理部111は特徴
語ランク付け処理部115を起動し、ステップ204で
取得した特徴語の集合を、特徴語の出現頻度やIDFに
基づいてランク付けを行う。
【0042】以下、本実施形態による図2のステップ2
08からステップ215の処理について、図1のシステ
ム構成図を参照しながら概要を説明する。
08からステップ215の処理について、図1のシステ
ム構成図を参照しながら概要を説明する。
【0043】ステップ208において、システム制御処
理部111は、指定可能範囲自動設定処理部116を呼
び出し、インタフェース上でユーザがグラフィカルにI
DFしきい値を指定する際に、IDFの値を指定できる
範囲となる「IDFしきい値指定可能範囲」を設定す
る。この指定可能範囲は、後述するステップ215にお
いて、ユーザが指定可能範囲手動設定処理部118を利
用して指定することも可能であるが、ステップ208の
段階では、予めテキストマイニング処理装置に定められ
たデフォールトの値を指定可能範囲として設定する。
理部111は、指定可能範囲自動設定処理部116を呼
び出し、インタフェース上でユーザがグラフィカルにI
DFしきい値を指定する際に、IDFの値を指定できる
範囲となる「IDFしきい値指定可能範囲」を設定す
る。この指定可能範囲は、後述するステップ215にお
いて、ユーザが指定可能範囲手動設定処理部118を利
用して指定することも可能であるが、ステップ208の
段階では、予めテキストマイニング処理装置に定められ
たデフォールトの値を指定可能範囲として設定する。
【0044】次にステップ209において指定可能範囲
をユーザインタフェース上に表示する。更にステップ2
10においてIDFしきい値自動設定処理部117を起
動し、IDFしきい値の値を指定可能範囲の最小値と最
大値の中間の値に設定する。そしてステップ211にお
いて、ユーザインタフェース上でIDFしきい値の値を
表示する。次にステップ212において、システム制御
処理部111はマイニング結果表示処理部120を起動
し、設定されたIDFしきい値よりも大きいIDF値を
持つ特徴語群のみを対象としてマイニング結果を表示す
る。
をユーザインタフェース上に表示する。更にステップ2
10においてIDFしきい値自動設定処理部117を起
動し、IDFしきい値の値を指定可能範囲の最小値と最
大値の中間の値に設定する。そしてステップ211にお
いて、ユーザインタフェース上でIDFしきい値の値を
表示する。次にステップ212において、システム制御
処理部111はマイニング結果表示処理部120を起動
し、設定されたIDFしきい値よりも大きいIDF値を
持つ特徴語群のみを対象としてマイニング結果を表示す
る。
【0045】ステップ213は、IDFしきい値手動設
定処理部119を用いたユーザからのIDFしきい値指
示入力があるか否かを判定する処理である。IDFしき
い値の指示入力がある場合にはステップ211に戻り、
ユーザに指示されたIDFしきい値を表示する。逆にユ
ーザからの指示入力が無い場合にはステップ214の判
定処理に進む。
定処理部119を用いたユーザからのIDFしきい値指
示入力があるか否かを判定する処理である。IDFしき
い値の指示入力がある場合にはステップ211に戻り、
ユーザに指示されたIDFしきい値を表示する。逆にユ
ーザからの指示入力が無い場合にはステップ214の判
定処理に進む。
【0046】ステップ214の判定処理は、指定可能範
囲手動設定処理部118を用いたユーザからの指定可能
範囲指示入力があるか否かを判定する処理である。指定
可能範囲の指示入力がある場合にはステップ209に戻
り、ユーザに指示された指定可能範囲を表示する。逆に
ユーザからの指示入力が無い場合にはステップ215の
判定処理に進む。
囲手動設定処理部118を用いたユーザからの指定可能
範囲指示入力があるか否かを判定する処理である。指定
可能範囲の指示入力がある場合にはステップ209に戻
り、ユーザに指示された指定可能範囲を表示する。逆に
ユーザからの指示入力が無い場合にはステップ215の
判定処理に進む。
【0047】ステップ215は、ユーザからの終了指示
入力があるか否かを判定する処理である。終了指示入力
がある場合にはテキストマイニング処理を終了させる。
逆に終了指示入力がない場合にはステップ213の判定
処理に戻る。
入力があるか否かを判定する処理である。終了指示入力
がある場合にはテキストマイニング処理を終了させる。
逆に終了指示入力がない場合にはステップ213の判定
処理に戻る。
【0048】以上が本実施形態に関るテキストマイニン
グ処理装置の処理内容の概要である。以下、本実施形態
におけるステップ208からステップ216の処理を中
心にして、図2の各処理の例を詳細に説明する。
グ処理装置の処理内容の概要である。以下、本実施形態
におけるステップ208からステップ216の処理を中
心にして、図2の各処理の例を詳細に説明する。
【0049】図2のステップ208からステップ216
の詳細な説明を行う前に、本実施形態におけるテキスト
マイニング処理装置のユーザインタフェースの例を図3
に示す。
の詳細な説明を行う前に、本実施形態におけるテキスト
マイニング処理装置のユーザインタフェースの例を図3
に示す。
【0050】図3は本実施形態のテキストマイニング処
理装置のユーザインタフェース例を示す図である。図3
の処理結果表示部301は、テキストマイニングによっ
て得られた特徴語の中で設定されたIDFしきい値より
も大きいIDF値を持つ特徴語と、その語が分析軸のど
の区分において上位の所定ランク以内にランクインして
いるのかを、特徴語毎に表示部分302の様にユーザに
提示する表示部である。表示部分302において、網掛
けの長方形のある区分が、その特徴語がランクインして
いる区分を表現している。
理装置のユーザインタフェース例を示す図である。図3
の処理結果表示部301は、テキストマイニングによっ
て得られた特徴語の中で設定されたIDFしきい値より
も大きいIDF値を持つ特徴語と、その語が分析軸のど
の区分において上位の所定ランク以内にランクインして
いるのかを、特徴語毎に表示部分302の様にユーザに
提示する表示部である。表示部分302において、網掛
けの長方形のある区分が、その特徴語がランクインして
いる区分を表現している。
【0051】ここで、特徴語の並べ方としては、出現頻
度順、出現頻度と出現偏り値との積の降順、出現偏り値
の昇順等様々な指標が可能であるが、本実施形態では出
現偏り値の一種であるIDF値の昇順に特徴語を並べる
例を示す。特徴語をユーザに何語提示するかについて
も、個数に制限を設ける方法や、提示する特徴語の出現
偏り値の最大値を規定する等の方法があるが、本実施形
態では、上位10個の特徴語をユーザに提示する場合を
示す。
度順、出現頻度と出現偏り値との積の降順、出現偏り値
の昇順等様々な指標が可能であるが、本実施形態では出
現偏り値の一種であるIDF値の昇順に特徴語を並べる
例を示す。特徴語をユーザに何語提示するかについて
も、個数に制限を設ける方法や、提示する特徴語の出現
偏り値の最大値を規定する等の方法があるが、本実施形
態では、上位10個の特徴語をユーザに提示する場合を
示す。
【0052】図3の処理結果表示部301では特徴語は
5個しか表示できていないが、スクロールバー303を
操作することで、処理結果表示部301に表示する「特
徴語と網掛けの長方形の組合わせ」を縦方向にスクロー
ルさせ、6位から10位の特徴語もユーザが閲覧するこ
とができる。指定可能範囲目盛り304では、指定可能
範囲の最大値、最小値及びそれらの間の値をユーザに提
示する。
5個しか表示できていないが、スクロールバー303を
操作することで、処理結果表示部301に表示する「特
徴語と網掛けの長方形の組合わせ」を縦方向にスクロー
ルさせ、6位から10位の特徴語もユーザが閲覧するこ
とができる。指定可能範囲目盛り304では、指定可能
範囲の最大値、最小値及びそれらの間の値をユーザに提
示する。
【0053】スライドバー305は、IDFしきい値を
指定する為のものであり、三角形の上端の指す目盛りの
値が、設定されたIDFしきい値を表す。このスライド
バー305はユーザがポインティングデバイス103等
を用いて操作可能であり、ユーザは指定可能範囲内の任
意のIDFしきい値を指定することができる。
指定する為のものであり、三角形の上端の指す目盛りの
値が、設定されたIDFしきい値を表す。このスライド
バー305はユーザがポインティングデバイス103等
を用いて操作可能であり、ユーザは指定可能範囲内の任
意のIDFしきい値を指定することができる。
【0054】指定可能範囲設定部306は、ユーザが指
定可能範囲の最小値と最大値を直接キーボード102等
から入力する為の部分である。終了ボタン307は、ユ
ーザがテキストマイニング処理装置に処理の終了指示を
出す為のボタンであり、このボタンが押されると、イン
タフェースが終了する。
定可能範囲の最小値と最大値を直接キーボード102等
から入力する為の部分である。終了ボタン307は、ユ
ーザがテキストマイニング処理装置に処理の終了指示を
出す為のボタンであり、このボタンが押されると、イン
タフェースが終了する。
【0055】図4は本実施形態のテキストマイニング結
果の例を示す図である。まず、図2のステップ201か
らステップ207の処理において、図4に示す様なテキ
ストマイニング結果が生成されたとする。
果の例を示す図である。まず、図2のステップ201か
らステップ207の処理において、図4に示す様なテキ
ストマイニング結果が生成されたとする。
【0056】図4では文字列「サルモネラ菌」を含む新
聞記事群に対して、掲載月を分析軸に設定して(従来技
術1の技術を用いて)テキストマイニングを行い、分析
軸のそれぞれの区分について特徴語をTF・IDF値の
高い順に20個抽出した結果である。以後、ある特徴語
がこの上位20個の中に含まれることを、その特徴語が
「ランクイン」したと表現する。
聞記事群に対して、掲載月を分析軸に設定して(従来技
術1の技術を用いて)テキストマイニングを行い、分析
軸のそれぞれの区分について特徴語をTF・IDF値の
高い順に20個抽出した結果である。以後、ある特徴語
がこの上位20個の中に含まれることを、その特徴語が
「ランクイン」したと表現する。
【0057】図5は本実施形態のTF・IDF値を計算
する過程で求められた各特徴語のIDF値の例を示す図
である。図5に示す例では、「病原菌」や「食中毒」等
の各特徴語と、そのIDF値をIDF順位の順に示して
いる。
する過程で求められた各特徴語のIDF値の例を示す図
である。図5に示す例では、「病原菌」や「食中毒」等
の各特徴語と、そのIDF値をIDF順位の順に示して
いる。
【0058】では次に、図2のステップ208からステ
ップ216までの詳細な説明を行う。ステップ208
は、指定可能範囲の最小値と最大値をテキストマイニン
グ処理装置で定められた既定のデフォールト値に設定す
る処理である。本実施形態では、最小値のデフォールト
値を3、最大値を4と予め設定しておくことを想定する
(図3参照)。
ップ216までの詳細な説明を行う。ステップ208
は、指定可能範囲の最小値と最大値をテキストマイニン
グ処理装置で定められた既定のデフォールト値に設定す
る処理である。本実施形態では、最小値のデフォールト
値を3、最大値を4と予め設定しておくことを想定する
(図3参照)。
【0059】ステップ209は、指定可能範囲をインタ
フェース上に表示する処理である。本実施形態では、最
小値が3、最大値が4になる。これを基にして指定可能
範囲を表示する例を、図3の指定可能範囲目盛り304
に示す。この例では、指定可能範囲が4等分されてお
り、最小値と最大値の間の目盛りにそれぞれ3.25、
3.5、3.75という値が割り当てられている。
フェース上に表示する処理である。本実施形態では、最
小値が3、最大値が4になる。これを基にして指定可能
範囲を表示する例を、図3の指定可能範囲目盛り304
に示す。この例では、指定可能範囲が4等分されてお
り、最小値と最大値の間の目盛りにそれぞれ3.25、
3.5、3.75という値が割り当てられている。
【0060】ステップ210は、IDFしきい値の値が
未定の場合、その値を指定可能範囲の最小値と最大値の
中間値に設定する処理である。本実施形態では、最小値
が3、最大値が4になる。このとき、IDFしきい値と
しては中間値3.5が設定される。
未定の場合、その値を指定可能範囲の最小値と最大値の
中間値に設定する処理である。本実施形態では、最小値
が3、最大値が4になる。このとき、IDFしきい値と
しては中間値3.5が設定される。
【0061】ステップ211は、IDFしきい値の値を
テキストマイニング処理装置がユーザインタフェース上
に表示する処理である。図3では、指定可能範囲目盛り
304及びスライドバー305にIDFしきい値が3.
5であることをテキストマイニング処理装置が提示する
例を表している。
テキストマイニング処理装置がユーザインタフェース上
に表示する処理である。図3では、指定可能範囲目盛り
304及びスライドバー305にIDFしきい値が3.
5であることをテキストマイニング処理装置が提示する
例を表している。
【0062】ステップ212は、設定されたIDFしき
い値よりも大きいIDF値を持つ特徴語群を用いて、マ
イニング結果を図3の処理結果表示部301の部分に表
示する処理である。ここでは、まず特徴語群の中からI
DF値がIDFしきい値よりも大きい特徴語を特定す
る。
い値よりも大きいIDF値を持つ特徴語群を用いて、マ
イニング結果を図3の処理結果表示部301の部分に表
示する処理である。ここでは、まず特徴語群の中からI
DF値がIDFしきい値よりも大きい特徴語を特定す
る。
【0063】図6は本実施形態の結果表示に用いる特徴
語のIDFしきい値による制限の例を示す図である。本
実施形態では、その内上位10個の特徴語を表示対象と
することから、図5に示した特徴語群の内、図6に示す
様な範囲の特徴語が表示対象の特徴語として特定され
る。
語のIDFしきい値による制限の例を示す図である。本
実施形態では、その内上位10個の特徴語を表示対象と
することから、図5に示した特徴語群の内、図6に示す
様な範囲の特徴語が表示対象の特徴語として特定され
る。
【0064】次に、それらの特徴語が分析軸のどの区分
でランクインするのかをテキストマイニング処理装置が
調べ、その結果を処理結果表示部301に表示する。
でランクインするのかをテキストマイニング処理装置が
調べ、その結果を処理結果表示部301に表示する。
【0065】図7は本実施形態の特徴語のランクイン分
布の調査の例を示す図である。例えば、マイニング結果
が図4に示した結果である様な場合には、特徴語「A県
B市」は図7に示す様に8月、9月、12月の各区分で
ランクインする。このとき、図3の表示部分302に示
す様な形で結果を表示する。この処理を、表示対象とし
て特定した全ての特徴語について行う。
布の調査の例を示す図である。例えば、マイニング結果
が図4に示した結果である様な場合には、特徴語「A県
B市」は図7に示す様に8月、9月、12月の各区分で
ランクインする。このとき、図3の表示部分302に示
す様な形で結果を表示する。この処理を、表示対象とし
て特定した全ての特徴語について行う。
【0066】ステップ213は、IDFしきい値手動設
定処理部119の処理、すなわち図3のスライドバー3
05を用いたユーザからのIDFしきい値指示入力があ
るか否かを判定する処理である。
定処理部119の処理、すなわち図3のスライドバー3
05を用いたユーザからのIDFしきい値指示入力があ
るか否かを判定する処理である。
【0067】IDFしきい値の指示入力がある場合に
は、ステップ211に戻り、ユーザに指示されたIDF
しきい値を図3の指定可能範囲目盛り304とスライド
バー305によって表示する。逆にユーザからの指示入
力が無い場合には、ステップ214の判定処理に進む。
は、ステップ211に戻り、ユーザに指示されたIDF
しきい値を図3の指定可能範囲目盛り304とスライド
バー305によって表示する。逆にユーザからの指示入
力が無い場合には、ステップ214の判定処理に進む。
【0068】ステップ214の判定処理は、指定可能範
囲手動設定処理部118の処理、すなわち図3の指定可
能範囲設定部306を用いたユーザからの指定可能範囲
指示入力があるか否かを判定する処理である。指定可能
範囲の指示入力がある場合には、ステップ209に戻
り、ユーザに指示された指定可能範囲を図3の指定可能
範囲設定部306によって表示する。逆にユーザからの
指示入力が無い場合には、ステップ215の判定処理に
進む。
囲手動設定処理部118の処理、すなわち図3の指定可
能範囲設定部306を用いたユーザからの指定可能範囲
指示入力があるか否かを判定する処理である。指定可能
範囲の指示入力がある場合には、ステップ209に戻
り、ユーザに指示された指定可能範囲を図3の指定可能
範囲設定部306によって表示する。逆にユーザからの
指示入力が無い場合には、ステップ215の判定処理に
進む。
【0069】ステップ215は、ユーザからの終了指示
入力があるか否かを判定する処理である。終了指示入力
がある場合、つまり図3の終了ボタン307が押された
場合には、テキストマイニング処理はこれで終了する。
逆に、表示されたマイニング結果がユーザの期待するも
のではなく、ユーザからの終了指示入力が無い場合に
は、ステップ213の判定処理に戻る。
入力があるか否かを判定する処理である。終了指示入力
がある場合、つまり図3の終了ボタン307が押された
場合には、テキストマイニング処理はこれで終了する。
逆に、表示されたマイニング結果がユーザの期待するも
のではなく、ユーザからの終了指示入力が無い場合に
は、ステップ213の判定処理に戻る。
【0070】次に、ステップ213からステップ215
までの処理の具体例を、二つの利用例に沿って説明す
る。 ●利用例1:この利用例は、「図3に示す様なマイニン
グ結果を見たユーザは、より各区分の特徴を知りたいと
考えた。そこで、現時点よりも大きなIDFしきい値を
指定した。その結果、ユーザの望む結果が得られた。」
という利用例である。
までの処理の具体例を、二つの利用例に沿って説明す
る。 ●利用例1:この利用例は、「図3に示す様なマイニン
グ結果を見たユーザは、より各区分の特徴を知りたいと
考えた。そこで、現時点よりも大きなIDFしきい値を
指定した。その結果、ユーザの望む結果が得られた。」
という利用例である。
【0071】まず、ユーザが、ステップ213において
図3に示す様な結果を自らの欲する結果とは考えず、
「より各区分の特徴を知りたい」と考えた場合には、現
時点のIDFしきい値よりも大きなしきい値を設定する
ことになり、ユーザによりインタフェースのスライドバ
ー305を用いたしきい値の設定が行われる。
図3に示す様な結果を自らの欲する結果とは考えず、
「より各区分の特徴を知りたい」と考えた場合には、現
時点のIDFしきい値よりも大きなしきい値を設定する
ことになり、ユーザによりインタフェースのスライドバ
ー305を用いたしきい値の設定が行われる。
【0072】図8は本実施形態のユーザがしきい値とし
て4を設定した場合の表示例を示す図である。図8の例
では、ユーザがしきい値としてスライドバー803によ
り指定可能範囲目盛り802の4を設定した場合の処理
結果表示部801の内容を表している。
て4を設定した場合の表示例を示す図である。図8の例
では、ユーザがしきい値としてスライドバー803によ
り指定可能範囲目盛り802の4を設定した場合の処理
結果表示部801の内容を表している。
【0073】本実施形態ではユーザがスライドバー80
3を動かしてしきい値を設定する為、ステップ213に
おける判定処理とステップ211のしきい値表示処理が
同時に行われることになる。
3を動かしてしきい値を設定する為、ステップ213に
おける判定処理とステップ211のしきい値表示処理が
同時に行われることになる。
【0074】次に処理はステップ212に移る。ここで
は、テキストマイニング処理装置が設定されたIDFし
きい値(=4)よりも大きいIDF値を持つ特徴語群を
用いて、マイニング結果を表示する。すなわち、図9に
示す範囲の特徴語群が表示対象になるわけである。
は、テキストマイニング処理装置が設定されたIDFし
きい値(=4)よりも大きいIDF値を持つ特徴語群を
用いて、マイニング結果を表示する。すなわち、図9に
示す範囲の特徴語群が表示対象になるわけである。
【0075】図9は本実施形態のIDFしきい値が4の
場合に表示対象となる特徴語の範囲を示す図である。図
9の例では、IDF値が4よりも大きい特徴語の内、上
位10個の特徴語が表示対象の特徴語として特定されて
いる。
場合に表示対象となる特徴語の範囲を示す図である。図
9の例では、IDF値が4よりも大きい特徴語の内、上
位10個の特徴語が表示対象の特徴語として特定されて
いる。
【0076】ステップ212の結果の表示例を図8の処
理結果表示部801に示す。ユーザがこの処理結果を見
て、どの特徴語も単一の区分にランクインしている為
に、この結果を「各区分の特徴を良く表現していて、自
分の欲する結果である」と判断した場合には、ステップ
213及びステップ214において指示入力を行わず、
ステップ215において終了指示入力を行う。これによ
り、本テキストマイニング処理は終了する。
理結果表示部801に示す。ユーザがこの処理結果を見
て、どの特徴語も単一の区分にランクインしている為
に、この結果を「各区分の特徴を良く表現していて、自
分の欲する結果である」と判断した場合には、ステップ
213及びステップ214において指示入力を行わず、
ステップ215において終了指示入力を行う。これによ
り、本テキストマイニング処理は終了する。
【0077】●利用例2:この利用例は、「図3に示す
様なマイニング結果を見たユーザは、より全体的な傾向
を知りたいと考えた。そこで、現時点の指定可能範囲の
中で最も小さなIDFしきい値(=3)を指定した。し
かし、その結果は全体的な傾向を充分に表現していると
は言えず、より小さなIDFしきい値を指定したいと考
えた。そこで、IDFしきい値の指定可能範囲の最小値
を2に変更し、IDFしきい値として2を指定したとこ
ろ、ユーザの望む結果が得られた。」という利用例であ
る。
様なマイニング結果を見たユーザは、より全体的な傾向
を知りたいと考えた。そこで、現時点の指定可能範囲の
中で最も小さなIDFしきい値(=3)を指定した。し
かし、その結果は全体的な傾向を充分に表現していると
は言えず、より小さなIDFしきい値を指定したいと考
えた。そこで、IDFしきい値の指定可能範囲の最小値
を2に変更し、IDFしきい値として2を指定したとこ
ろ、ユーザの望む結果が得られた。」という利用例であ
る。
【0078】まず、ユーザが図3に示す様な結果を自ら
の欲する結果とは考えず、「より全体的な傾向を知りた
い」と考えた場合には、ステップ213において、現時
点の指定可能範囲の最小値である3がIDFしきい値と
して指定される。
の欲する結果とは考えず、「より全体的な傾向を知りた
い」と考えた場合には、ステップ213において、現時
点の指定可能範囲の最小値である3がIDFしきい値と
して指定される。
【0079】図10は本実施形態のユーザがしきい値と
して3を指定した場合の表示例を示す図である。図10
の例では、ユーザがしきい値としてスライドバー100
3により指定可能範囲目盛り1002の3を設定した場
合の処理結果表示部1001の内容を表している。
して3を指定した場合の表示例を示す図である。図10
の例では、ユーザがしきい値としてスライドバー100
3により指定可能範囲目盛り1002の3を設定した場
合の処理結果表示部1001の内容を表している。
【0080】本実施形態ではユーザがスライドバー10
03を動かしてしきい値を設定する為、ステップ213
の処理とステップ211のしきい値表示処理が同時に行
われることになる。次に処理はステップ212に移る。
ここでは、テキストマイニング処理装置が設定されたI
DFしきい値(=3)よりも大きいIDF値を持つ特徴
語群を用いて、マイニング結果を表示する。すなわち、
図11に示す範囲の特徴語群が表示対象になるわけであ
る。
03を動かしてしきい値を設定する為、ステップ213
の処理とステップ211のしきい値表示処理が同時に行
われることになる。次に処理はステップ212に移る。
ここでは、テキストマイニング処理装置が設定されたI
DFしきい値(=3)よりも大きいIDF値を持つ特徴
語群を用いて、マイニング結果を表示する。すなわち、
図11に示す範囲の特徴語群が表示対象になるわけであ
る。
【0081】図11は本実施形態のIDFしきい値が3
の場合に表示対象となる特徴語の範囲を示す図である。
図11の例では、IDF値が3よりも大きい特徴語の
内、上位10個の特徴語が表示対象の特徴語として特定
されている。
の場合に表示対象となる特徴語の範囲を示す図である。
図11の例では、IDF値が3よりも大きい特徴語の
内、上位10個の特徴語が表示対象の特徴語として特定
されている。
【0082】ステップ212の結果の表示例を図10の
処理結果表示部1001に示す。本利用例で、ユーザが
この処理結果を見て、ランクインしていない区分が多く
の特徴語において存在している為に、「充分に全体的な
傾向を表しているとは言えず、自分の欲する結果ではな
い」と判断した場合、現時点ではIDFしきい値は指定
可能範囲の最小値を指定している為、ステップ213で
のIDFしきい値の指示入力は行われず、ステップ21
4に移る。
処理結果表示部1001に示す。本利用例で、ユーザが
この処理結果を見て、ランクインしていない区分が多く
の特徴語において存在している為に、「充分に全体的な
傾向を表しているとは言えず、自分の欲する結果ではな
い」と判断した場合、現時点ではIDFしきい値は指定
可能範囲の最小値を指定している為、ステップ213で
のIDFしきい値の指示入力は行われず、ステップ21
4に移る。
【0083】ステップ214は、ユーザが指定可能範囲
の最小値と最大値のいずれか又は両方の値の変更を指示
したかどうかを判定する処理である。本利用例では、ユ
ーザが指定可能範囲の最小値として2を指定したものと
する。
の最小値と最大値のいずれか又は両方の値の変更を指示
したかどうかを判定する処理である。本利用例では、ユ
ーザが指定可能範囲の最小値として2を指定したものと
する。
【0084】図12は本実施形態のユーザが指定可能範
囲設定部で指定可能範囲の最小値を2に設定する場合の
表示例を示す図である。図12の例では、ユーザが指定
可能範囲設定部1204に最小値2を設定した場合の処
理結果表示部1201、指定可能範囲目盛り1202及
びスライドバー1203の表示例を表している。
囲設定部で指定可能範囲の最小値を2に設定する場合の
表示例を示す図である。図12の例では、ユーザが指定
可能範囲設定部1204に最小値2を設定した場合の処
理結果表示部1201、指定可能範囲目盛り1202及
びスライドバー1203の表示例を表している。
【0085】新たな指定可能範囲が指定されると、テキ
ストマイニング処理装置はステップ209において、新
たな指定可能範囲をインタフェース上に表示する。指定
可能範囲が図10の指定可能範囲目盛り1002から更
新された例を図12の指定可能範囲目盛り1202に示
す。この例では、指定可能範囲が4等分されており、最
小値と最大値の間の目盛りにそれぞれ2.5、3、3.
5という値が割り当てられている。
ストマイニング処理装置はステップ209において、新
たな指定可能範囲をインタフェース上に表示する。指定
可能範囲が図10の指定可能範囲目盛り1002から更
新された例を図12の指定可能範囲目盛り1202に示
す。この例では、指定可能範囲が4等分されており、最
小値と最大値の間の目盛りにそれぞれ2.5、3、3.
5という値が割り当てられている。
【0086】次に処理はステップ210に移るが、既に
IDFしきい値は3に設定されている為、ここでは何も
起こらない。ステップ211では、テキストマイニング
処理装置がインタフェース上でIDFのしきい値が3で
あることを表示する。この表示例を図12の指定可能範
囲目盛り1202及びスライドバー1203に示す。
IDFしきい値は3に設定されている為、ここでは何も
起こらない。ステップ211では、テキストマイニング
処理装置がインタフェース上でIDFのしきい値が3で
あることを表示する。この表示例を図12の指定可能範
囲目盛り1202及びスライドバー1203に示す。
【0087】そして、ステップ212の処理に移るが、
ここではIDFしきい値が図10の時点と変わらず3の
ままである為、図12の処理結果表示部1201に表示
されるマイニング結果は、図10の処理結果表示部10
01で表示されたマイニング結果と変わらない。ステッ
プ213では、ユーザがインタフェース上で新たなID
Fしきい値の値を設定することになる為、ユーザからの
IDFしきい値指示入力がある。この利用例では、ユー
ザは「より全体的な傾向を知りたい」と考えているの
で、例えば現時点の指定可能範囲の最小値である2がI
DFしきい値として指示される。
ここではIDFしきい値が図10の時点と変わらず3の
ままである為、図12の処理結果表示部1201に表示
されるマイニング結果は、図10の処理結果表示部10
01で表示されたマイニング結果と変わらない。ステッ
プ213では、ユーザがインタフェース上で新たなID
Fしきい値の値を設定することになる為、ユーザからの
IDFしきい値指示入力がある。この利用例では、ユー
ザは「より全体的な傾向を知りたい」と考えているの
で、例えば現時点の指定可能範囲の最小値である2がI
DFしきい値として指示される。
【0088】図13は本実施形態のユーザがIDFしき
い値として2を設定した場合の表示例を示す図である。
図13の例では、ユーザがしきい値としてスライドバー
1303により指定可能範囲目盛り1302の2を設定
した場合の処理結果表示部1301の内容を表してい
る。
い値として2を設定した場合の表示例を示す図である。
図13の例では、ユーザがしきい値としてスライドバー
1303により指定可能範囲目盛り1302の2を設定
した場合の処理結果表示部1301の内容を表してい
る。
【0089】本実施形態ではユーザがスライドバー13
03を動かしてしきい値を設定する為、ステップ213
の処理とステップ211のしきい値表示処理が同時に行
われることになる。次に処理はステップ212に移る。
ここでは、テキストマイニング処理装置が設定されたI
DFしきい値(=2)よりも大きいIDF値を持つ特徴
語群を用いて、マイニング結果を表示する。すなわち、
図14に示す範囲の特徴語群が表示対象になるわけであ
る。
03を動かしてしきい値を設定する為、ステップ213
の処理とステップ211のしきい値表示処理が同時に行
われることになる。次に処理はステップ212に移る。
ここでは、テキストマイニング処理装置が設定されたI
DFしきい値(=2)よりも大きいIDF値を持つ特徴
語群を用いて、マイニング結果を表示する。すなわち、
図14に示す範囲の特徴語群が表示対象になるわけであ
る。
【0090】図14は本実施形態のIDFしきい値が2
の場合に表示対象となる特徴語の範囲を示す図である。
図14の例では、IDF値が2よりも大きい特徴語の
内、上位10個の特徴語が表示対象の特徴語として特定
されており、図13の処理結果表示部1301は、この
ときのステップ212の結果表示例を表している。
の場合に表示対象となる特徴語の範囲を示す図である。
図14の例では、IDF値が2よりも大きい特徴語の
内、上位10個の特徴語が表示対象の特徴語として特定
されており、図13の処理結果表示部1301は、この
ときのステップ212の結果表示例を表している。
【0091】本利用例で、ユーザがこの処理結果を見
て、殆どの特徴語が全ての区分でランクインしている為
に、この結果を「全体的な傾向を良く表現していて、自
分の欲する結果である」と判断した場合には、ステップ
213及びステップ214における指示入力は無く、ス
テップ215においてテキストマイニング処理装置に対
して終了指示入力が行われる。これにより、本テキスト
マイニング処理は終了する。
て、殆どの特徴語が全ての区分でランクインしている為
に、この結果を「全体的な傾向を良く表現していて、自
分の欲する結果である」と判断した場合には、ステップ
213及びステップ214における指示入力は無く、ス
テップ215においてテキストマイニング処理装置に対
して終了指示入力が行われる。これにより、本テキスト
マイニング処理は終了する。
【0092】以上、本実施形態では、指定可能範囲の最
小値と最大値の設定が不適切な例として、最小値と最大
値との間にユーザが望む様な出現偏りしきい値が存在し
ない場合を示した。しかし、他の例として、最小値と最
大値の間が大きく離れ過ぎていて、スライドバーを少し
動かしただけで、出現偏りしきい値がユーザの期待以上
に変化してしまい、その結果として表示されるテキスト
マイニングの処理結果もユーザの期待以上に変化してし
まう場合も考えられる。これも、指定可能範囲の最小値
と最大値の設定が不適切な例である。この様な場合に
も、最小値と最大値のいずれか又は両方を変更すること
により、スライドバーの移動によって出現偏りしきい値
が変動するピッチを適切な量に設定することができる。
小値と最大値の設定が不適切な例として、最小値と最大
値との間にユーザが望む様な出現偏りしきい値が存在し
ない場合を示した。しかし、他の例として、最小値と最
大値の間が大きく離れ過ぎていて、スライドバーを少し
動かしただけで、出現偏りしきい値がユーザの期待以上
に変化してしまい、その結果として表示されるテキスト
マイニングの処理結果もユーザの期待以上に変化してし
まう場合も考えられる。これも、指定可能範囲の最小値
と最大値の設定が不適切な例である。この様な場合に
も、最小値と最大値のいずれか又は両方を変更すること
により、スライドバーの移動によって出現偏りしきい値
が変動するピッチを適切な量に設定することができる。
【0093】また、本実施形態のインタフェースでは、
図3の表示部分302に示す様に、ある特徴語がある区
分でランクインしているか否かという二値情報のみに着
目して、ランクインしていれば該当箇所に網掛けの長方
形を表示し、ランクインしていなければ何も表示しな
い、という方法を採用した。しかし、例えば該当箇所に
表示する長方形の網掛けの濃度を変えることにより、ど
の順位にランクインしているかを示す多値情報を表現す
る方法を採用することができる。
図3の表示部分302に示す様に、ある特徴語がある区
分でランクインしているか否かという二値情報のみに着
目して、ランクインしていれば該当箇所に網掛けの長方
形を表示し、ランクインしていなければ何も表示しな
い、という方法を採用した。しかし、例えば該当箇所に
表示する長方形の網掛けの濃度を変えることにより、ど
の順位にランクインしているかを示す多値情報を表現す
る方法を採用することができる。
【0094】図15は本実施形態の特徴語の出現頻度に
応じて網掛けの濃度を変えるインタフェースの例を示す
図である。図15の処理結果表示部1501に示す様
に、出現頻度の大きい特徴語については濃い網掛けの長
方形で表示し、出現頻度の小さい特徴語については薄い
網掛けの長方形で表示を行う。
応じて網掛けの濃度を変えるインタフェースの例を示す
図である。図15の処理結果表示部1501に示す様
に、出現頻度の大きい特徴語については濃い網掛けの長
方形で表示し、出現頻度の小さい特徴語については薄い
網掛けの長方形で表示を行う。
【0095】前記の様に本実施形態では、予め登録され
た文書の集合を対象として、その全体または一部分を取
り出した処理対象文書集合に特徴的に出現する語句を抽
出し、処理対象文書の細分化を行う基準となる区分によ
って構成される分析軸を設定し、前記抽出した語句の中
から、分析軸を構成する各区分と関連する度合が高い関
連語句を取得するテキストマイニング処理において、出
現偏りしきい値を指定可能な指定可能範囲を提示してユ
ーザから指定可能範囲内の出現偏りしきい値の指定を受
付けた後、その出現偏りしきい値よりも大きい出現偏り
値を持つ特徴語のみを対象としたマイニング結果の表示
を行うので、ユーザは、テキストマイニングの結果を見
ながら、自分の望む結果が得られる様に出現偏りしきい
値を操作することができる。
た文書の集合を対象として、その全体または一部分を取
り出した処理対象文書集合に特徴的に出現する語句を抽
出し、処理対象文書の細分化を行う基準となる区分によ
って構成される分析軸を設定し、前記抽出した語句の中
から、分析軸を構成する各区分と関連する度合が高い関
連語句を取得するテキストマイニング処理において、出
現偏りしきい値を指定可能な指定可能範囲を提示してユ
ーザから指定可能範囲内の出現偏りしきい値の指定を受
付けた後、その出現偏りしきい値よりも大きい出現偏り
値を持つ特徴語のみを対象としたマイニング結果の表示
を行うので、ユーザは、テキストマイニングの結果を見
ながら、自分の望む結果が得られる様に出現偏りしきい
値を操作することができる。
【0096】例えば、より全体の傾向を知りたい場合、
すなわち分析軸の解像度を低くしたい場合には、より小
さな出現偏りしきい値を指定することにより所望のマイ
ニング結果が得られる。また、より各区分の特徴を知り
たい場合、すなわち分析軸の解像度を高くしたい場合に
は、より大きな出現偏りしきい値を指定することによ
り、所望のマイニング結果を得ることができる。更に、
複数の区分から構成される一期間の特徴が知りたい場
合、すなわち分析軸の解像度を中程度にしたい場合に
は、所定の大きさの出現偏りしきい値を指定することに
より、所望のマイニング結果を得ることができる。ま
た、指定したい出現偏りしきい値の値が、出現偏りしき
い値指定可能範囲の中に無い場合、或いは出現偏りしき
い値の表示ピッチに問題がある場合には、出現偏りしき
い値の指定可能範囲を変更することができる。
すなわち分析軸の解像度を低くしたい場合には、より小
さな出現偏りしきい値を指定することにより所望のマイ
ニング結果が得られる。また、より各区分の特徴を知り
たい場合、すなわち分析軸の解像度を高くしたい場合に
は、より大きな出現偏りしきい値を指定することによ
り、所望のマイニング結果を得ることができる。更に、
複数の区分から構成される一期間の特徴が知りたい場
合、すなわち分析軸の解像度を中程度にしたい場合に
は、所定の大きさの出現偏りしきい値を指定することに
より、所望のマイニング結果を得ることができる。ま
た、指定したい出現偏りしきい値の値が、出現偏りしき
い値指定可能範囲の中に無い場合、或いは出現偏りしき
い値の表示ピッチに問題がある場合には、出現偏りしき
い値の指定可能範囲を変更することができる。
【0097】前記の様に本実施形態によれば、適切な出
現偏りしきい値を対話的に設定することができるので、
「全体の傾向が知りたい」「各区分の特徴が知りたい」
「複数の区分から構成される一期間の特徴が知りたい」
といったユーザのニーズに容易に応えることができる。
これによりユーザは、望む解像度のテキストマイニング
結果を、従来の手法よりも簡単に、かつ分かり易い形で
閲覧することができる。
現偏りしきい値を対話的に設定することができるので、
「全体の傾向が知りたい」「各区分の特徴が知りたい」
「複数の区分から構成される一期間の特徴が知りたい」
といったユーザのニーズに容易に応えることができる。
これによりユーザは、望む解像度のテキストマイニング
結果を、従来の手法よりも簡単に、かつ分かり易い形で
閲覧することができる。
【0098】以上説明した様に本実施形態のテキストマ
イニング処理装置によれば、処理対象文書集合に特徴的
に出現し、分析軸を構成する各区分と関連する度合が高
く、その出現偏り値がユーザから受付けたしきい値より
も大きい特徴語を抽出するので、ユーザの望む解像度の
テキストマイニング結果を得る為のテキストマイニング
処理を効率的に支援することが可能である。
イニング処理装置によれば、処理対象文書集合に特徴的
に出現し、分析軸を構成する各区分と関連する度合が高
く、その出現偏り値がユーザから受付けたしきい値より
も大きい特徴語を抽出するので、ユーザの望む解像度の
テキストマイニング結果を得る為のテキストマイニング
処理を効率的に支援することが可能である。
【0099】
【発明の効果】本発明によれば処理対象文書集合に特徴
的に出現し、分析軸を構成する各区分と関連する度合が
高く、その出現偏り値がユーザから受付けたしきい値よ
りも大きい特徴語を抽出するので、ユーザの望む解像度
のテキストマイニング結果を得る為のテキストマイニン
グ処理を効率的に支援することが可能である。
的に出現し、分析軸を構成する各区分と関連する度合が
高く、その出現偏り値がユーザから受付けたしきい値よ
りも大きい特徴語を抽出するので、ユーザの望む解像度
のテキストマイニング結果を得る為のテキストマイニン
グ処理を効率的に支援することが可能である。
【図1】本実施形態のテキストマイニング処理装置の概
略構成を示す図である。
略構成を示す図である。
【図2】本実施形態のテキストマイニング処理装置の処
理手順を示すフローチャートである。
理手順を示すフローチャートである。
【図3】本実施形態のテキストマイニング処理装置のユ
ーザインタフェース例を示す図である。
ーザインタフェース例を示す図である。
【図4】本実施形態のテキストマイニング結果の例を示
す図である。
す図である。
【図5】本実施形態のTF・IDF値を計算する過程で
求められた各特徴語のIDF値の例を示す図である。
求められた各特徴語のIDF値の例を示す図である。
【図6】本実施形態の結果表示に用いる特徴語のIDF
しきい値による制限の例を示す図である。
しきい値による制限の例を示す図である。
【図7】本実施形態の特徴語のランクイン分布の調査の
例を示す図である。
例を示す図である。
【図8】本実施形態のユーザがしきい値として4を設定
した場合の表示例を示す図である。
した場合の表示例を示す図である。
【図9】本実施形態のIDFしきい値が4の場合に表示
対象となる特徴語の範囲を示す図である。
対象となる特徴語の範囲を示す図である。
【図10】本実施形態のユーザがしきい値として3を指
定した場合の表示例を示す図である。
定した場合の表示例を示す図である。
【図11】本実施形態のIDFしきい値が3の場合に表
示対象となる特徴語の範囲を示す図である。
示対象となる特徴語の範囲を示す図である。
【図12】本実施形態のユーザが指定可能範囲設定部で
指定可能範囲の最小値を2に設定する場合の表示例を示
す図である。
指定可能範囲の最小値を2に設定する場合の表示例を示
す図である。
【図13】本実施形態のユーザがIDFしきい値として
2を設定した場合の表示例を示す図である。
2を設定した場合の表示例を示す図である。
【図14】本実施形態のIDFしきい値が2の場合に表
示対象となる特徴語の範囲を示す図である。
示対象となる特徴語の範囲を示す図である。
【図15】本実施形態の特徴語の出現頻度に応じて網掛
けの濃度を変えるインタフェースの例を示す図である。
けの濃度を変えるインタフェースの例を示す図である。
101…ディスプレイ、102…キーボード、103…
ポインティングデバイス、104…バス、105…中央
演算処理装置、106…フレキシブルディスクドライ
ブ、107…フレキシブルディスク、108…磁気ディ
スク装置、109…テキストファイル、110…主記憶
装置、121…ワークエリア、111…システム制御処
理部、112…特徴語抽出処理部、113…分析軸設定
処理部、114…共起語句取得処理部、115…特徴語
ランク付け処理部、116…指定可能範囲自動設定処理
部、117…IDFしきい値自動設定処理部、118…
指定可能範囲手動設定処理部、119…IDFしきい値
手動設定処理部、120…マイニング結果表示処理部、
301…処理結果表示部、302…表示部分、303…
スクロールバー、304…指定可能範囲目盛り、305
…スライドバー、306…指定可能範囲設定部、307
…終了ボタン、801…処理結果表示部、802…指定
可能範囲目盛り、803…スライドバー、1001…処
理結果表示部、1002…指定可能範囲目盛り、100
3…スライドバー、1201…処理結果表示部、120
2…指定可能範囲目盛り、1203…スライドバー、1
204…指定可能範囲設定部、1301…処理結果表示
部、1302…指定可能範囲目盛り、1303…スライ
ドバー、1501…処理結果表示部。
ポインティングデバイス、104…バス、105…中央
演算処理装置、106…フレキシブルディスクドライ
ブ、107…フレキシブルディスク、108…磁気ディ
スク装置、109…テキストファイル、110…主記憶
装置、121…ワークエリア、111…システム制御処
理部、112…特徴語抽出処理部、113…分析軸設定
処理部、114…共起語句取得処理部、115…特徴語
ランク付け処理部、116…指定可能範囲自動設定処理
部、117…IDFしきい値自動設定処理部、118…
指定可能範囲手動設定処理部、119…IDFしきい値
手動設定処理部、120…マイニング結果表示処理部、
301…処理結果表示部、302…表示部分、303…
スクロールバー、304…指定可能範囲目盛り、305
…スライドバー、306…指定可能範囲設定部、307
…終了ボタン、801…処理結果表示部、802…指定
可能範囲目盛り、803…スライドバー、1001…処
理結果表示部、1002…指定可能範囲目盛り、100
3…スライドバー、1201…処理結果表示部、120
2…指定可能範囲目盛り、1203…スライドバー、1
204…指定可能範囲設定部、1301…処理結果表示
部、1302…指定可能範囲目盛り、1303…スライ
ドバー、1501…処理結果表示部。
フロントページの続き
(72)発明者 多田 勝己
神奈川県川崎市幸区鹿島田890番地 株式
会社日立製作所ビジネスソリューション事
業部内
(72)発明者 松林 忠孝
神奈川県川崎市幸区鹿島田890番地 株式
会社日立製作所ビジネスソリューション事
業部内
(72)発明者 稲場 靖彦
神奈川県川崎市幸区鹿島田890番地 株式
会社日立製作所ビジネスソリューション事
業部内
(72)発明者 徳永 幹彦
神奈川県横浜市戸塚区戸塚町5030番地 株
式会社日立製作所ソフトウェア事業部内
Fターム(参考) 5B075 ND02 NS10
Claims (8)
- 【請求項1】 予め登録された文書の集合を対象として
その文書集合に関する各種情報を取得するテキストマイ
ニング処理方法において、 予め登録された文書の集合を対象として、その全体また
は一部分を取り出した処理対象文書集合に特徴的に出現
する語句を抽出するステップと、処理対象文書の細分化
を行う基準となる区分によって構成される分析軸を設定
するステップと、前記設定された分析軸を構成する各区
分と関連する度合が高い関連語句を前記抽出した語句の
中から取得するステップと、 前記取得した関連語句の文書集合における出現偏りしき
い値をユーザから受付けて設定するステップと、前記設
定された出現偏りしきい値よりも大きい出現偏り値を持
つ関連語句のみを前記取得した関連語句から抽出してテ
キストマイニング結果とするステップとを有することを
特徴とするテキストマイニング処理方法。 - 【請求項2】 前記出現偏りしきい値の指定可能範囲を
ユーザから受付けて出現偏りしきい値指定可能範囲とし
て設定するステップを有することを特徴とする請求項1
に記載されたテキストマイニング処理方法。 - 【請求項3】 前記出現偏りしきい値の指定可能範囲を
示す出現偏りしきい値指定可能範囲を予め定められた値
に設定するステップと、前記出現偏りしきい値を出現偏
りしきい値指定可能範囲の中間値に設定するステップと
を有することを特徴とする請求項1または請求項2のい
ずれかに記載されたテキストマイニング処理方法。 - 【請求項4】 前記設定された分析軸を構成する区分の
内で、前記テキストマイニング結果として抽出された関
連語句が上位の所定ランク以内にランクインしている区
分を示す図形をその関連語句毎に処理結果表示部に表示
することを特徴とする請求項1乃至請求項3のいずれか
1項に記載されたテキストマイニング処理方法。 - 【請求項5】 前記出現偏りしきい値の指定可能範囲を
示す指定可能範囲目盛りと、前記ユーザから受付けて設
定された出現偏りしきい値の指定可能範囲目盛り中の位
置を示すスライドバーとを、前記テキストマイニング結
果を図示する為の処理結果表示部と共に表示することを
特徴とする請求項4に記載されたテキストマイニング処
理方法。 - 【請求項6】 前記図形は、その関連語句が当該区分の
どの順位にランクインしているかを示す多値情報を表現
するものであることを特徴とする請求項4または請求項
5のいずれかに記載されたテキストマイニング処理方
法。 - 【請求項7】 予め登録された文書の集合を対象として
その文書集合に関する各種情報を取得するテキストマイ
ニング処理装置において、 予め登録された文書の集合を対象として、その全体また
は一部分を取り出した処理対象文書集合に特徴的に出現
する語句を抽出する特徴語抽出処理部と、処理対象文書
の細分化を行う基準となる区分によって構成される分析
軸を設定する分析軸設定処理部と、前記設定された分析
軸を構成する各区分と関連する度合が高い関連語句を前
記抽出した語句の中から取得する関連語句取得処理部
と、 前記取得した関連語句の文書集合における出現偏りしき
い値をユーザから受付けて設定する出現偏りしきい値手
動設定処理部と、前記設定された出現偏りしきい値より
も大きい出現偏り値を持つ関連語句のみを前記取得した
関連語句から抽出してテキストマイニング結果とするマ
イニング結果表示処理部とを備えることを特徴とするテ
キストマイニング処理装置。 - 【請求項8】 前記出現偏りしきい値の指定可能範囲を
ユーザから受付けて出現偏りしきい値指定可能範囲とし
て設定する指定可能範囲手動設定処理部を備えることを
特徴とする請求項7に記載されたテキストマイニング処
理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001341474A JP2003141134A (ja) | 2001-11-07 | 2001-11-07 | テキストマイニング処理方法及びその実施装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001341474A JP2003141134A (ja) | 2001-11-07 | 2001-11-07 | テキストマイニング処理方法及びその実施装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003141134A true JP2003141134A (ja) | 2003-05-16 |
Family
ID=19155493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001341474A Pending JP2003141134A (ja) | 2001-11-07 | 2001-11-07 | テキストマイニング処理方法及びその実施装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003141134A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008062910A1 (fr) * | 2006-11-22 | 2008-05-29 | Haruo Hayashi | Dispositif et procédé d'analyse de documents |
WO2008062822A1 (fr) * | 2006-11-22 | 2008-05-29 | Nec Corporation | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte |
JP2010286997A (ja) * | 2009-06-10 | 2010-12-24 | Yahoo Japan Corp | 記事の価値を評価する装置、方法、およびプログラム |
JP2011076524A (ja) * | 2009-10-01 | 2011-04-14 | Science Craft:Kk | 文書解析装置および方法 |
JP2011096078A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
JP2011096073A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
US8229956B2 (en) | 2005-12-09 | 2012-07-24 | Nec Corporation | Text mining device, text mining method, and text mining program |
US8595247B2 (en) | 2006-05-26 | 2013-11-26 | Nec Corporation | Text mining device, text mining method, and text mining program |
JP2014130539A (ja) * | 2012-12-28 | 2014-07-10 | Fujitsu Ltd | 情報処理装置、ノード抽出プログラムおよびノード抽出方法 |
JP2016510453A (ja) * | 2013-01-11 | 2016-04-07 | ノキア テクノロジーズ オサケユイチア | 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置 |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
CN113928751A (zh) * | 2021-10-22 | 2022-01-14 | 安徽联投环境科技有限公司 | 智能垃圾分类箱体容量检测方法及应用该方法的垃圾分类箱 |
-
2001
- 2001-11-07 JP JP2001341474A patent/JP2003141134A/ja active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229956B2 (en) | 2005-12-09 | 2012-07-24 | Nec Corporation | Text mining device, text mining method, and text mining program |
US8595247B2 (en) | 2006-05-26 | 2013-11-26 | Nec Corporation | Text mining device, text mining method, and text mining program |
WO2008062822A1 (fr) * | 2006-11-22 | 2008-05-29 | Nec Corporation | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte |
JPWO2008062910A1 (ja) * | 2006-11-22 | 2010-03-04 | 春男 林 | 文書解析装置および方法 |
WO2008062910A1 (fr) * | 2006-11-22 | 2008-05-29 | Haruo Hayashi | Dispositif et procédé d'analyse de documents |
JP2010286997A (ja) * | 2009-06-10 | 2010-12-24 | Yahoo Japan Corp | 記事の価値を評価する装置、方法、およびプログラム |
JP2011076524A (ja) * | 2009-10-01 | 2011-04-14 | Science Craft:Kk | 文書解析装置および方法 |
JP2011096073A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及びコンテンツ生成装置 |
JP2011096078A (ja) * | 2009-10-30 | 2011-05-12 | Rakuten Inc | 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置 |
US10614134B2 (en) | 2009-10-30 | 2020-04-07 | Rakuten, Inc. | Characteristic content determination device, characteristic content determination method, and recording medium |
JP2014130539A (ja) * | 2012-12-28 | 2014-07-10 | Fujitsu Ltd | 情報処理装置、ノード抽出プログラムおよびノード抽出方法 |
JP2016510453A (ja) * | 2013-01-11 | 2016-04-07 | ノキア テクノロジーズ オサケユイチア | 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置 |
CN113928751A (zh) * | 2021-10-22 | 2022-01-14 | 安徽联投环境科技有限公司 | 智能垃圾分类箱体容量检测方法及应用该方法的垃圾分类箱 |
CN113928751B (zh) * | 2021-10-22 | 2023-02-03 | 浙江联运知慧科技有限公司 | 智能垃圾分类箱体容量检测方法及应用该方法的垃圾分类箱 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7302646B2 (en) | Information rearrangement method, information processing apparatus and information processing system, and storage medium and program transmission apparatus therefor | |
US7331517B2 (en) | Article reader program, article management method and article reader | |
US7007069B2 (en) | Method and apparatus for clustering hierarchically related information | |
Yatani et al. | Review spotlight: a user interface for summarizing user-generated reviews using adjective-noun word pairs | |
US7031970B2 (en) | Method and apparatus for generating summary information for hierarchically related information | |
US7783644B1 (en) | Query-independent entity importance in books | |
US7340674B2 (en) | Method and apparatus for normalizing quoting styles in electronic mail messages | |
US9092428B1 (en) | System, methods and user interface for discovering and presenting information in text content | |
US20040113953A1 (en) | Method and apparatus for displaying hierarchical information | |
US20040117449A1 (en) | Method and apparatus for generating overview information for hierarchically related information | |
JP2004157981A (ja) | 要約表現装置 | |
US20090063132A1 (en) | Information Processing Apparatus, Information Processing Method, and Program | |
JPH09311870A (ja) | ハイパーテキスト検索装置 | |
JP2003141134A (ja) | テキストマイニング処理方法及びその実施装置 | |
US20020116398A1 (en) | Data display method and apparatus for use in text mining | |
JP2009009461A (ja) | キーワードの入力支援システム、コンテンツ検索システム、コンテンツ登録システム、コンテンツ検索・登録システム、およびこれらの方法、並びにプログラム | |
JP2008117134A (ja) | 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体 | |
JP2000099526A (ja) | 文書情報抽出装置 | |
JP4719921B2 (ja) | データ表示装置およびデータ表示プログラム | |
JPH10162011A (ja) | 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置 | |
Culy et al. | Corpus clouds-facilitating text analysis by means of visualizations | |
Bodner et al. | The impact of text browsing on text retrieval performance | |
US20020078022A1 (en) | Enhanced method and system for viewing any search result without returning to the result list | |
JP2000259671A (ja) | 情報生成システム、情報検索システム、及び記録媒体 | |
KR20240021387A (ko) | 구인구직 매칭 방법 및 시스템 |