JP2019200784A - 分析方法、分析装置及び分析プログラム - Google Patents
分析方法、分析装置及び分析プログラム Download PDFInfo
- Publication number
- JP2019200784A JP2019200784A JP2019084331A JP2019084331A JP2019200784A JP 2019200784 A JP2019200784 A JP 2019200784A JP 2019084331 A JP2019084331 A JP 2019084331A JP 2019084331 A JP2019084331 A JP 2019084331A JP 2019200784 A JP2019200784 A JP 2019200784A
- Authority
- JP
- Japan
- Prior art keywords
- occurrence matrix
- text data
- word group
- metadata
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 77
- 239000011159 matrix material Substances 0.000 claims abstract description 267
- 238000000034 method Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 21
- 238000012937 correction Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 241000406668 Loxodonta cyclotis Species 0.000 claims 1
- 230000014509 gene expression Effects 0.000 description 17
- 230000007423 decrease Effects 0.000 description 7
- 230000000052 comparative effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004931 aggregating effect Effects 0.000 description 3
- 239000000428 dust Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
ることを目的とする。
図1は、本実施形態に係る分析方法を実行する分析プログラムを実行する分析装置の機能ブロック図である。分析プログラム10は、分析装置1にインストールされて実行されるものである。分析装置1は、特に図示しないが、CPU、RAM、ハードディスク、入出力装置、通信手段等を備えた一般的なコンピュータである。
載された書誌事項を用いる。表1にテキストデータ及びメタデータの一例を示す。
を設定している。
いては、上述したので説明は省略する。
上述した実施形態と同じテキストデータを用いて、第1の共起行列及び第2の共起行列を作成せずに、トピックの抽出及びスコアの集計を行った比較例を示す。具体的には、テキストデータから文章を抽出し、各文章から、第1語群及び第2語群を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する。つまり、共起行列の作成方法自体は、第1の共起行列及び第2の共起行列と同様であり、テキストデータのメタデータが事象に該当するか否かの判定を行わずに、全てのテキストデータを入力データとした点が異なる。
実施形態1では、テキストデータからそこに含まれる文章を抽出し、各文章から共起行列を作成した。しかしながら、本発明はこれに限定されず、テキストデータから共起行列を作成してもよい。以下、本実施形態の分析方法、分析装置、分析プログラムについて説明するが、実施形態1と重複する説明は省略する。
実施形態1ではテキストデータから抽出された文章を対象として共起行列を作成し、実施形態2ではテキストデータを対象として共起行列を作成したが、本発明はこれらに限定されない。
10 分析プログラム
11 共起行列作成手段
12 トピック抽出手段
13 スコア計算手段
14 集計手段
Claims (10)
- テキストデータ及び前記テキストデータに関するメタデータの分析方法であって、
前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成ステップと、
前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出ステップと、
前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算ステップと、を備え、
前記共起行列作成ステップは、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、
前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析方法。 - 請求項1に記載の分析方法であって、
前記テキストデータは、カテゴリに分類されたテキスト部を含み、
前記共起行列作成ステップは、第1のカテゴリに分類された前記テキスト部から第1語群に属する語、及び第2のカテゴリに分類された前記テキスト部から第2語群に属する語の組み合わせの個数を表す共起行列を作成し、
前記スコア計算ステップでは、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて前記テキストデータに対する各トピックのスコアを求め、
前記共起行列作成ステップは、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記第1のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第2のカテゴリに分類された前記テキスト部について第1の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記第1のカテゴリに分類された前記テキスト部、及び当該メタデータに関する前記第2のカテゴリに分類された前記テキスト部、あるいは前記事象の該当有無にかかわらず全ての前記テキスト部について第2の共起行列を作成し、
前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析方法。 - 請求項1に記載の分析方法であって、
前記共起行列作成ステップは、前記テキストデータから文章を抽出し、各文章に含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成し、
前記スコア計算ステップでは、前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各文章の条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求め、
前記共起行列作成ステップは、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記文章について第1の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記文章、あるいは前記事象の該当有無にかかわらず全ての前記文章について第2の共起行列を作成し、
前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析方法。 - 請求項1又は請求項2に記載する分析方法において、
前記共起行列作成ステップでは、前記第1の共起行列に対して補正値を乗じ、
前記補正値は、前記第1の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第2の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率である
ことを特徴とする分析方法。 - 請求項1又は請求項2に記載する分析方法において、
前記共起行列作成ステップでは、前記第2の共起行列に対して補正値を乗じ、
前記補正値は、前記第2の共起行列の作成に用いられた前記テキストデータの件数に対する、前記第1の共起行列の作成に用いられた前記テキストデータの件数の比率、あるいは全ての前記テキストデータの件数の比率である
ことを特徴とする分析方法。 - 請求項3に記載する分析方法において、
前記共起行列作成ステップでは、前記第1の共起行列に対して補正値を乗じ、
前記補正値は、前記第1の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第2の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率である
ことを特徴とする分析方法。 - 請求項3に記載する分析方法において、
前記共起行列作成ステップでは、前記第2の共起行列に対して補正値を乗じ、
前記補正値は、前記第2の共起行列の作成に用いられた前記テキストデータの文章数に対する、前記第1の共起行列の作成に用いられた前記テキストデータの文章数の比率、あるいは全ての前記テキストデータの文章数の比率である
ことを特徴とする分析方法。 - 請求項1から請求項7の何れか一項に記載する分析方法において、
前記トピックごとに、
前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当する確率を前記メタデータが前記事象に該当する確率で除した事象該当ありの指標値、及び
前記スコアが所定の閾値以上である条件の下で前記メタデータが前記事象に該当しない確率を前記メタデータが前記事象に該当しない確率で除した事象該当なしの指標値を計算する集計ステップを備える
ことを特徴とする分析方法。 - テキストデータ、及び前記テキストデータに関するメタデータの分析装置であって、
前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、
前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語
の第2条件付確率を求めるトピック抽出手段と、
前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段と、を備え、
前記共起行列作成手段は、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、
前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析装置。 - テキストデータ、及び当該テキストデータに関するメタデータをコンピュータに分析させる分析プログラムであって、
前記コンピュータを、
前記テキストデータに含まれている第1語群に属する語及び第2語群に属する語の組み合わせの個数を表す共起行列を作成する共起行列作成手段と、
前記共起行列を入力とし、第1語群に属する語及び第2語群に属する語で構成される複数のトピックを抽出する潜在意味解析法を実行することにより、各トピックを条件とした第1語群に属する語の第1条件付確率、及び各トピックを条件とした第2語群に属する語の第2条件付確率を求めるトピック抽出手段と、
前記第1条件付確率及び第1語群の出現頻度、並びに前記第2条件付確率及び第2語群の出現頻度に基づいて、各トピックを条件とした各前記テキストデータの条件付確率を計算し、前記条件付確率に基づいて各前記テキストデータに対する各トピックのスコアを求めるスコア計算手段として機能させ、
前記共起行列作成手段は、
前記メタデータが予め設定した事象に該当するとき、当該メタデータに関する前記テキストデータについて第1の共起行列を作成し、
前記メタデータが前記事象に該当しないとき、当該メタデータに関する前記テキストデータ、あるいは前記事象の該当有無にかかわらず全ての前記テキストデータについて第2の共起行列を作成し、
前記第1の共起行列と前記第2の共起行列との差を計算することで前記共起行列を作成する
ことを特徴とする分析プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018090885 | 2018-05-09 | ||
JP2018090885 | 2018-05-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019200784A true JP2019200784A (ja) | 2019-11-21 |
JP7221526B2 JP7221526B2 (ja) | 2023-02-14 |
Family
ID=68613158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019084331A Active JP7221526B2 (ja) | 2018-05-09 | 2019-04-25 | 分析方法、分析装置及び分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7221526B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743409A (zh) * | 2020-08-28 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种文本识别方法和装置 |
CN115455987A (zh) * | 2022-11-14 | 2022-12-09 | 合肥高维数据技术有限公司 | 基于字频词频的字符分组方法、存储介质及电子设备 |
KR20230000397A (ko) * | 2021-06-24 | 2023-01-02 | 주식회사 렉스퍼 | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 |
CN118170865A (zh) * | 2024-03-11 | 2024-06-11 | 杭州正义先铎网络科技有限公司 | 一种基于自然语言处理技术的文本数据采集和分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004185135A (ja) * | 2002-11-29 | 2004-07-02 | Mitsubishi Electric Corp | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
JP2006277767A (ja) * | 2006-06-19 | 2006-10-12 | Central Res Inst Of Electric Power Ind | 情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
-
2019
- 2019-04-25 JP JP2019084331A patent/JP7221526B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004185135A (ja) * | 2002-11-29 | 2004-07-02 | Mitsubishi Electric Corp | 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体 |
JP2006277767A (ja) * | 2006-06-19 | 2006-10-12 | Central Res Inst Of Electric Power Ind | 情報潮流検出・提示方法およびその装置ならびに記憶媒体 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743409A (zh) * | 2020-08-28 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种文本识别方法和装置 |
KR20230000397A (ko) * | 2021-06-24 | 2023-01-02 | 주식회사 렉스퍼 | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 |
KR102594734B1 (ko) | 2021-06-24 | 2023-10-26 | 주식회사 렉스퍼 | LDA(Latent Dirichlet Allocation) 토픽 모델링 기법을 이용한 텍스트 분석 방법 및 이를 수행하는 텍스트 분석 장치 |
CN115455987A (zh) * | 2022-11-14 | 2022-12-09 | 合肥高维数据技术有限公司 | 基于字频词频的字符分组方法、存储介质及电子设备 |
CN118170865A (zh) * | 2024-03-11 | 2024-06-11 | 杭州正义先铎网络科技有限公司 | 一种基于自然语言处理技术的文本数据采集和分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7221526B2 (ja) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10255354B2 (en) | Detecting and combining synonymous topics | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
Mudinas et al. | Combining lexicon and learning based approaches for concept-level sentiment analysis | |
Aisopos et al. | Sentiment analysis of social media content using n-gram graphs | |
Furlan et al. | Semantic similarity of short texts in languages with a deficient natural language processing support | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
US20170300565A1 (en) | System and method for entity extraction from semi-structured text documents | |
JP2019200784A (ja) | 分析方法、分析装置及び分析プログラム | |
US20150317390A1 (en) | Computer-implemented systems and methods for taxonomy development | |
Giannakopoulos et al. | Representation models for text classification: a comparative analysis over three web document types | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
Adam et al. | Sentiment analysis on movie review using Naïve Bayes | |
US11436278B2 (en) | Database creation apparatus and search system | |
Iqbal et al. | Bias-aware lexicon-based sentiment analysis | |
Ali et al. | Sentiment summerization and analysis of Sindhi text | |
CN112989816B (zh) | 文本内容质量评估方法及系统 | |
Subha et al. | Quality factor assessment and text summarization of unambiguous natural language requirements | |
Cho et al. | Enhancing lexicon-based review classification by merging and revising sentiment dictionaries | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
Bettiche et al. | Opinion mining in social networks for Algerian dialect | |
WO2024037483A1 (zh) | 文本处理方法、装置、设备及介质 | |
Consuegra-Ayala et al. | Automatic annotation of protected attributes to support fairness optimization | |
Saad et al. | Revised mutual information approach for german text sentiment classification | |
Panahandeh et al. | Correction of spaces in Persian sentences for tokenization | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230125 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7221526 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |