JP7138981B1 - 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム - Google Patents
類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム Download PDFInfo
- Publication number
- JP7138981B1 JP7138981B1 JP2021131400A JP2021131400A JP7138981B1 JP 7138981 B1 JP7138981 B1 JP 7138981B1 JP 2021131400 A JP2021131400 A JP 2021131400A JP 2021131400 A JP2021131400 A JP 2021131400A JP 7138981 B1 JP7138981 B1 JP 7138981B1
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- vector
- key
- key phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 177
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 240000003473 Grevillea banksii Species 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
V1=(0.1,0.06,0.2,0.14,0.2,0.04,…)
V2=(0.08,0,0.1,0.05,0.02,0.08,…) …(1)
120 文章取得部
122 文ベクトル取得部
124 キーフレーズ取得部
130 類似度算出部
132 文ベクトル比較部
134 キーフレーズ比較部
136 総合類似度算出部
200 端末装置
300 外部サーバ
Claims (9)
- 解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、
前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、
前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、
表示部を備える端末装置に、前記キーフレーズ取得部により取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させる表示制御部と、
を備え、
前記類似度算出部は、前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出するキーフレーズ比較部を備え、
前記表示制御部は、前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
類似度判定装置。 - 前記類似度算出部は、
前記第1文章から得られた前記文ベクトルである一以上の第1文ベクトルと、前記第2文章から得られた前記文ベクトルである一以上の第2文ベクトルとを網羅的に比較して前記文ベクトル同士の類似度を算出し、前記文ベクトル同士の類似度に基づいて、前記第1文章と前記第2文章との類似度を表す第1指標値を算出する文ベクトル比較部と、
前記第1指標値と前記第2指標値とに基づいて前記第1文章と前記第2文章の総合類似度を算出する総合類似度算出部と、を更に備える、
請求項1に記載の類似度判定装置。 - 前記文ベクトル比較部は、前記文ベクトル同士の組のうち類似度が閾値以上である前記文ベクトルの組の数に基づいて前記第1指標値を算出する、
請求項2に記載の類似度判定装置。 - 前記文ベクトル比較部は、前記文ベクトル同士の類似度のうち最大値に基づいて前記第1指標値を算出する、
請求項2または3に記載の類似度判定装置。 - 前記キーフレーズ比較部は、前記第1文章における前記キーフレーズの出現数を、前記第1文章の長さに基づく第1係数で正規化した値と、前記第2文章における前記キーフレーズの出現数を、前記第2文章の長さに基づく第2係数で正規化した値とに基づいて、前記第2指標値を算出する、
請求項1から4のうちいずれか1項に記載の類似度判定装置。 - 前記類似度算出部は、前記第1文章および前記第2文章のうちのいずれか一方の内容の一部または全部を、前記第1文章および前記第2文章のうちのいずれか他方において引用していることが明記されている場合、前記第1文章および前記第2文章の引用されている部分を除外して、前記第1文章と前記第2文章の前記総合類似度を算出する、
請求項1から5のうちいずれか1項に記載の類似度判定装置。 - 請求項1から6のうちいずれか1項に記載の類似度判定装置と、
前記類似度判定装置の前記類似度算出部により算出された前記総合類似度を表示する前記端末装置と、を備える、
類似度判定システム。 - コンピュータが、
解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得し、
前記第1文章と前記第2文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得し、
前記第1文章と前記第2文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出し、
表示部を備える端末装置に、前記取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させ、
前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出し、
前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
類似度判定方法。 - コンピュータに、
解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得させ、
前記第1文章と前記第2文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得させ、
前記第1文章と前記第2文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出させ、
表示部を備える端末装置に、前記取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させ、
前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求めさせ、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出させ、
前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021131400A JP7138981B1 (ja) | 2021-08-11 | 2021-08-11 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021131400A JP7138981B1 (ja) | 2021-08-11 | 2021-08-11 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7138981B1 true JP7138981B1 (ja) | 2022-09-20 |
JP2023025933A JP2023025933A (ja) | 2023-02-24 |
Family
ID=83322633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021131400A Active JP7138981B1 (ja) | 2021-08-11 | 2021-08-11 | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7138981B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7572092B1 (ja) | 2023-04-28 | 2024-10-23 | Croco株式会社 | 文章生成装置、文章生成システム、文章生成方法、およびプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222193A (ja) | 2001-01-24 | 2002-08-09 | Kddi Corp | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム |
JP2003256441A (ja) | 2002-03-01 | 2003-09-12 | Hewlett Packard Co <Hp> | 文書分類方法及び装置 |
JP2019109654A (ja) | 2017-12-18 | 2019-07-04 | ヤフー株式会社 | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム |
US20210124802A1 (en) | 2019-10-29 | 2021-04-29 | International Business Machines Corporation | Natural language polishing using vector spaces having relative similarity vectors |
CN113032557A (zh) | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种基于频繁词集与bert语义的微博热点话题发现方法 |
-
2021
- 2021-08-11 JP JP2021131400A patent/JP7138981B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222193A (ja) | 2001-01-24 | 2002-08-09 | Kddi Corp | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム |
JP2003256441A (ja) | 2002-03-01 | 2003-09-12 | Hewlett Packard Co <Hp> | 文書分類方法及び装置 |
JP2019109654A (ja) | 2017-12-18 | 2019-07-04 | ヤフー株式会社 | 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム |
US20210124802A1 (en) | 2019-10-29 | 2021-04-29 | International Business Machines Corporation | Natural language polishing using vector spaces having relative similarity vectors |
CN113032557A (zh) | 2021-02-09 | 2021-06-25 | 北京工业大学 | 一种基于频繁词集与bert语义的微博热点话题发现方法 |
Non-Patent Citations (2)
Title |
---|
▲高▼橋 和生,技術用語の類似度を用いた研究室配属支援システムの検討,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2016年01月14日,第115巻 第410号,pp.47-51,ISSN 0913-5685 |
小野 大樹、外5名,テキストマイニングによる退院サマリー自動分類の試み,医療情報学,日本,日本医療情報学会,2004年04月01日,第24巻,第1号,p.35-44 |
Also Published As
Publication number | Publication date |
---|---|
JP2023025933A (ja) | 2023-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12032905B2 (en) | Methods and systems for summarization of multiple documents using a machine learning approach | |
US20240028651A1 (en) | System and method for processing documents | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
US11200259B2 (en) | System and method for processing contract documents | |
Zhang | Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation | |
US10095782B2 (en) | Summarization of short comments | |
Zhang et al. | Combining sentiment analysis with a fuzzy kano model for product aspect preference recommendation | |
US11023503B2 (en) | Suggesting text in an electronic document | |
CN111078842A (zh) | 查询结果的确定方法、装置、服务器及存储介质 | |
JPWO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN117390170B (zh) | 数据标准的对标方法、装置、电子设备和可读存储介质 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
Wang et al. | Customer-driven product design selection using web based user-generated content | |
JP7138981B1 (ja) | 類似度判定装置、類似度判定システム、類似度判定方法、およびプログラム | |
Soliman et al. | Utilizing support vector machines in mining online customer reviews | |
CN116127367A (zh) | 服务评价的审核方法、装置以及计算机可读存储介质 | |
CN110728131A (zh) | 一种分析文本属性的方法和装置 | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
Vuković et al. | Degrees of non-standardness: Feature-based analysis of variation in a Torlak dialect corpus | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
Abudureheman | Design of a User Comment Management System Based on Text Mining: Innovative Organization Management for E-Commerce | |
CN111144122A (zh) | 评价处理方法、装置和计算机系统及介质 | |
JP5137134B2 (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
Jadon et al. | Sentiment analysis for movies prediction using machine leaning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210819 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220128 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220705 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220705 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220713 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7138981 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |