JP2023025933A - Similarity degree determination device, similarity degree determination system, similarity degree determination method, and program - Google Patents
Similarity degree determination device, similarity degree determination system, similarity degree determination method, and program Download PDFInfo
- Publication number
- JP2023025933A JP2023025933A JP2021131400A JP2021131400A JP2023025933A JP 2023025933 A JP2023025933 A JP 2023025933A JP 2021131400 A JP2021131400 A JP 2021131400A JP 2021131400 A JP2021131400 A JP 2021131400A JP 2023025933 A JP2023025933 A JP 2023025933A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- vector
- vectors
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 177
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 240000003473 Grevillea banksii Species 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
特許法第30条第2項適用申請有り 1.電気通信回線を通じた公開 ウェブサイトの掲載日 令和2年8月25日 ウェブサイトのURL https://kagemusya.biz-samurai.com/There is an application for the application of Article 30,
特許法第30条第2項適用申請有り 2.電気通信回線を通じた公開 ウェブサイトの掲載日 令和2年8月27日 ウェブサイトのURL https://cro-co.co.jp/information/news/service/418/There is an application for the application of Article 30,
本発明は、類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムに関する。 The present invention relates to a similarity determination device, a similarity determination system, a similarity determination method, and a program.
インターネットを介してアクセス可能なオンライン文書の数が膨大になるに伴い、類似文書の検索に関する技術が、文献盗用検索等の多くの分野に活用されている。 With the enormous number of online documents accessible via the Internet, techniques related to searching for similar documents are being utilized in many fields such as document plagiarism searching.
これに関連し、複数に分類された文書群と入力文書との類似性を導出する文書類似性導出装置が提案されている(特許文献1参照)。具体的に、文書類似性導出装置は、入力文書に含まれる文を形態素解析した結果に基づいて、重みを要素とした入力文書の特徴ベクトルを算出し、複数に分類された各文書群に含まれる各文書の特徴ベクトルから文書群の平均特徴ベクトルを算出し、入力文書の特徴ベクトルおよび各文書群の平均特徴ベクトルから、入力文書が各文書群のうち、いずれの文書群に最も類似するかを判定する。 In relation to this, a document similarity derivation device has been proposed that derives the similarity between a group of documents classified into a plurality of categories and an input document (see Patent Document 1). Specifically, the document similarity deriving device calculates a feature vector of the input document with the weight as an element based on the result of morphological analysis of the sentence included in the input document, and calculates the feature vector of the input document, and Calculate the average feature vector of the document group from the feature vector of each document in the input document and the average feature vector of each document group to determine which document group the input document is most similar to judge.
特許文献1に記載の技術では、専ら特徴ベクトルを中心に文章の類似度を算出しており、特徴ベクトル以外の要素を考慮していないため、文章の類似度に関して精度が十分でない場合があった。
In the technique described in
本発明は、このような事情を考慮してなされたものであり、より高精度に文章の類似度を算出することができる類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを提供することを目的とする。 The present invention has been made in consideration of such circumstances, and provides a similarity determination device, a similarity determination system, a similarity determination method, and a program capable of calculating the similarity of sentences with higher accuracy. intended to provide
上記目的を達成するため、本発明の類似度判定装置は、解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、を備える。 In order to achieve the above object, the similarity determination device of the present invention provides a sentence vector, which is a feature vector for each sentence obtained by decomposing a first sentence, which is a sentence to be analyzed, and a second sentence, which is a sentence to be compared. a sentence vector acquisition unit that acquires a key phrase that is included in each of the first sentence and the second sentence and is an important element that constitutes the sentence; a key phrase acquisition unit that acquires the first sentence and the Similarity calculation for calculating a total similarity between the first sentence and the second sentence based on the similarity between the sentence vectors with the second sentence and the similarity of the appearance of the same key phrase and
本発明の更なる特徴及び態様は、添付図面を参照し、以下に述べる実施形態の詳細な説明から明らかとなるであろう。 Further features and aspects of the present invention will become apparent from the detailed description of the embodiments set forth below, with reference to the accompanying drawings.
本発明によれば、より高精度に文章の類似度を算出することができる。 According to the present invention, it is possible to calculate the similarity of sentences with higher accuracy.
以下、実施形態の類似度判定装置、類似度判定システム、類似度判定方法、およびプログラムを、図面を参照して説明する。類似度判定装置は、文章を構成する各文の特徴ベクトルおよびキーフレーズに基づき、解析元の文章と比較対象の文章との類似度を判定する装置である。類似度判定装置は、例えば、解析元の文章と比較対象の文章との類似度を算出し、端末装置に算出結果を送信する。端末装置は、例えば、パーソナルコンピュータ、タブレット型コンピュータ、スマートフォンなどである。解析元の文章と比較対象の文章は、端末装置から取得されてもよいし、インターネット等の外部環境から自動で取得する等他の手法で取得されてもよい。類似度判定装置は、各文の特徴ベクトルを取得する際に、他のサーバの機能を利用してもよい。 Hereinafter, a similarity determination device, a similarity determination system, a similarity determination method, and a program according to embodiments will be described with reference to the drawings. The similarity determination device is a device that determines the degree of similarity between a text to be analyzed and a text to be compared based on feature vectors and key phrases of each sentence that constitutes the text. The similarity determination device, for example, calculates the degree of similarity between the analysis source sentence and the comparison target sentence, and transmits the calculation result to the terminal device. The terminal device is, for example, a personal computer, a tablet computer, a smart phone, or the like. The text to be analyzed and the text to be compared may be obtained from a terminal device, or may be obtained by other methods such as being automatically obtained from an external environment such as the Internet. The similarity determination device may use functions of other servers when acquiring the feature vector of each sentence.
図1は、実施形態に係る類似度判定システム1の全体構成の一例を示す図である。類似度判定システム1は、類似度判定装置100と、端末装置200とを備える。類似度判定装置100、端末装置200、および外部サーバ300は、ネットワークを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。外部サーバ300の役割については後述する。
FIG. 1 is a diagram showing an example of the overall configuration of a
図2は、実施形態に係る類似度判定装置100の構成を示す図である。類似度判定装置100は、例えば、通信部110、文章取得部120、文ベクトル取得部122、キーフレーズ取得部124、類似度算出部130、および記憶部150を備える。
FIG. 2 is a diagram showing the configuration of the
通信部110と記憶部150以外の各部は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで記憶装置にインストールされてもよい。
Each unit other than the
通信部110は、例えばNIC(Network Interface Card)などのネットワークインターフェースを備える。類似度判定装置100の各部は、通信部110を用いて、ネットワークNWを介して端末装置200および外部サーバ300と通信する。
The
記憶部150は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。記憶部150には、例えば、取得文章152、取得文ベクトル154、取得キーフレーズ156、および文ベクトルの組の数158等のデータが格納される。
The
文章取得部120は、例えば、端末装置200から解析元の文章と比較対象の文章を取得する。以下において、解析元の文章を第1文章とし、比較対象の文章を第2文章と称する。文章取得部120は、取得した第1文章および第2文章を記憶部150に記憶させる。
The
ここでは、文ベクトル取得部122を説明する前に、外部サーバ300の役割について説明する。外部サーバ300は、文章を分割、文章から単語の出現位置の特定、特徴ベクトル(文ベクトル)を取得やキーフレーズを取得等の各種解析器を有し、各種解析器に対して読み込ませる辞書・ライブラリ等を提供する。例えば、外部サーバ300は、BERT(Bidirectional Encoder Representations from Transformers)の自然言語処理モデルを用い、終止符などのような区切り符号に基づいて、文章ごとに対応する文ベクトルを作成することができる。また、外部サーバ300は、例えば、spaCy/GiNZA(日本語形態素解析器の一種)を用いて、文章ごとに対して文章を構成する重要な要素(キーフレーズ)を取得することができる。
Here, before describing the sentence
外部サーバ300は、例えば、事前に用意したコーパスをクラスタリングし、分類したクラスタ単位で各単語のスコアを計算する。文章からキーフレーズを抽出する際は、文章が属するクラスタの各単語のスコアを用いてフレーズ候補のスコアを求める。外部サーバ300は、類似した文章を多数集めることで、より良い精度の単語スコアを得ることができる。ここで、外部サーバ300は、ジャンル別のコーパスを用いてキーフレーズを抽出してもよい。例えば、外部サーバ300は、スポーツ、料理といったジャンルごとにコーパスを予め用意し、文ベクトル取得部122により指定されたジャンルに対応するコーパスを使用して単語のスコアを計算する。この場合、文ベクトル取得部122は、端末装置200からジャンルの指定を受け付けてもよい。
The
文ベクトル取得部122は、記憶部150に格納された第1文章および第2文章を外部サーバ300に送信して文ベクトルの作成を依頼し、第1文章および第2文章のそれぞれに対応する文ベクトルを取得する。本実施形態において、第1文章に基づき作成された文ベクトルを第1文ベクトルと称し、第2文章に基づき作成された文ベクトルを第2文ベクトルと称する。文ベクトル取得部122は、取得した第1文ベクトルおよび第2文ベクトルを類似度算出部130に出力する。
The sentence
キーフレーズ取得部124は、記憶部150に格納された第1文章および第2文章を取得し、それらを外部サーバ300に送信して第1文章および第2文章のそれぞれからのキーフレーズの抽出を依頼し、第1文章および第2文章のそれぞれに対応するキーフレーズを取得する。本実施形態において、第1文章に基づき作成されたキーフレーズを第1キーフレーズと称し、第2文章に基づき作成されたキーフレーズを第2キーフレーズと称する。キーフレーズ取得部124は、取得した第1キーフレーズおよび第2キーフレーズを類似度算出部130に出力する。
The key
類似度算出部130は、第1文章および第2文章の総合類似度を算出する。類似度算出部130は、例えば、文ベクトル比較部132、キーフレーズ比較部134、総合類似度算出部136、および類似度表示制御部138を備える。
The
文ベクトル比較部132は、第1文章および第2文章のそれぞれに基づいて作成された第1文ベクトルおよび第2文ベクトルのベクトル間距離(ユークリッド距離)またはコサイン類似度に基づき、第1文ベクトルと第2文ベクトルの類似度を算出する。文ベクトル比較部132は、第1文ベクトルと第2文ベクトルの類似度を、例えば網羅的に算出し、第1文章および第2文章の総合類似度を算出するための第1指標値を算出する。
The sentence
図3は、文ベクトル比較部132が文ベクトル同士の類似度を算出する様子の一例を示す図である。図示するように、第1文章および第2文章のそれぞれは、文1、文2、文3のような形で複数の文に分解されている。第1文章の文1の文ベクトルと、第2文章の文2の文ベクトルとの類似度は97%であり、第1文章の文1の文ベクトルと、第2文章の文6の文ベクトルとの類似度は35%であり、第1文章の文3の文ベクトルと、第2文章の文4の文ベクトルとの類似度は97%である。このように、文ベクトル比較部132は、第1文章に含まれるそれぞれの文の文ベクトルと、第2文章に含まれるそれぞれの文の文ベクトルとの類似度を算出する。
FIG. 3 is a diagram showing an example of how the sentence
文ベクトル比較部132は、例えば、上記文ベクトル同士の類似度を算出した後に、算出した類似度が閾値以上であるか否かを判定する。そして、文ベクトル比較部132は、閾値以上である類似度(類似度の最大値を含む)および類似度が閾値以上である文ベクトルの組の数を計数する。本実施形態において、例えば、文ベクトル同士の類似度閾値を85%とする。この場合、図3における文ベクトルの組(1)、文ベクトルの組(4)、および文ベクトルの組(5)のそれぞれの類似度が「97%」、「88%」、「97%」であり、これらは85%の閾値以上であるため、文ベクトル比較部132は、上記文ベクトル同士の類似度およびそれらの組数「3」を算出して記憶部150に記憶させる。
For example, after calculating the degree of similarity between the sentence vectors, the sentence
文ベクトル比較部132は、単に、算出した文ベクトル同士の類似度が閾値以上である類似度に基づいて第1指標値を計算してもよいし、閾値以上である類似度および類似度が閾値以上である文ベクトルの組の数に基づいて第1指標値を計算してもよい。また、文ベクトル比較部132は、例えば、閾値を超えた値が大きいほど重みを大きくして組の数の加重和を求めてもよい。
The sentence
更に、文ベクトル比較部132は、類似度の最大値に基づいて第1指標値を計算してもよい。本実施形態では、第1文章および第2文章の総合類似度を高精度に算出するため、文ベクトル比較部132は、文ベクトル同士の類似度の最大値および類似度が閾値以上である文ベクトルの組の数に基づいて、第1指標値を算出することとする。例えば、図3の場合、文ベクトル比較部132は、「97%」および「3」を用いて第1指標値を算出する。
Furthermore, the sentence
なお、文ベクトル比較部132は、単に類似度が閾値以上である文ベクトルの組の数に基づいて第1指標値を算出してもよいし、単に類似度の最大値に基づいて第1指標値を算出してもよい。文ベクトル比較部132は、例えば、類似度が閾値以上である文ベクトルの組の数が大きいほど第1指標値が大きくなるように、且つ、類似度の最大値が大きいほど第1指標値が大きくなるように、総合類似度を算出する。この傾向を有する限り、文ベクトル比較部132は、任意の手法で第1指標値を算出してよい。
Note that the sentence
キーフレーズ比較部134は、第1文章および第2文章のそれぞれから抽出されたキーフレーズの間で一致するキーフレーズが、第1文章および第2文章のそれぞれにおいて出現する出現度合に基づいて、第1文章および第2文章の総合類似度を算出するための第2指標値を算出する。出現度合とは、第1文章および第2文章の長さを考慮して、相対的にどの程度の頻度ないし比重で出現したかを示す情報量である。
The key
図4は、キーフレーズ比較部134が第1文章および第2文章における一致するキーフレーズがそれぞれの文章に出現した出現度合を算出する様子の一例を示す図である。まず、キーフレーズ比較部134は、第1文章および第2文章におけるキーフレーズの出現数をカウントする。そして、キーフレーズ比較部134は、キーフレーズの出現数を、第1文章または第2文章の長さに応じた係数(第1係数または第2係数)で除算した値を、キーフレーズの出現度合として算出する。この係数は、第1文章または第2文章が長い程、大きくなる値である。
FIG. 4 is a diagram showing an example of how the key
例えば、図示するように、第1文章および第2文章のそれぞれに出現するキーフレーズは、「ドリブル」、「ユース」、「ボール」、「プレースタイル」、「2019」や「2015」等である。キーフレーズ「ドリブル」は第1文章に5回出現し、第2文章に8回出現している。これに対して、第1文章に対応する係数α1が50、第2文章に対応する係数α2が100と計算されたとすると、「ドリブル」は、第1文章における出現度合が0.1と算出され、第2文章における出現度合が0.08と算出される。第1文章と第2文章のうち一方にだけ出現するキーフレーズも存在し得る。その場合、そのキーフレーズが出現しない方の文章に対応するキーフレーズ出現数とキーフレーズ出現度合はゼロとなる。 For example, as shown, key phrases appearing in each of the first and second sentences are "dribbling", "youth", "ball", "playing style", "2019" and "2015". . The key phrase "dribble" appears five times in the first sentence and eight times in the second sentence. On the other hand, if the coefficient α1 corresponding to the first sentence is calculated to be 50 and the coefficient α2 corresponding to the second sentence is calculated to be 100, the degree of occurrence of "dribble" in the first sentence is calculated to be 0.1. , the degree of appearance in the second sentence is calculated as 0.08. There may also be key phrases that appear in only one of the first and second sentences. In that case, the number of appearances of key phrases and the degree of appearance of key phrases corresponding to the sentence in which the key phrase does not appear are zero.
そして、キーフレーズ比較部134は、例えば、第1文章と第2文章の少なくともいずれかに出現するキーフレーズを仮想的に並べ、その出現数を要素とするベクトル(キーフレーズベクトル)を、第1文章と第2文章のそれぞれについて定義する。第1文章に対応するキーフレーズベクトルを第1キーフレーズベクトルV1、第2文章に対応するキーフレーズベクトルを第2キーフレーズベクトルV2とすると、図4の例では、式(1)のように表される。
V1=(0.1,0.06,0.2,0.14,0.2,0.04,…)
V2=(0.08,0,0.1,0.05,0.02,0.08,…) …(1)
Then, the key
V1 = (0.1, 0.06, 0.2, 0.14, 0.2, 0.04, ...)
V2=(0.08, 0, 0.1, 0.05, 0.02, 0.08, ...) (1)
キーフレーズ比較部134は、例えば、第1キーフレーズベクトルV1と第2キーフレーズベクトルV2とのベクトル間距離(ユークリッド距離)やコサイン類似度(すなわち第1キーフレーズベクトルV1と第2キーフレーズベクトルV2との類似度であり、キーフレーズの第1文章と第2文章における出現度合の類似度の一例である)を計算し、第2指標値として算出する。
The key-
総合類似度算出部136は、第1指標値および第2指標値に基づいて、第1文章および第2文章の総合類似度を算出する。例えば、総合類似度算出部136は、第1指標値が大きいほど総合類似度が大きくなるように、且つ、第2指標値が大きいほど総合類似度が大きくなるように、総合類似度を算出する。この傾向を有する限り、総合類似度算出部136は、任意の手法で総合類似度を算出してよい。
The
図5は、類似度算出部130が第1文章と第2文章の総合類似度を算出する処理の内容を模式的に示す図である。本実施形態において、例えば、類似度が閾値以上である文ベクトルの組の数はn、類似度の最大値はmと計算され、更に、キーフレーズの第1文章における出現数はP1、キーフレーズの第2文章における出現数はP2であり、第1文章の正規化係数はα1、第2文章の正規化係数はα2と設定されている。
FIG. 5 is a diagram schematically showing the content of processing for calculating the total similarity between the first sentence and the second sentence by the
総合類似度算出部136は、文ベクトル比較部132がnおよびmに基づいて算出した第1指標値をFとし、キーフレーズ比較部134がP1、P2、α1、およびα2に基づいて算出した第2指標値をQとする。第1指標値Fの算出手法は、例えばF=f(n,m)で表される。f(n,m)は、前述したように、類似度が閾値以上である文ベクトルの組の数nが大きいほど第1指標値Fが大きくなるように、且つ、類似度の最大値mが大きいほど第1指標値Fが大きくなるように、第1指標値Fを算出する関数である。また、第2指標値Qの算出手法は、例えば、Q=q(P1,P2,α1,α2)で表される。Q=q(P1,P2,α1,α2)は、前述したように、第1文章におけるキーフレーズの出現数P1を第1文章の長さに応じた係数α1で除算した値と、第2文章におけるキーフレーズの出現数P2を第2文章の長さに応じた係数α2で除算した値とを、キーフレーズの各文章における出現度合として算出し、算出した値に基づき第2指標値Qを算出する関数である。
The total
そして、総合類似度算出部136は、第1指標値Fおよび第2指標値Qに基づいて、第1文章および第2文章の総合類似度Sを算出する。総合類似度Sの算出手法は、例えば、S=h(F,Q)で表される。S=h(F,Q)は、前述したように、第1指標値Fが大きいほど総合類似度Sが大きくなるように、且つ、第2指標値Qが大きいほど総合類似度Sが大きくなるように、総合類似度Sを算出する関数である。
Then, based on the first index value F and the second index value Q, the
類似度表示制御部138は、例えば、総合類似度、第1指標値、第2指標値、および第1文章と前記第2文章の間でのキーフレーズの出現度合の類似度を表すグラフ(レーダーチャート)を図示しない端末装置200の表示部に表示させる。詳しくは、後述する。
The similarity
図6は、類似度判定装置100が、第1文章および第2文章の総合類似度を算出する処理の一例を示すフローチャートである。
FIG. 6 is a flow chart showing an example of a process of calculating the total similarity between the first sentence and the second sentence by the
まず、文章取得部120は、第1文章と第2文章のそれぞれの全文を、例えば端末装置200から取得する(ステップS200)。文ベクトル取得部122は、外部サーバ300に第1文章および第2文章を送信して文ベクトルの作成を依頼する。そして、文ベクトル取得部122は、第1文章の文ベクトルおよび第2文章の文ベクトルを外部サーバ300から取得し、キーフレーズ取得部124は、第1文章のキーフレーズおよび第2文章のキーフレーズを外部サーバ300から取得する(ステップS202)。
First, the
次に、文ベクトル比較部132は、第1文章および第2文章のそれぞれに基づいて作成された組ごとの文ベクトル同士の類似度を算出する(ステップS204)。文ベクトル比較部132は、第1文ベクトルから一つの文ベクトルを選び、第2文ベクトルから一つの文ベクトルを選び、選ばれた文ベクトル同士の類似度Ai,jの算出を、全ての組み合わせについて実行する。そして、文ベクトル比較部132は、算出した文ベクトル同士の類似度Ai,jが閾値Th以上であるか否かを判定する(ステップS208)。Ai,jとは、i番目の第1文ベクトルと、j番目の第2文ベクトルとの類似度を表している。算出した文ベクトル同士の類似度Ai,jが閾値Th以上でない場合、文ベクトル比較部132は、ステップS216に進む。算出した文ベクトル同士の類似度Ai,jが閾値Th以上である場合、文ベクトル比較部132は、閾値Th以上である文ベクトルの組の数nをカウントアップし、記憶部150に格納させる(ステップS212)。
Next, the sentence
そして、文ベクトル比較部132は、全ての文ベクトルの組み合わせについて類似度Ai,jを算出したか否かを判定する(ステップS216)。全ての文ベクトルの組み合わせについて類似度Ai,jを算出していない場合、文ベクトル比較部132は、ステップS204に戻って、次の組の文ベクトルを選び、類似度Ai,jを算出する。全ての文ベクトルの組み合わせについて類似度Ai,jを算出した場合、文ベクトル比較部132は、算出した類似度のうち最大値mを抽出する(ステップS220)。次に、文ベクトル比較部132は、ステップS212においてカウントした数nおよびステップS220において計算した類似度の最大値mに基づいて、第1指標値Fを算出する(ステップS224)。
Then, the sentence
本実施形態において、類似度判定装置100は、ステップS204の処理を行うに伴い、第1文章と第2文章のそれぞれにおける一致するキーフレーズを抽出することを並行してもよい(ステップS206)。
In this embodiment, the
キーフレーズ比較部134は、第1文章と第2文章のそれぞれにおけるキーフレーズの出現数P1およびP2を算出する(ステップS210)。次に、キーフレーズ比較部134は、第1文章および第2文章のそれぞれの正規化係数α1およびα2を算出する(ステップS214)。上記算出したP1、P2、α1、およびα2に基づいて、キーフレーズ比較部134は、第2指標値Qを算出する(ステップS218)。そして、キーフレーズ比較部134は、キーフレーズの出現度合の類似度に関するレーダーチャートを作成し、類似度表示制御部138は、レーダーチャートを端末装置200の表示部に表示させる(ステップS222)。
The key
最後に、総合類似度算出部136は、第1指標値Fおよび第2指標値Qに基づき、第1文章および第2文章の総合類似度Sを算出する(ステップS226)。
Finally, the
キーフレーズの比較によれば、文章全体からキーフレーズを抽出するため、文章全体の類似度を判定することができる。しかしながら、比較対象の第2文章が解析元の第1文章の一部の文のみを流用する場合、キーフレーズの比較のみでは、類似度が低いと判定される可能性がある。これに対し、本実施形態のように、キーフレーズの比較と文ベクトルの比較とを組み合わせることで、類似度をより高精度に判定することができる。 According to the comparison of key phrases, since key phrases are extracted from the entire sentences, it is possible to determine the similarity of the entire sentences. However, if the second sentence to be compared uses only a part of the first sentence to be analyzed, it may be determined that the similarity is low only by comparing the key phrases. In contrast, similarity can be determined with higher accuracy by combining comparison of key phrases and comparison of sentence vectors as in the present embodiment.
すなわち、本実施形態において、文ベクトル同士の類似度を算出することで、ユーザは、解析元の第1文章と比較対象の第2文章の局所的な類似度を判定できる。また、キーフレーズの出現度合の類似度を算出することで、ユーザは、解析元の第1文章と比較対象の第2文章の全体の類似度を判断できる。 That is, in the present embodiment, by calculating the degree of similarity between sentence vectors, the user can determine the degree of local similarity between the first sentence to be analyzed and the second sentence to be compared. Further, by calculating the degree of similarity of the degree of occurrence of key phrases, the user can determine the degree of similarity between the first sentence to be analyzed and the second sentence to be compared.
上述したように、本実施形態においては、解析元の第1文章と比較対象の第2文章のそれぞれに対し、文ベクトルの作成とキーフレーズの抽出という、文章の概要を示すという目的が類似しつつ互いに手法が全く異なる二種類の解析を行って総合類似度を算出している。これによって、例えばオリンピックを五輪と置換するといった単純な一括変換による文章の流用をも検出することが可能となっている。 As described above, in the present embodiment, the first sentence to be analyzed and the second sentence to be compared have the same purpose of showing an outline of the sentence, that is, creation of sentence vectors and extraction of key phrases. However, the overall similarity is calculated by performing two types of analysis that are completely different from each other. This makes it possible to detect the diversion of sentences by simple batch conversion, such as replacing the Olympics with the Olympics.
図7は、総合類似度を算出する処理が行われた後、類似度判定装置100が端末装置200に表示させる画面の一例を示す図である。この画面には、例えば、「総合類似度」が表示される表示領域A1、「第1指標値」が表示される表示領域A2、「第2指標値」が表示される表示領域A3、および「キーフレーズの出現度合の類似度に関するレーダーチャート」が表示される表示領域A4が設けられる。図示するように、総合類似度の計算に関する処理が行われた後に、類似度表示制御部138は、各表示領域に表示される項目を含む「解析結果詳細報告」を端末装置200の表示画面に表示させる。「キーフレーズの出現度合の類似度に関するレーダーチャート」において、第1文章におけるキーフレーズの出現度合を表すラインL1と、第2文章におけるキーフレーズの出現度合を表すラインL2とが表示されている。レーダーチャートの12時方向、すなわち真上には、第1文章で最も出現頻度の高いキーフレーズが配置され、反時計回りに第1文章における出現頻度の順にキーフレーズが配置されている。したがって、第1文章を示すラインL1は、真上から反時計回りに徐々に半径が小さくなるらせん状の曲線が描画されることになる。これに対し、第2文章を示すラインL2は、類似度が低ければ、らせん状にはならずにいびつな形状となる。また、第1文章の一部で第2文章が使われていた場合には、特定のキーフレーズが突出して高く、もしくは低く描画されるが、多くのキーフレーズの出現頻度が類似することになるので、らせん形状に近くなる。このレーダーチャートにより、ユーザは、第1文章におけるキーフレーズの出現度合と、第2文章におけるキーフレーズの出現度合とを視覚的に比較することができる。
FIG. 7 is a diagram showing an example of a screen displayed on the
上記説明した外部サーバ300の機能のうち一部または全部は、類似度判定装置100の機能に含まれてもよい。例えば、類似度判定装置100の文ベクトル取得部122が、文ベクトルを生成する機能を有してもよいし、類似度判定装置100のキーフレーズ取得部124が、キーフレーズを抽出する機能を有してもよい。
Some or all of the functions of the
また、文章取得部120によって取得される第1文章および第2文章は、論文、記事、歌詞、俳句、詩、小説等のようなあらゆる著作物であってよい。これによって、類似度判定装置100を、論文、記事、歌詞、俳句、詩、小説等のような著作物の盗用の検出に使用することができる。
Also, the first sentence and the second sentence acquired by the
また、類似度判定装置100は、文章に対応する文ベクトルおよびキーフレーズの双方に基づき、文章間の類似度を判定する(類似判定)ため、第1文章において、第2文章の内容の一部または全部を引用していることが明記されている場合(或いはその逆や、第1・第2文章ともに別の第3文章を引用している場合)、類似度判定装置100は、第1文章および第2文章の引用されている部分を除外して、第1文章と第2文章の総合類似度を算出してもよい。例えば、第1文章および第2文章がHTML(Hyper Text Markup Language)形式で入力された場合、類似度判定装置100は、引用タグに基づいて引用されている範囲を判定してもよい。文章の盗用を検出する目的において、引用されている部分で文章が同一となることは当然であるが、引用部分を含めて類似判定をしてしまうと不必要に類似度が高く判定され、結果的に文章の盗用が行われているかどうかという目的が達成できないためである。引用先がHTMLなどで入力されていない場合であっても、正しい引用が行われている場合にはフォントを変更したり、アスタリスクマーク(*)等によって引用元文献が明示されていることが通常であるので、そのような引用か所を、自然言語処理を用いて機械検知してもよい。
Further, the
このような引用が行われている場合、文章全体では類似度が高くないにも関わらず、特定の文章で極端に類似度スコアが高くなる。自然言語処理は類似度判定装置100の負荷が大きいので、そのような局所的な類似度不連続箇所が見出された際にのみ、機械検知を動作させてもよいし、図7に示したチャートを表示する際に、ユーザがマニュアルで引用か所を指摘して再判定を促すように端末装置200に表示してもよい。
When such citations are made, the similarity score of a specific sentence is extremely high, even though the similarity of the sentence as a whole is not high. Since natural language processing places a heavy load on the
また、ニュースや人気製品の発売等、客観的な事実に基づいた記事を作成する場合、当該事実に関しては多くのニュース媒体で同様の記事が作成される。このような場合は、事実を伝える部分について類似判定を行うと、盗用でなくても類似度が高いと判定されることになってしまい、結果として盗用が行われているかどうかという目的が達成できなくなるので、客観的事実を伝える部分を類似判定の対象から除外するようにしてもよい。引用か所が明記される引用と異なり、事実部分の指定は自然言語処理で行うことも可能であるが、文意から判定する必要がある上、事実に関する記載は全く同じ文章とは限らないため、より高度な自然言語処理が必要となる。そのようなニュース記事の場合、抽出される第2文章候補が比較的新しく、かつ近似した日付で複数検出される傾向がある。したがって、そのような近い日付の文献が第2文章の候補として複数抽出された場合にのみ、自然言語処理による除外か所検出を行ってもよいし、ユーザに事実を伝える記事であるかのチェックを入力させるチェックボックスを端末装置200に表示し、事実を伝える記事部分をマニュアルで除外させる入力を促してもよい。引用と同様、図7に示したレーダーチャートを表示する際に、ユーザによる再判定を促してもよいが、自然言語処理が重い処理であるので、類似度判定装置100の負荷軽減のためには、自然言語処理よりも前に除外か所の指定ができる方が好適である。
In addition, when creating an article based on objective facts such as news or the sale of a popular product, similar articles are created in many news media regarding the facts. In such a case, if similarity judgment is performed on the part that conveys the facts, it will be judged that the degree of similarity is high even if it is not plagiarism, and as a result, the purpose of whether or not plagiarism has occurred cannot be achieved. Therefore, portions that convey objective facts may be excluded from similarity determination targets. Unlike citations, in which the places of citation are specified, it is possible to specify the factual part by natural language processing, but it is necessary to judge from the meaning of the sentence, and the factual description is not necessarily the same sentence. , more advanced natural language processing is required. In the case of such news articles, there is a tendency that a plurality of extracted second sentence candidates are relatively new and have similar dates. Therefore, only when a plurality of documents dated close to each other are extracted as candidates for the second sentence, it is possible to detect excluded points by natural language processing, or check whether the article conveys the facts to the user. may be displayed on the
以上説明した実施形態によれば、解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部122と、第1文章と第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部124と、第1文章と第2文章との間の文ベクトル同士の類似度と、同じキーフレーズの出現度合の類似度とに基づいて、第1文章と第2文章の総合類似度を算出する類似度算出部130とを備えることで、より高精度に文章の類似度を算出することができる。
According to the embodiment described above, the sentence vector acquisition unit acquires the sentence vector, which is the feature vector for each sentence obtained by decomposing the first sentence, which is the sentence to be analyzed, and the second sentence, which is the sentence to be compared. 122, a key
また、実施形態によれば、文ベクトル同士の組のうち類似度が閾値以上である文ベクトルの組の数に基づいて第1指標値を算出することで、更に高精度に文章の類似度を算出することができる。 Further, according to the embodiment, by calculating the first index value based on the number of pairs of sentence vectors whose similarity is equal to or higher than a threshold among pairs of sentence vectors, the similarity of sentences can be calculated with higher accuracy. can be calculated.
更に、実施形態によれば、第1文章と第2文章の間でのキーフレーズの出現度合の類似度を表すグラフを表示させる類似度表示制御部138を更に備えることで、ユーザは、第1文章におけるキーフレーズの出現度合と、第2文章におけるキーフレーズの出現度合とを比較することができる。
Furthermore, according to the embodiment, by further including the similarity
以上、本発明の好ましい実施例を説明したが、本発明はこれら実施例に限定されることはない。本発明の趣旨を逸脱しない範囲で、構成の付加、省略、置換、およびその他の変更が可能である。本発明は前述した説明によって限定されることはなく、添付のクレームの範囲によってのみ限定される。 Although preferred embodiments of the invention have been described above, the invention is not limited to these embodiments. Configuration additions, omissions, substitutions, and other changes are possible without departing from the scope of the present invention. The present invention is not limited by the foregoing description, but only by the scope of the appended claims.
100 類似度判定装置
120 文章取得部
122 文ベクトル取得部
124 キーフレーズ取得部
130 類似度算出部
132 文ベクトル比較部
134 キーフレーズ比較部
136 総合類似度算出部
200 端末装置
300 外部サーバ
100
上記目的を達成するため、本発明の類似度判定装置は、解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、を備え、前記類似度算出部は、前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出するキーフレーズ比較部を備える。 In order to achieve the above object, the similarity determination device of the present invention provides a sentence vector, which is a feature vector for each sentence obtained by decomposing a first sentence, which is a sentence to be analyzed, and a second sentence, which is a sentence to be compared. a sentence vector acquisition unit that acquires a key phrase that is included in each of the first sentence and the second sentence and is an important element that constitutes the sentence; a key phrase acquisition unit that acquires the first sentence and the Similarity calculation for calculating a total similarity between the first sentence and the second sentence based on the similarity between the sentence vectors with the second sentence and the similarity of the appearance of the same key phrase wherein the similarity calculation unit calculates a first key phrase vector whose elements are the number of appearances of the key phrases included in the first sentence, and the number of appearances of the key phrases included in the second sentence. A second key phrase vector having elements of is obtained, and based on the first key phrase vector and the second key phrase vector, a second index value representing the degree of similarity between the first sentence and the second sentence is calculated A key phrase comparison unit for calculating is provided .
上記目的を達成するため、本発明の類似度判定装置は、解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得する文ベクトル取得部と、前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、表示部を備える端末装置に、前記キーフレーズ取得部により取得されたキーフレーズの前記第1文章と前記第2文章の間での出現度合の類似度を表すグラフを表示させる表示制御部と、を備え、前記類似度算出部は、前記第1文章に含まれる前記キーフレーズの出現数を要素とする第1キーフレーズベクトルと、前記第2文章に含まれる前記キーフレーズの出現数を要素とする第2キーフレーズベクトルとを求め、前記第1キーフレーズベクトルおよび前記第2キーフレーズベクトルに基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出するキーフレーズ比較部を備え、前記表示制御部は、前記第1文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第1ラインと、前記第2文章における複数の前記キーフレーズのそれぞれの出現度合を表す点を結ぶ第2ラインとが表示されたレーダーチャートを、前記グラフとして前記端末装置に表示させる。 In order to achieve the above object, the similarity determination device of the present invention provides a sentence vector, which is a feature vector for each sentence obtained by decomposing a first sentence, which is a sentence to be analyzed, and a second sentence, which is a sentence to be compared. a sentence vector acquisition unit that acquires a key phrase that is included in each of the first sentence and the second sentence and is an important element that constitutes the sentence; a key phrase acquisition unit that acquires the first sentence and the Similarity calculation for calculating a total similarity between the first sentence and the second sentence based on the similarity between the sentence vectors with the second sentence and the similarity of the appearance of the same key phrase and a display unit for displaying a graph representing the degree of similarity of appearance between the first sentence and the second sentence of the key phrase acquired by the key phrase acquisition unit. and the similarity calculation unit calculates a first key phrase vector whose elements are the number of appearances of the key phrases included in the first sentence, and the number of appearances of the key phrases included in the second sentence. A second key phrase vector as an element is obtained, and a second index value representing the degree of similarity between the first sentence and the second sentence is calculated based on the first key phrase vector and the second key phrase vector. wherein the display control unit includes: a first line connecting points representing degrees of appearance of each of the plurality of key phrases in the first sentence; A radar chart displaying a second line connecting points representing respective appearance degrees is displayed on the terminal device as the graph.
Claims (9)
前記第1文章と前記第2文章のそれぞれに含まれ、文章を構成する重要な要素であるキーフレーズを取得するキーフレーズ取得部と、
前記第1文章と前記第2文章との間の前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する類似度算出部と、
を備える類似度判定装置。 a sentence vector acquisition unit that acquires a sentence vector that is a feature vector for each sentence obtained by decomposing a first sentence that is an analysis source sentence and a second sentence that is a comparison target sentence;
a key phrase acquisition unit that acquires a key phrase that is included in each of the first sentence and the second sentence and is an important element that constitutes the sentence;
total similarity between the first sentence and the second sentence based on the similarity between the sentence vectors between the first sentence and the second sentence and the similarity of the occurrence of the same key phrases; a similarity calculation unit that calculates
A similarity determination device comprising:
前記第1文章から得られた前記文ベクトルである一以上の第1文ベクトルと、前記第2文章から得られた前記文ベクトルである一以上の第2文ベクトルとを網羅的に比較して前記文ベクトル同士の類似度を算出し、前記文ベクトル同士の類似度に基づいて、前記第1文章と前記第2文章との類似度を表す第1指標値を算出する文ベクトル比較部と、
前記第1文章から得られた前記キーフレーズと、前記第2文章から得られた前記キーフレーズとの間で一致する前記キーフレーズが、前記第1文章と前記第2文章とのそれぞれにおいて出現する出現度合に基づいて、前記第1文章と前記第2文章との類似度を表す第2指標値を算出するキーフレーズ比較部と、
前記第1指標値と前記第2指標値とに基づいて前記第1文章と前記第2文章の総合類似度を算出する総合類似度算出部と、を備える、
請求項1に記載の類似度判定装置。 The similarity calculation unit
comprehensively comparing one or more first sentence vectors, which are the sentence vectors obtained from the first sentence, and one or more second sentence vectors, which are the sentence vectors obtained from the second sentence; a sentence vector comparison unit that calculates the similarity between the sentence vectors and calculates a first index value representing the similarity between the first sentence and the second sentence based on the similarity between the sentence vectors;
The key-phrase that matches between the key-phrase obtained from the first sentence and the key-phrase obtained from the second sentence occurs in each of the first sentence and the second sentence. a key phrase comparison unit that calculates a second index value representing the degree of similarity between the first sentence and the second sentence based on the degree of appearance;
a total similarity calculation unit that calculates a total similarity between the first sentence and the second sentence based on the first index value and the second index value,
The similarity determination device according to claim 1.
請求項2に記載の類似度判定装置。 The sentence vector comparison unit calculates the first index value based on the number of pairs of sentence vectors having a similarity equal to or higher than a threshold among the pairs of sentence vectors.
The similarity determination device according to claim 2.
請求項2または3に記載の類似度判定装置。 The sentence vector comparison unit calculates the first index value based on a maximum value of similarities between the sentence vectors.
4. The similarity determination device according to claim 2 or 3.
請求項2から4のうちいずれか1項に記載の類似度判定装置。 The key phrase comparison unit normalizes the number of occurrences of the matching key phrase in the first sentence by a first coefficient based on the length of the first sentence, and the number of occurrences of the matching key phrase in the second sentence. Calculate the number of occurrences as the second index value based on a value normalized by a second coefficient based on the length of the second sentence;
The similarity determination device according to any one of claims 2 to 4.
請求項1から5のうちいずれか1項に記載の類似度判定装置。 Further comprising a display control unit for displaying a graph representing a similarity degree of appearance between the first sentence and the second sentence of the key phrase acquired by the key phrase acquisition unit, on the terminal device comprising the display unit. ,
The similarity determination device according to any one of claims 1 to 5.
前記類似度判定装置の前記類似度算出部により算出された前記総合類似度を表示する端末装置と、を備える、
類似度判定システム。 a similarity determination device according to any one of claims 1 to 6;
A terminal device that displays the total similarity calculated by the similarity calculation unit of the similarity determination device,
Similarity determination system.
解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得し、
前記第1文章と前記第2文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得し、
前記第1文章と前記第2文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出する、
類似度判定方法。 the computer
Obtaining a sentence vector, which is a feature vector for each sentence obtained by decomposing the first sentence, which is the original sentence to be analyzed, and the second sentence, which is the sentence to be compared, and
Obtaining key phrases, which are important elements constituting a sentence, from each of the first sentence and the second sentence,
With respect to the first sentence and the second sentence, a total similarity between the first sentence and the second sentence is calculated based on the similarity between the sentence vectors and the similarity of appearance of the same key phrase. do,
Similarity determination method.
解析元の文章である第1文章と、比較対象の文章である第2文章のそれぞれを分解した文ごとの特徴ベクトルである文ベクトルを取得させ、
前記第1文章と前記第2文章のそれぞれから、文章を構成する重要な要素であるキーフレーズを取得させ、
前記第1文章と前記第2文章に関して、前記文ベクトル同士の類似度と、同じ前記キーフレーズの出現度合の類似度とに基づいて、前記第1文章と前記第2文章の総合類似度を算出させる、
プログラム。 to the computer,
Acquire a sentence vector, which is a feature vector for each sentence obtained by decomposing the first sentence, which is the sentence to be analyzed, and the second sentence, which is the sentence to be compared,
Acquiring key phrases, which are important elements constituting a sentence, from each of the first sentence and the second sentence;
With respect to the first sentence and the second sentence, a total similarity between the first sentence and the second sentence is calculated based on the similarity between the sentence vectors and the similarity of appearance of the same key phrase. let
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021131400A JP7138981B1 (en) | 2021-08-11 | 2021-08-11 | Similarity determination device, similarity determination system, similarity determination method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021131400A JP7138981B1 (en) | 2021-08-11 | 2021-08-11 | Similarity determination device, similarity determination system, similarity determination method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7138981B1 JP7138981B1 (en) | 2022-09-20 |
JP2023025933A true JP2023025933A (en) | 2023-02-24 |
Family
ID=83322633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021131400A Active JP7138981B1 (en) | 2021-08-11 | 2021-08-11 | Similarity determination device, similarity determination system, similarity determination method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7138981B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7572092B1 (en) | 2023-04-28 | 2024-10-23 | Croco株式会社 | Text generation device, text generation system, text generation method, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222193A (en) * | 2001-01-24 | 2002-08-09 | Kddi Corp | Automatic information filtering method, automatic information filtering system, and automatic information filtering program |
JP2003256441A (en) * | 2002-03-01 | 2003-09-12 | Hewlett Packard Co <Hp> | Document classification method and apparatus |
JP2019109654A (en) * | 2017-12-18 | 2019-07-04 | ヤフー株式会社 | Similar text extraction device, automatic response system, similar text extraction method, and program |
US20210124802A1 (en) * | 2019-10-29 | 2021-04-29 | International Business Machines Corporation | Natural language polishing using vector spaces having relative similarity vectors |
CN113032557A (en) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | Microblog hot topic discovery method based on frequent word set and BERT semantics |
-
2021
- 2021-08-11 JP JP2021131400A patent/JP7138981B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222193A (en) * | 2001-01-24 | 2002-08-09 | Kddi Corp | Automatic information filtering method, automatic information filtering system, and automatic information filtering program |
JP2003256441A (en) * | 2002-03-01 | 2003-09-12 | Hewlett Packard Co <Hp> | Document classification method and apparatus |
JP2019109654A (en) * | 2017-12-18 | 2019-07-04 | ヤフー株式会社 | Similar text extraction device, automatic response system, similar text extraction method, and program |
US20210124802A1 (en) * | 2019-10-29 | 2021-04-29 | International Business Machines Corporation | Natural language polishing using vector spaces having relative similarity vectors |
CN113032557A (en) * | 2021-02-09 | 2021-06-25 | 北京工业大学 | Microblog hot topic discovery method based on frequent word set and BERT semantics |
Non-Patent Citations (2)
Title |
---|
▲高▼橋 和生: "技術用語の類似度を用いた研究室配属支援システムの検討", 電子情報通信学会技術研究報告, vol. 第115巻 第410号, JPN6018039439, 14 January 2016 (2016-01-14), JP, pages 47 - 51, ISSN: 0004854993 * |
小野 大樹、外5名: "テキストマイニングによる退院サマリー自動分類の試み", 医療情報学, vol. 第24巻,第1号, JPN6022034726, 1 April 2004 (2004-04-01), JP, pages 35 - 44, ISSN: 0004854994 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7572092B1 (en) | 2023-04-28 | 2024-10-23 | Croco株式会社 | Text generation device, text generation system, text generation method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP7138981B1 (en) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12032905B2 (en) | Methods and systems for summarization of multiple documents using a machine learning approach | |
US20240028651A1 (en) | System and method for processing documents | |
US11200259B2 (en) | System and method for processing contract documents | |
CN107491531B (en) | Chinese network comment sensibility classification method based on integrated study frame | |
Zhang | Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation | |
US10095782B2 (en) | Summarization of short comments | |
Zhang et al. | Combining sentiment analysis with a fuzzy kano model for product aspect preference recommendation | |
CN111078842A (en) | Method, device, server and storage medium for determining query result | |
JPWO2014002775A1 (en) | Synonym extraction system, method and recording medium | |
Qian et al. | Detecting new Chinese words from massive domain texts with word embedding | |
CN116848490A (en) | Document analysis using model intersection | |
CN114255096A (en) | Data requirement matching method and device, electronic equipment and storage medium | |
Wang et al. | Customer-driven product design selection using web based user-generated content | |
Yan et al. | Tibetan sentence sentiment analysis based on the maximum entropy model | |
JP7138981B1 (en) | Similarity determination device, similarity determination system, similarity determination method, and program | |
CN116127367A (en) | Method and device for auditing service evaluation and computer readable storage medium | |
Bilan et al. | CAPS: A Cross-genre Author Profiling System. | |
Vuković et al. | Degrees of non-standardness: Feature-based analysis of variation in a Torlak dialect corpus | |
Abudureheman | Design of a User Comment Management System Based on Text Mining: Innovative Organization Management for E-Commerce | |
CN116933130A (en) | Enterprise industry classification method, system, equipment and medium based on big data | |
CN111144122A (en) | Evaluation processing method, evaluation processing device, computer system, and medium | |
JP6026036B1 (en) | DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM | |
CN115659967A (en) | Operational research optimization method, operational research optimization device, electronic equipment and storage medium | |
Jadon et al. | Sentiment analysis for movies prediction using machine leaning techniques | |
JP2015203960A (en) | partial information extraction system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210819 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220128 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220705 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220705 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220713 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7138981 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |