[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2013149061A - 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム - Google Patents

文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム Download PDF

Info

Publication number
JP2013149061A
JP2013149061A JP2012008691A JP2012008691A JP2013149061A JP 2013149061 A JP2013149061 A JP 2013149061A JP 2012008691 A JP2012008691 A JP 2012008691A JP 2012008691 A JP2012008691 A JP 2012008691A JP 2013149061 A JP2013149061 A JP 2013149061A
Authority
JP
Japan
Prior art keywords
segment
similarity
ntc
ncc
similarity index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012008691A
Other languages
English (en)
Inventor
Wenqi Zhou
文▲キ▼ 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012008691A priority Critical patent/JP2013149061A/ja
Priority to US13/672,794 priority patent/US9235624B2/en
Priority to CN201210528898.0A priority patent/CN103218388B/zh
Publication of JP2013149061A publication Critical patent/JP2013149061A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】少なくとも2種類の文書において、類似性の高い部分に関する集散の度合いを評価することが可能な、文書類似性評価システム等を提供する。
【解決手段】文書類似性評価システムであって、第1のセグメント列と第2のセグメント列との間で同一セグメントを探索し、探索した結果得られた前記同一セグメントの個数を数えるとともに、前記同一セグメントが出現する出現範囲を特定するセグメント探索部と、前記セグメント探索部が特定した前記出現範囲に含まれるセグメントの文字数の合計である第1合計値NTCと、前記同一セグメントに含まれるセグメントの文字数の合計である第2合計値NCCとを計算し、類似性指標=F(NTC)÷G(NCC)×NS(ただし、関数F、関数Gは、ある整数値と正の実数値とを対応させる単調増加関数)に従って、第1、第2のセグメント列間における類似性指標を計算する、類似性指標計算部とを備える。
【選択図】図1

Description

本発明は、文書の類似性を評価する情報処理の技術分野に関する。
異なる文書の類似性を評価する手法は、学術論文の類似性評価や、企業文書の類似性検出において、広く使われている。特許文献1乃至3は、文書の類似性評価システムを開示する。
特許文献1乃至2に開示された文書類似性判定システムは、まず、文書全体をページ単位、もしくは特定の文字列が出現する場所で区切り(以降、区切られた1単位をセグメントと呼ぶ)、各セグメントに対して固有の値を計算する。異なる文書の類似性は、その文書におけるセグメントを、前から順に比較していき、固有の値が一致したセグメント数に基づいて判定する。判定の結果、一致するセグメント数が多ければ、それらの文書の類似性は高く、逆に、一致するセグメント数が少なければ、それらの文書の類似性は低い。
特許文献3に開示された文書類似性判定システムは、文書中に存在する図や式を文章と切り分け、切り分けられた図や式の配置に対して密集度を定義し、その密集度を類似性の判定のための指標としている。
特開2008―257444号公報 特開2010―256951号公報 WO2009/048149号公報
上述した特許文献おける文書類似性判定システムは、文書全体の類似性を評価することができる。しかしながら、これらの文書類似性判定システムは、類似性の高い部分が、ある段落に集中しているのか、あるいは文書全体に散在しているのかを、評価することができない。
本発明に係る文書類似性評価システムは、以下の構成を備えることを特徴とする。
即ち、本発明に係る文書類似性評価システムは、
第1のセグメント列と第2のセグメント列との間で同一セグメントを探索し、探索した結果得られた前記同一セグメントの個数を数えるとともに、前記同一セグメントが出現する出現範囲を特定するセグメント探索部と、
前記セグメント探索部が特定した前記出現範囲に含まれるセグメントの文字数の合計である第1合計値を計算するとともに、前記同一セグメントに含まれるセグメントの文字数の合計である第2合計値を計算し、以下の式
類似性指標=F(NTC)÷G(NCC)×NS、
(ただし、前記式において、
NTCは、前記第1合計値、
NCCは、前記第2合計値、
NSは、前記同一セグメントの個数、そして、
関数F、関数Gは、ある整数値と正の実数値とを対応させる単調増加関数である)、
に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を計算する類似性指標計算部とを備える
ことを特徴とする。
また、本発明の他の見地として、本発明に係る文書類似性評価方法は、
第1のセグメント列と第2のセグメント列との間で同一セグメントを探索し、探索した結果得られた前記同一セグメントの個数を数えるとともに、前記同一セグメントが出現する出現範囲を特定し、前記出現範囲に含まれるセグメントの文字数の合計である第1合計値を計算するとともに、前記同一セグメントに含まれるセグメントの文字数の合計である第2合計値を計算し、以下の式
類似性指標=F(NTC)÷G(NCC)×NS、
(ただし、前記式において、
NTCは、前記第1合計値、
NCCは、前記第2合計値、
NSは、前記同一セグメントの個数、そして
関数F、関数Gは、ある整数値と正の実数値とを対応させる単調増加関数である)、
に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を計算することを特徴とする。
また、同目的は、上記構成を有する文書類似性評価システムを、並びに対応する方法を、コンピュータを使って実現するコンピュータ・プログラム、及びそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体を使っても達成される。
本発明によれば、少なくとも2種類の文書の類似性において、類似性の高い部分を判定することが可能になる。
次に、本発明の実施の形態について、図面を参照して詳細に説明する。
以下の説明において、セグメントは、文書全体をある単位、例えば、ページ単位あるいは特定の文字列が出現する場所の単位など、にて区切り、その結果出力として得られる区切られた1単位を表している。また、固有の値は、ハッシュ値、CRC値あるいはサムチェック値など、ある特定の文字列を数値に変換したときに得られる値を表している。セグメントに区切る方法、あるいは固有の値を計算する方法には、さまざまな方法が既に存在しているため、個々の方法についての説明は省略する。上記セグメントに区切る方法、あるいは上記固有の値を計算する方法は、ここに例示した方法に限られるものではない。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る文書類似性評価システムの構成を示す図である。
図1を参照すると、本実施形態に係る文書類似性評価システム101は、セグメント探索部102と類似性指標計算部103とを備える。
以下では、文書Aと文書Bの類似性を計算する場合について、説明をする。セグメント探索部102は、文書Aを表しているセグメントの固有の値を並べた列1(以降、「セグメント列1」)と、文書Bを表しているセグメントの固有の値を並べた列2(以降、「セグメント列2」)を、入力として受け取る。セグメント探索部102は、セグメント列1とセグメント列2との間で、セグメントに割り当てられた固有の値が同一のセグメント(以降、「同一セグメント」と記述する)を、評価対象である当該文書の前あるいは後から順に探索する。次にセグメント探索部102は、探索した結果得られた同一セグメントの個数(以降、NSと記述する)を数えるとともに、セグメント列2において、同一セグメントが出現する最初の位置と最後の位置(以降、最初と最後の間に存在するすべてのセグメントを、「出現範囲」と記述する。出現範囲は、最初と最後のセグメントの少なくとも一方を含んでいればよい。)を特定する。
次に、類似性指標計算部103は、入力として受け取ったセグメント列2と、上記出現範囲と、入力された文字数テーブルとを受け取る。その文字数テーブルは、セグメント列1あるいはセグメント列2に存在するセグメントと、そのセグメントに存在する文字数とを、対応付けて記憶している(図5)。例えば、図5において、A1に含まれる文字数は12文字であると記憶している。類似性指標計算部103は、セグメント探索部102が特定した出現範囲に含まれる各セグメントについて、入力された文字数テーブルから存在する文字数を読み取り、その文字数の合計(以降、NCCとする)を計算する。それとともに、類似性指標計算部103は、同一セグメントに含まれる各セグメントについて、入力された文字数テーブルから存在する文字数を読み取り、その文字数の合計(以降、NTCとする)を計算する。次に、類似性指標計算部103は以下の式に従って、類似性指標の計算を行う。
類似性指標=F(NTC)÷G(NCC)×NS・・・(式1),
ここで、関数F、関数Gは、ともに、ある整数値と正の実数値とを対応させる単調増加関数を表している。
上記文書類似性評価システムの構成の説明において、本実施形態に係る文書類似性評価システムは、セグメント列2に対して出現範囲を特定したが、セグメント列1に対して出現範囲を特定してもよい。
図2は、本発明の第1の実施形態に係る文書類似性評価システムが、実行する処理の手順を示すフローチャートを示している。次に図1、図2を参照しながら、本実施形態に係る文書類似性評価システムの動作について説明する。
セグメント探索部102は、文書Aを表したセグメント列1と文書Bを表したセグメント列2とを、入力として受け取る。セグメント探索部102は、セグメント列1とセグメント列2との間で、同一セグメントを、文書の前から順に探索する(ステップS201)。次に、セグメント探索部102は、ステップS201の探索の結果得られた同一セグメントの個数を数えるとともに(ステップS202)、セグメント列2において、出現範囲を特定する(ステップS203)。
次に、類似性指標計算部103は、入力されたセグメント列2と、上記出現範囲と、入力された文字数テーブルとを受け取る。類似性指標計算部103は、セグメント探索部102が特定した出現範囲に含まれる各セグメントについて、入力された文字数テーブルから存在する文字数を読み取り、それらの合計値たるNCCを計算する。類似性指標計算部103は、次に、同一セグメントに含まれる各セグメントについて、入力された文字数テーブルから存在する文字数を読み取り、その文字数の合計たるNTCを計算する(ステップS204)。次に、類似性指標計算部103は式1に従って、類似性指標の計算する(ステップS205)。
上記処理の手順の説明において、本実施形態に係る文書類似性評価システムは、セグメント列2に対して出現範囲を特定したが、セグメント列1に対して出現範囲を特定してもよい。
特許文献1における文書類似性判定システムは、類似性指標としてNSを採用しているのに対して、本実施形態に係る文書類似性評価システムは、関数F(NTC)と関数G(NCC)との比をNSに掛け合わせた値を採用している。関数F、関数Gは、ともに、ある整数値と正の実数値とを対応させる単調増加関数であるため、同一のセグメントが密集して出現する場合、F(NTC)÷G(NCC)の値は大きくなり、逆に散在する場合、F(NTC)÷G(NCC)の値は小さくなる。そのため、特許文献1における文書類似性評価システムの類似性指標が同一の値になる場合であっても、本実施形態に係る文書類似性評価システムは、同一のセグメントの集散の度合いに応じて、異なる値をもつ可能性が高い。
図4は、本発明の第1の実施形態に係る文書類似性評価システムの処理手順を説明するための一例を示している。次に図1、図2、図4を参照しながら、本実施形態に係る文書類似性評価システムの動作について説明する。
文書A、文書B1、文書B2は、それぞれ、セグメントを表すSentenceA1(以降、「A1」と表す。以下同様に「Sentence」の部分を省略してセグメントを表す)、A2、A3、B21、B22から構成されている。つまり、文書Aは、A1、A2、A3というセグメント列、文書B1は、A1、A2というセグメント列、文書B2はA1、B21、A2、B22、A3というセグメント列から構成されている。ここで、説明を簡易化するためA1、A2、A3、B21、B22に含まれる文字数は、同一で、N文字であると仮定する。そして、類似性指標計算部103の関数F、関数Gは、入力された値をそのまま出力するとする。
文書A、文書B1を表したセグメント列が入力された場合の動作について説明する。セグメント探索部102は、文書Aを表したセグメント列と文書B1を表したセグメント列と対象として、同一セグメントを探索することにより(ステップS201)、これら2つの文書において、A1、A2が同一セグメントであることを見出す。次に、セグメント探索部102は、その同一セグメントの個数を数えることにより(ステップS202)、この場合、2であることを見出す。次にセグメント探索部102は、文書B1を表したセグメント列において、出現範囲を特定することにより(ステップS203)、この場合、A1、A2が出現範囲であると特定する。
類似性指標計算部103は、セグメント探索部102が特定した、出現範囲に含まれる各セグメントの文字数を、入力された文字数テーブルから存在する文字数を読み取りその合計を計算する。この場合、NCCの値は、2×Nとなる。次に、類似性指標計算部103は、同一セグメントに含まれる各セグメントについて、入力された文字数テーブルから存在する文字数を読み取り、その文字数の合計であるNTCを計算する(ステップS204)。この場合、NTCの値は、2×Nとなる。類似性指標計算部103は、上記式1に従い指標を計算することにより、2N÷2N×2=2という値を算出する。
次に、文書A、文書B2を表したセグメント列が入力された場合の動作について説明する。セグメント探索部102は、文書Aを表したセグメント列と文書B2を表したセグメント列と対象として、同一セグメントを探索することにより(ステップS201)、これら2つの文書において、A1、A2、A3が同一セグメントであることを見出す。次に、セグメント探索部102は、その同一セグメントの個数を数えることにより(ステップS202)、この場合、3であることを見出す。次にセグメント探索部102は、文書B2を表したセグメント列において、出現範囲を特定することにより(ステップS203)、この場合、A1、B21、A2、B22、A3が出現範囲であると特定する。
類似性指標計算部103は、セグメント探索部102が特定した、出現範囲に含まれる各セグメントの文字数を、入力された文字数テーブルから存在する文字数を読み取りその合計を計算する。この場合、NCCの値は、5×Nとなる。次に、類似性指標計算部103は、同一セグメントに含まれる各セグメントについて、入力された文字数テーブルから存在する文字数を読み取り、その文字数の合計であるNTCを計算する(ステップS204)。この場合、NTCの値は、3×Nとなる。類似性指標計算部103は、上記式1に従い指標を計算することにより、3N/5N*3=1.8という値を算出する。
本実施形態に係る文書類似性評価システムが算出した類似性指標は、文書Aと文書B1との間では2であり、文書Aと文書B2との間では1.8である。従って、求めた2つの類似性指標を比較することにより、本実施形態に係るシステムは、文書Aと類似している文書が文書B1であると算出している。
しかしながら、特許文献1における文書類似性判定システムが算出した類似性指標は、文書Aと文書B1との間では2であり、文書Aと文書B2との間では3である。従って、特許文献1における文書類似性判定システムは、文書Aと類似している文書が文書B2であると算出している。図4からわかるように、文書B1と比べ文書B2においては、同一セグメントが散在しているため、算出値が、特許文献1における文書類似性判定システムに比べて、低下している。そのため、本実施形態に係る文書類似性評価システムによれば、文書における、類似性の高い部分に関する集散の度合いを評価することが可能な指標を提供する。
上述した説明では、説明を簡略にするために、A1、A2、A3、B21、B22に含まれる文字数は、同一である仮定したが、各セグメントに含まれる文字数が互いに異なっていたとしても、本実施形態の効果は、なんら変わるものではない。同様に、類似性指標計算部103の関数F、関数Gは、入力された値をそのまま出力すると仮定したが、ある整数値と正の実数値とを対応させる単調増加関数である限りは、順序関係が逆転することはないため、本実施形態の効果は、なんら変わるものではない。
即ち、本実施形態によれば、少なくとも2種類の文書において、類似性の高い部分に関する集散の度合いを評価することが可能な文書類似性評価システムを、提供することできる。
<第2の実施形態>
次に、上述した第1の実施形態を基本とする第2の実施形態について説明する。
以下の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第1の実施形態と同様な構成についての重複する説明は省略する。
第2の実施形態に係る文書類似性評価システムについて、図1を用いて説明する。入力されたセグメント列1、セグメント列2について、類似性指標計算部103は、セグメント探索部102がNCCとNTCとを計算した後、下記式2に従って、類似性指標の計算を行う。
類似性指標=H(NTC÷NCC)×NS・・・(式2)、
ここで関数Hは、ある実数値と正の実数値とを対応させる単調増加関数を表している。
本実施形態に係る文書類似性評価システムは、H(NTC÷NCC)をNSに掛け合わせる類似性指標を採用している。関数Hは、ある実数値と正の実数値とを対応させる単調増加関数であるため、同一セグメントが密集している場合、H(NTC/NCC)の値は大きくなり、逆に散在している場合、H(NTC/NCC)の値は小さくなる。そのため、特許文献1における文書類似性判定システムの類似性指標が同一の値になる場合であっても、本実施形態に係る文書類似性評価システムは、同一のセグメントの集散度合いに応じて異なる値をもつ可能性が高い。
即ち、本実施形態によれば、少なくとも2種類の文書において、類似性の高い部分に関する集散の度合いを評価することが可能な文書類似性評価システムを、提供することできる。
<第3の実施形態>
次に、上述した第1の実施形態を基本とする第3の実施形態について説明する。
以下の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第1の実施形態と同様な構成についての重複する説明は省略する。
第3の実施形態に係る文書類似性評価システムについて、図1を用いて説明する。入力されたセグメント列1、セグメント列2について、類似性指標計算部103は、セグメント探索部102がNCCとNTCとを計算した後、下記式3に従って、類似性指標の計算を行う。
類似性指標=NTC/NCC*NS・・・(式3)
本実施形態に係る文書類似性評価システムは、NTCがNCCに占める割合をNSに掛け合わせる類似性指標を採用している。同一セグメントが密集している場合、NTC÷NCCの値は大きくなり、逆に散在している場合、NTC÷NCCの値は小さくなる。そのため、特許文献1における文書類似性判定システムの類似性指標が同一の値になる場合であっても、本実施形態に係る文書類似性評価システムは、同一のセグメントの集散度合いに応じて異なる値をもつ可能性が高い。
即ち、本実施形態によれば、少なくとも2種類の文書において、類似性の高い部分に関する集散の度合いを評価するが可能な文書類似性評価システムを、提供することできる。
(ハードウェア構成例)
次に、上述した各実施形態における文書類似性評価システムを、1つの計算処理装置(情報処理装置、コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。但し、係る文書類似性評価システムは、物理的または機能的に少なくとも2種類の計算処理装置を用いて実現してもよい。また、係る文書類似性評価システムは、専用の装置として実現してもよい。
図3は、第1乃至第3の実施形態に係る文書類似性評価システムを実現可能な計算処理装置のハードウェア構成を概略的に示す図である。計算処理装置306は、CPU(Central Processing Unit)301、メモリ302、ディスク303、出力装置304、および入力装置305を有する。
即ち、CPU301は、ディスク303が記憶しているソフトウェア・プログラム(コンピュータ・プログラム):以下、単にプログラムと称する)を、実行時にメモリ7にコピーし、演算処理を実行する。CPU301は、プログラム実行に必要なデータをメモリ302ら読み込む。表示が必要な場合には、CPU301は、出力装置304に出力結果を表示する。外部からプログラムを入力する場合、CPU301は、入力装置305からプログラムを読み取る。CPU301は、メモリ302にある文書類似性評価プログラム解釈し実行を行う。CPU301は、上述した各実施形態において参照したフローチャート(図2)、式に応じた処理を順次行う。
本発明の第1の実施形態に係る文書類似性評価システムの構成を示す図である。 本発明の第1の実施形態に係る文書類似性評価システムが、実行する処理の手順を示すフローチャートを示している。 実施形態に係る文書類似性評価システムを実現可能な計算処理装置のハードウェア構成を、概略的に示す図である。 本発明の第1の実施形態に係る文書類似性評価システムの処理手順を、説明するための一例を示す図である。 セグメントと、セグメントに存在する文字数とが対応した、文字数テーブルの一例を示す図である。
101 文書類似性評価システム
102 セグメント探索部
103 類似性指標計算部
301 CPU
302 メモリ
303 ディスク
304 出力装置
305 入力装置
306 計算処理装置

Claims (10)

  1. 第1のセグメント列と第2のセグメント列との間で同一セグメントを探索し、探索した結果得られた前記同一セグメントの個数を数えるとともに、前記同一セグメントが出現する出現範囲を特定するセグメント探索部と、
    前記セグメント探索部が特定した前記出現範囲に含まれるセグメントの文字数の合計である第1合計値を計算するとともに、前記同一セグメントに含まれるセグメントの文字数の合計である第2合計値を計算し、以下の式、
    類似性指標=F(NTC)÷G(NCC)×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、
    NSは、前記同一セグメントの個数、そして、
    関数F、関数Gは、ある整数値と正の実数値とを対応させる単調増加関数である)、
    に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を計算する類似性指標計算部とを備える
    ことを特徴とする文書類似性評価システム。
  2. 前記類似性指標計算部は、
    前記出現範囲に含まれる各セグメントと、前記セグメントに存在する文字数とが対応した文字数テーブルに基づいて、前記第1合計値と第2合計値を計算することを特徴とする請求項1に記載の文書類似性評価システム。
  3. 前記類似性指標計算部は、前記式の代わりに、以下の式、
    類似性指標=H(NTC÷NCC)×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、
    NSは、前記同一セグメントの個数、そして、
    関数Hは、ある整数値と正の実数値とを対応させる単調増加関数である)、
    に従って、前記第1のセグメント列と前記第2のセグメント列との類似性を表す類似性指標を、計算することを特徴とする、請求項1乃至2に記載の文書類似性評価システム。
  4. 前記類似性指標計算部は、前記式の代わりに、以下の式、
    類似性指標=NTC÷NCC×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、そして、
    NSは、前記同一セグメントの個数を表している)、
    に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を、計算することを特徴とする、請求項1乃至2に記載の文書類似性評価システム。
  5. 第1のセグメント列と第2のセグメント列との間で同一セグメントを探索し、探索した結果得られた前記同一セグメントの個数を数えるとともに、前記同一セグメントが出現する出現範囲を特定し、前記出現範囲に含まれるセグメントの文字数の合計である第1合計値を計算するとともに、前記同一セグメントに含まれるセグメントの文字数の合計である第2合計値を計算し、以下の式、
    類似性指標=F(NTC)÷G(NCC)×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、
    NSは、前記同一セグメントの個数、そして、
    関数F、関数Gは、ある整数値と正の実数値とを対応させる単調増加関数である)、
    に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を、計算することを特徴とする文書類似性評価方法。
  6. 前記類似性を表す類似性指標の計算は、前記式の代わりに、以下の式、
    類似性指標=H(NTC÷NCC)×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、
    NSは、前記同一セグメントの個数、そして、
    関数Hは、ある整数値と正の実数値とを対応させる単調増加関数である)、
    に従って、前記第1のセグメント列と前記第2のセグメント列との類似性を表す類似性指標を、計算することを特徴とする請求項5に記載の文書類似性評価方法。
  7. 前記類似性を表す類似性指標の計算は、前記式の代わりに、以下の式、
    類似性指標=NTC÷NCC×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、そして、
    NSは、前記同一セグメントの個数を表している)、
    に従って、前記第1のセグメント列と前記第2のセグメント列との類似性を表す類似性指標を、計算することを特徴とする請求項5に記載の文書類似性評価方法。
  8. 第1のセグメント列と第2のセグメント列との間で同一セグメントを探索し、探索した結果得られた前記同一セグメントの個数を数えるとともに、前記同一セグメントが出現する出現範囲を特定する、セグメント探索機能と、
    前記セグメント探索部が特定した前記出現範囲に含まれるセグメントの文字数の合計である第1合計値を計算するとともに、前記同一セグメントに含まれるセグメントの文字数の合計である第2合計値を計算し、以下の式、
    類似性指標=F(NTC)÷G(NCC)×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、
    NSは、前記同一セグメントの個数、そして、
    関数F、関数Gは、ある整数値と正の実数値とを対応させる単調増加関数である)、
    に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を計算する類似性指標計算機能とを、
    コンピュータに実現させることを特徴とするコンピュータ・プログラム。
  9. 前記類似性指標計算機能は、前記式の代わりに、以下の式、
    類似性指標=H(NTC÷NCC)×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、
    NSは、前記同一セグメントの個数、そして、
    関数Hは、ある整数値と正の実数値とを対応させる単調増加関数である)、
    に従って、前記第1のセグメント列と前記第2のセグメント列との類似性を表す類似性指標を計算することを、
    コンピュータに実現させることを特徴とする請求項8に記載のコンピュータ・プログラム。
  10. 前記類似性指標計算機能は、前記式の代わりに、以下の式、
    類似性指標=NTC÷NCC×NS、
    (ただし、前記式において、
    NTCは、前記第1合計値、
    NCCは、前記第2合計値、そして、
    NSは、前記同一セグメントの個数を表している)、
    に従って、第1のセグメント列と第2のセグメント列との類似性を表す類似性指標を計算することを、
    コンピュータに実現させることを特徴とする請求項8に記載のコンピュータ・プログラム。
JP2012008691A 2012-01-19 2012-01-19 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム Pending JP2013149061A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012008691A JP2013149061A (ja) 2012-01-19 2012-01-19 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
US13/672,794 US9235624B2 (en) 2012-01-19 2012-11-09 Document similarity evaluation system, document similarity evaluation method, and computer program
CN201210528898.0A CN103218388B (zh) 2012-01-19 2012-12-10 文档相似性评价系统、文档相似性评价方法以及计算机程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012008691A JP2013149061A (ja) 2012-01-19 2012-01-19 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2013149061A true JP2013149061A (ja) 2013-08-01

Family

ID=48798108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012008691A Pending JP2013149061A (ja) 2012-01-19 2012-01-19 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム

Country Status (3)

Country Link
US (1) US9235624B2 (ja)
JP (1) JP2013149061A (ja)
CN (1) CN103218388B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609342A (zh) * 2021-08-19 2021-11-05 白杰 数据存储方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410130B2 (en) 2017-12-27 2022-08-09 International Business Machines Corporation Creating and using triplet representations to assess similarity between job description documents
CN108170684B (zh) * 2018-01-22 2020-06-05 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品
US11222054B2 (en) 2018-03-12 2022-01-11 International Business Machines Corporation Low-complexity methods for assessing distances between pairs of documents
US11144337B2 (en) * 2018-11-06 2021-10-12 International Business Machines Corporation Implementing interface for rapid ground truth binning
US12124798B2 (en) * 2021-08-30 2024-10-22 Kyocera Document Solutions Inc. Method and system for obtaining similarity rates between electronic documents

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5926812A (en) * 1996-06-20 1999-07-20 Mantra Technologies, Inc. Document extraction and comparison method with applications to automatic personalized database searching
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
US6493709B1 (en) * 1998-07-31 2002-12-10 The Regents Of The University Of California Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
US6978419B1 (en) * 2000-11-15 2005-12-20 Justsystem Corporation Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US7260773B2 (en) * 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
WO2004049240A1 (en) * 2002-11-28 2004-06-10 Nokia Corporation Method and device for determining and outputting the similarity between two data strings
JP4238616B2 (ja) * 2003-03-28 2009-03-18 株式会社日立製作所 類似文書検索方法および類似文書検索装置
JP4366119B2 (ja) * 2003-05-29 2009-11-18 キヤノン株式会社 文書処理装置
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
DE102005051617B4 (de) * 2005-10-27 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
US8316292B1 (en) * 2005-11-18 2012-11-20 Google Inc. Identifying multiple versions of documents
EP1973045A1 (en) * 2007-03-20 2008-09-24 British Telecommunications Public Limited Company Organising and storing documents
JP2008257444A (ja) 2007-04-04 2008-10-23 Nec Corp 類似ファイル管理装置、その方法及びそのプログラム
WO2009048149A1 (ja) 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
US8140526B1 (en) * 2009-03-16 2012-03-20 Guangsheng Zhang System and methods for ranking documents based on content characteristics
JP5291523B2 (ja) 2009-04-21 2013-09-18 株式会社データ変換研究所 類似データ検索装置及びそのプログラム
US8874663B2 (en) * 2009-08-28 2014-10-28 Facebook, Inc. Comparing similarity between documents for filtering unwanted documents
CN102193928B (zh) * 2010-03-08 2013-04-03 三星电子(中国)研发中心 基于多层文本分类器的轻量级本体匹配方法
JP5467643B2 (ja) * 2010-04-28 2014-04-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書の類似度を判定する方法、装置及びプログラム。
US8478740B2 (en) * 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609342A (zh) * 2021-08-19 2021-11-05 白杰 数据存储方法

Also Published As

Publication number Publication date
CN103218388B (zh) 2017-06-27
CN103218388A (zh) 2013-07-24
US9235624B2 (en) 2016-01-12
US20130191410A1 (en) 2013-07-25

Similar Documents

Publication Publication Date Title
JP5716554B2 (ja) 検索プログラム、検索方法、検索装置、およびノード
US20100313258A1 (en) Identifying synonyms of entities using a document collection
WO2021169186A1 (zh) 文本查重方法、电子设备及计算机可读存储介质
JP2013149061A (ja) 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
JP6665784B2 (ja) ログ分析システム、ログ分析方法およびログ分析プログラム
WO2013143141A1 (en) Tag refinement strategies for social tagging systems
EP2588973A2 (en) Method and system for using an information system
CN107506618B (zh) 高通量测序序列的存储方法和查询方法
CN110945559B (zh) 用于时间事件数据序列的优化视觉概要的方法和系统
US20140082755A1 (en) Detection and handling of aggregated online content using decision criteria to compare similar or identical content items
US20180137387A1 (en) Systems and Methods for Aligning Sequences to Graph References
WO2015195726A1 (en) Efficient storage of related sparse data in a search index
JP6428615B2 (ja) 多次元範囲検索装置及び多次元範囲検索方法
JP5532189B2 (ja) ルール発見システムと方法と装置並びにプログラム
JP5398663B2 (ja) データ処理装置及びデータ処理方法及びプログラム
CN104199924B (zh) 选择具有快照关系的网络表格的方法及装置
WO2017065891A1 (en) Automated join detection
JP5664467B2 (ja) 検索プログラム、検索方法、検索装置、およびノード
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
CN102456073A (zh) 一种部分最值查询方法
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
JPWO2018012413A1 (ja) 類似データ検索装置、類似データ検索方法および記録媒体
JP5417359B2 (ja) 文書評価支援システム、及び文書評価支援方法
JP5585489B2 (ja) 検索支援装置、プログラム及び方法