JP2010182238A - Citation detection device, device and method for creating original document database, program and recording medium - Google Patents
Citation detection device, device and method for creating original document database, program and recording medium Download PDFInfo
- Publication number
- JP2010182238A JP2010182238A JP2009027288A JP2009027288A JP2010182238A JP 2010182238 A JP2010182238 A JP 2010182238A JP 2009027288 A JP2009027288 A JP 2009027288A JP 2009027288 A JP2009027288 A JP 2009027288A JP 2010182238 A JP2010182238 A JP 2010182238A
- Authority
- JP
- Japan
- Prior art keywords
- document
- digest
- citation
- segment
- partial character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、ブログ等の任意の文書中に、ニュース、プレスリリース、Wikipedia等の他の文書からの引用が含まれているかどうかを検出する技術に関するものである。ここで、引用とは、他の文書内の文であって文字列の改変が無い連続した2つ以上の文と定義するものとする。 The present invention relates to a technique for detecting whether an arbitrary document such as a blog includes a quote from another document such as news, a press release, or Wikipedia. Here, citation is defined as two or more consecutive sentences that are sentences in other documents and that have no character string modification.
従来のこの種の技術としては、以下の二つがあった。 There are the following two conventional techniques of this type.
・DP(Dynamic Programming)マッチング(従来技術1)
DPマッチングでは、比較すべき2つの文字列を逐次照合しながら当該2つの文字列間の差分を計算して、2つの文書間の類似度を推定する(例えば、非特許文献1参照)。
・ DP (Dynamic Programming) matching (prior art 1)
In DP matching, the difference between the two character strings is calculated while sequentially comparing the two character strings to be compared, and the similarity between the two documents is estimated (for example, see Non-Patent Document 1).
・Simhash(従来技術2)
Simhashでは、文書をベクトル表現し、ランダムに定義された超平面のどちら側にあるかを判別することにより特殊なハッシュ値(simhash)を得て、各文書のsimhash値を比較することで、2つの文書間の類似度を推定する。この際、各文書のSimhash間のハミング距離が文書ベクトル間のコサイン距離の近似値になる性質がある(例えば、非特許文献2参照)。
・ Simhash (Prior Art 2)
In Simhash, a special hash value (simhash) is obtained by vector-expressing a document and determining which side of the hyperplane is defined at random, and by comparing the Simhash values of each document, 2 Estimate the similarity between two documents. At this time, the Hamming distance between Simhashes of each document has a property that becomes an approximate value of the cosine distance between document vectors (see, for example, Non-Patent Document 2).
しかし、前述した従来技術には、以下のような3つの課題があった。 However, the prior art described above has the following three problems.
即ち、従来技術1では、総当たりでマッチングを行う必要があるため、計算量が多くなり、大規模化に向かなかった(課題1)。
That is, in the
また、従来技術2は、大規模化に向いているが、文書全体に対する引用の割合が小さいと検出できなかった。例えば、図1(a)に示す例のように、引用元文書と引用先文書との間の共通部分の割合が少ないと類似度が低下するため、引用を検出できなかった(課題2)。
さらにまた、従来技術2では、単語の出現順序を考慮することなく、2つの文書間の類似度を推定するため、引用を正確に検出することができなかった。例えば、図1(b)に示す例のように、引用関係にない2つの文書間でも、単語同士の共通割合が高いと類似度が高くなり、誤って判定してしまうことがあった(課題3)。
Furthermore, in the
本発明では、他の文書、即ち引用元の候補となる文書の集合である原典文書集合中の文書を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約(例えば公知のフィンガープリント)を生成し、各要約を前記部分文字列の出現順に並べた前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録してなる原典文書データベース(DB)を用意し、一方、入力文書(対象文書)を前記同様のダイジェストに変換し、この入力文書のダイジェストをキーとして原典文書DBを前方最長一致で検索し、この際、連続して一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力することを特徴とする。 In the present invention, another document, that is, a document in a source document set, which is a set of documents that are candidates for citation sources, is divided into partial character strings that can serve as citation units, and a summary of the partial character strings (for example, known fingers) is divided. The original document database in which digests of the documents in which the summaries are arranged in the order of appearance of the partial character strings are registered together with the document IDs in a format that allows a longest forward matching search for each partial character string ( DB) is prepared, and on the other hand, the input document (target document) is converted into a digest similar to the above, and the source document DB is searched with the longest forward match using the digest of this input document as a key. If there is another document whose number of summaries exceeds a predetermined threshold, the document ID is output.
本発明によれば、他の文書のダイジェストを前方最長一致検索可能な形式にてその文書IDとともに登録した原典文書DBを用いるとともに、入力文書をダイジェストに変換し、ダイジェスト同士を比較して引用が含まれるか否かを判定するため、計算量を少なくすることができるとともに、メモリ使用量、ディスク使用量を削減することができるため、大規模化が可能となる。 According to the present invention, a source document DB in which a digest of another document is registered together with its document ID in a format that can be searched for the longest forward match is used, the input document is converted into a digest, and the digests are compared with each other for citation. Since it is determined whether or not it is included, the amount of calculation can be reduced, and the memory usage and disk usage can be reduced, so that the scale can be increased.
また、ダイジェスト同士の一致する要約の数、即ち一致するダイジェストの長さによって引用か否かを判定するため、文書全体に対する引用の割合の大小にかかわらず、引用を検出可能となる。 In addition, since it is determined whether or not the citation is based on the number of digests that match the digests, that is, the length of the matched digests, the citation can be detected regardless of the ratio of the citation to the entire document.
さらにまた、引用の単位となり得る部分文字列の出現順を保存したまま、ダイジェストの一致する長さで判定するため、文書全体における類似度の高低にかかわらず、引用のみを正しく検出可能となる。 Furthermore, since the order of appearance of the partial character strings that can be a citation unit is preserved and the determination is made based on the matching length of the digests, only the citation can be correctly detected regardless of the level of similarity in the entire document.
本発明において、引用検出を行うには、事前に原典文書DBを作成しておく必要があるため、まず、原典文書集合から原典文書DBを生成する原典文書データベース生成装置について説明し、その次に、原典文書DBに基づいて入力文書中に引用が含まれているかどうかを判定する引用検出装置について説明する。 In the present invention, in order to perform citation detection, it is necessary to create a source document DB in advance. First, a source document database generation device that generates a source document DB from a source document set will be described, and then A citation detection apparatus that determines whether a citation is included in an input document based on the original document DB will be described.
<原典文書データベース生成装置>
図2は本発明の原典文書データベース生成装置の実施の形態の一例を示すもので、図中、1は原典文書集合、2はダイジェスト生成手段、3は原典文書DB生成手段、4は原典文書DBである。
<Original document database generator>
FIG. 2 shows an example of an embodiment of a source document database generation apparatus according to the present invention. In the figure, 1 is a source document set, 2 is a digest generation unit, 3 is a source document DB generation unit, and 4 is a source document DB. It is.
原典文書集合1は、引用元の候補となる文書、例えば各種ニュースサイト、プレスリリース、Wikipedia等の文書の集合からなるもので、各文書には予め固有の文書IDが付されているものとする。
The
ダイジェスト生成手段2は、原典文書集合1中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約、ここではフィンガープリントをそれぞれ生成し、各フィンガープリントを前記部分文字列の出現順に並べて構成した前記文書のダイジェストをその文書IDとともに原典文書DB生成手段3へ出力する。
For each document in the original document set 1, the digest generation means 2 divides the document character string into partial character strings that can serve as citation units, generates a summary of the partial character string, here a fingerprint, The digest of the document in which the fingerprints are arranged in the order of appearance of the partial character strings is output to the original document
図3はダイジェスト生成手段2の詳細構成を示すもので、セグメンテーション部21、正規化部22、足切り部23及びフィンガープリント生成部24からなっている。また、図4はダイジェスト生成手段2における処理の流れを示すものである。
FIG. 3 shows a detailed configuration of the digest generation means 2, which includes a
セグメンテーション部21は、入力された文書(テキスト)の文字列を任意のセパレータで区切ることによって引用の単位となり得る部分文字列(以下、セグメント)に分割し、各セグメントをその出現順の情報、ここでは各セグメントの開始位置及び終了位置、並びに前記文書の文書IDとともに正規化部22へ出力する。なお、セパレータとしては、文の区切り位置に現れる頻度の高い任意の文字、記号、これらの組合せ(パターン)、制御文字、タグ等が考えられる。また、開始位置及び終了位置としては、文書の文頭からの文字位置等が考えられる。
The
正規化部22は、セグメンテーション部21から入力された各セグメントを正規化し、正規化後の各セグメントをその開始位置及び終了位置、並びに文書IDとともに足切り部23へ出力する。ここで、正規化としては、具体的には、アルファベットの大文字小文字の正規化、全角半角文字の正規化、記号の除去、HTMLやXML等のタグの除去等が考えられるが、任意に設定可能である。
The
足切り部23は、正規化部22から入力された正規化後の各セグメントのうち、一定の長さ(length)以下のセグメントを削除し、残りの正規化後の各セグメントをその開始位置及び終了位置、並びに文書IDとともにフィンガープリント生成部24へ出力する。なお、前記一定の長さ(length)の単位としては文字、バイト(byte)、ビット(bit)等が考えられ、その値は任意に変更可能である。
The cut-off
フィンガープリント生成部24は、足切り部23から入力された残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの開始位置及び終了位置に従って並べて構成した前記文書のダイジェスト(フィンガープリント列)を各セグメントの開始位置及び終了位置、並びに文書IDとともに出力する。
The
原典文書DB生成手段3は、ダイジェスト生成手段2から入力された原典文書集合1中の各文書に対応するダイジェストについて、前記セグメント毎に前方最長一致検索可能な形式でその文書IDとともに登録して原典文書DB4を生成する。図5は原典文書DB生成手段3における処理の流れを示すものである。
The source document
ここで、前方最長一致検索可能なデータベースの形式として、どのようなものを用いても良いが、一例として(後述する)公知のSuffix Arrayを用いることができる。 Here, any database format that can be searched for the longest forward match can be used, but a known Suffix Array (described later) can be used as an example.
原典文書DB4は、原典文書集合1からダイジェスト生成手段2及び原典文書DB生成手段3によって生成されたデータベース、即ち原典文書集合1中の各文書について、文書の文字列を引用の単位となり得るセグメントに分割し、当該セグメントのフィンガープリントをそれぞれ生成し、各フィンガープリントを前記セグメントの出現順に並べて構成した前記文書のダイジェストを、前記セグメント毎に前方最長一致検索可能な形式でその文書IDとともに登録してなるデータベースである。
The
図6は本発明の引用検出装置の実施の形態の一例を示すもので、図中、4は原典文書DB、5はダイジェスト生成手段、6は引用検出手段である。 FIG. 6 shows an example of an embodiment of the citation detection apparatus of the present invention. In the figure, 4 is an original document DB, 5 is a digest generation means, and 6 is a citation detection means.
ダイジェスト生成手段5は、処理対象が入力文書(引用検出対象文書)となる点を除き前述した原典文書データベース生成装置のダイジェスト生成手段2と同一であり、入力文書の文字列を引用の単位となり得るセグメントに分割し、当該セグメントのフィンガープリントをそれぞれ生成し、各フィンガープリントを前記セグメントの開始位置及び終了位置に従って並べて構成した前記入力文書のダイジェストを各セグメントの開始位置及び終了位置、並びにその文書IDとともに引用検出手段6へ出力する。 The digest generation means 5 is the same as the digest generation means 2 of the original document database generation apparatus described above except that the processing target is an input document (quotation detection target document), and the character string of the input document can be a citation unit. Divide into segments, generate fingerprints of the segments, and arrange the digests of the input documents according to the start position and end position of the segments. At the same time, it is output to the citation detection means 6.
引用検出手段6は、ダイジェスト生成手段5から入力された入力文書のダイジェストをキーとして原典文書DB4を前方最長一致で検索し、一致するフィンガープリントの数が所定の閾値以上の他の文書があればその文書ID(引用元文書ID)を、引用開始位置及び引用終了位置とともに出力する。
The
ここで、引用開始位置及び引用終了位置とは、図7に示すように、対象文書(入力文書)中の引用元文書からの引用部分の先頭位置及び終了位置をそれぞれ表すものとする。 Here, as shown in FIG. 7, the citation start position and the citation end position represent the start position and the end position of the citation portion from the citation source document in the target document (input document), respectively.
図8は引用検出手段6における処理の流れを示すもので、以下、詳細に説明する。 FIG. 8 shows the flow of processing in the citation detection means 6, which will be described in detail below.
ステップ1:一致するフィンガープリント数の最小値として予め定義された値minを所定の閾値Minに代入し、ステップ2に移る。
Step 1: A value min defined in advance as the minimum value of the number of matching fingerprints is substituted into a predetermined threshold value Min, and the process proceeds to
ステップ2:ダイジェスト生成手段5から入力された入力文書のダイジェストの末尾まで探索済みであれば終了し、探索済みでなければステップ3に移る。
Step 2: If the search has been completed up to the end of the digest of the input document input from the digest generation means 5, the process ends. If not, the process proceeds to
ステップ3:入力文書のダイジェストをキーとして原典文書DB4から前方最長一致のエントリを検索し、ステップ4に移る。
Step 3: Using the digest of the input document as a key, search the
ステップ4:一致したフィンガープリント数が所定の閾値Min以上のエントリが検索された場合は引用であるとみなしてステップ5に移り、閾値未満の場合はステップ8に移る。
Step 4: If an entry with a matching fingerprint count equal to or greater than the predetermined threshold Min is found, it is regarded as citation, and the process proceeds to
ステップ5:入力文書のダイジェスト中の前記一致したフィンガープリントのうち、先頭のフィンガープリントに対応するセグメントの開始位置及び末尾のフィンガープリントに対応するセグメントの終了位置をそれぞれ引用開始位置及び引用終了位置として、一致したエントリの文書ID(引用元文書ID)とともに出力し、ステップ6に移る。
Step 5: Among the matched fingerprints in the digest of the input document, the start position of the segment corresponding to the first fingerprint and the end position of the segment corresponding to the last fingerprint are set as the citation start position and the citation end position, respectively. , Output together with the document ID (cited document ID) of the matched entry, and go to
ステップ6:Minの値をステップ4で検出した引用部分の長さ(一致したフィンガープリント数)に変更し、ステップ7に移る。
Step 6: The value of Min is changed to the length of the quoted portion detected in Step 4 (number of matched fingerprints), and the process proceeds to
ステップ7:入力文書のダイジェストを1フィンガープリントだけ末尾側へシフトし、ステップ2に戻る。 Step 7: The digest of the input document is shifted toward the end by one fingerprint, and the process returns to Step 2.
ステップ8:入力文書のダイジェストを1フィンガープリントだけ末尾側へシフトし、ステップ9に移る。 Step 8: The digest of the input document is shifted toward the end by one fingerprint, and the process proceeds to Step 9.
ステップ9:Minの値を1だけ減算(但し、Min≧min)し、ステップ2に戻る。
Step 9: Subtract 1 from the value of Min (where Min ≧ min), and return to
<Suffix Array>
Suffix Array(接尾辞配列)とは、高速な文字列検索を可能にするデータ構造であり、どんな部分文字列でも検索可能、単純な仕組みなので実装が簡単という特徴を有する。但し、事前にインデックス(suffix Array)を作成しておく必要がある。
<Suffix Array>
The Suffix Array (suffix array) is a data structure that enables high-speed character string search, and can be searched for any partial character string, and has a feature that it is easy to implement because it is a simple mechanism. However, it is necessary to create an index (suffix array) in advance.
Suffixを文字単位で構成する場合を例にとってSuffix Arrayの作成方法を説明すると、まず、文字列中の各文字に先頭から連番でインデックスポイント(Index point)を割り当て、各インデックスポイントから末尾までの文字列(Suffix)をそれぞれ作成する。そして、各Suffixを辞書順にソートし、その際のインデックスポイント列がsuffix Arrayとなる。 A method for creating a Suffix Array will be described by taking the case where the Suffix is composed of characters as an example. First, an index point is assigned to each character in the character string in order from the beginning, and from each index point to the end. Each character string (Suffix) is created. Then, each Suffix is sorted in dictionary order, and the index point sequence at that time becomes a Suffix Array.
文字列が「ABABDAC」の場合、図9(a)に示すようにIndex pointが与えられ、さらに各Suffixとして「ABABDAC」,「BABDAC」,「ABDAC」,……と得られるが、これらをまとめると、図9(b)に示すようになる。そして、各Suffixを辞書順にソートすると、図9(c)に示すようになり、その結果、図9(d)に示すようなSuffix Arrayが得られる。 When the character string is “ABABDAC”, an index point is given as shown in FIG. 9A, and further, “ABABDAC”, “BABDAC”, “ABDAC”,... As shown in FIG. Then, when each Suffix is sorted in dictionary order, it becomes as shown in FIG. 9C, and as a result, a Suffix Array as shown in FIG. 9D is obtained.
図10乃至図13はダイジェスト生成手段2により原典文書集合からダイジェストを生成する際の一例、ここでは原典文書集合中の文書ID:AAAの文書「今日は、良い天気だなぁ。明日は晴れるかな?晴れるといいな。」からダイジェストを生成する例を示すものである(なお、図10乃至図13には記載の一部に重複有り。)。 FIG. 10 to FIG. 13 show an example of generating a digest from the original document set by the digest generating means 2. Here, the document with document ID: AAA in the original document set “Today is good weather. Will it clear tomorrow? An example of generating a digest from “I hope it clears” is shown (note that there are some overlaps in the descriptions in FIGS. 10 to 13).
まず、セグメンテーション部21により、“。”及び“?”をセパレータとしてセグメントに分割すると、セグメント#1「今日は、良い天気だなぁ。」、セグメント#2「明日は晴れるかな?」、セグメント#3「晴れるといいな。」に分割される。この際、各セグメント#1,#2,#3の開始位置は「1,13,22」であり、終了位置は「12,21,29」である。
First, when the
次に、正規化部22により、句読点及び記号を除去する正規化を行うと、セグメント#1「今日は良い天気だなぁ」、セグメント#2「明日は晴れるかな」、セグメント#3「晴れるといいな」となる。
Next, when
次に、足切り部23により、5文字以下のセグメントを削除するが、ここではいずれも5文字より多いため、削除されるセグメントはない。
Next, a segment of 5 characters or less is deleted by the cut-off
最後に、フィンガープリント生成部24により、任意のハッシュ関数を用いてセグメント#1,#2,#3毎にフィンガープリントを生成、ここでは4バイトのハッシュ値からなるフィンガープリント#1「a31b」、フィンガープリント#2「e2cd」、フィンガープリント#3「dfde」を生成し、これらを各セグメントの開始位置及び終了位置に従って並べてダイジェスト(フィンガープリント列)「a31be2cddfde」として、前記各セグメントの開始位置及び終了位置、並びに文書ID:AAAとともに出力する。
Finally, the
図14は原典文書DB生成手段3によりダイジェストから原典文書DBを生成する際の一例、ここではSuffixをフィンガープリント長(ここでは4byte)単位で生成する例を示すものである。 FIG. 14 shows an example of generating the original document DB from the digest by the original document DB generating means 3, here, an example in which Suffix is generated in units of fingerprint length (here, 4 bytes).
原典文書として、前述した文書ID:AAAのダイジェスト(フィンガープリント列)「a31be2cddfde」とともに、文書ID:BBBのダイジェスト「3cdfae51bdac」、文書ID:CCCのダイジェスト「12aab4ad3b42」が入力されたとすると、文書ID:AAAのダイジェストのSuffixとして「a31be2cddfde」,「e2cddfde」,「dfde」、文書ID:BBBのダイジェストのSuffixとして「3cdfae51bdac」,「ae51bdac」,「bdac」、文書ID:CCCのダイジェスト「12aab4ad3b42」のSuffixとして「12aab4ad3b42」,「b4ad3b42」,「3b42」がそれぞれ得られ、辞書順にソートされて図14の右側に示すような原典文書DBが生成される。 If the document ID: AAA digest (fingerprint string) “a31be2cddfde”, the document ID: BBB digest “3cdfae51bdac”, and the document ID: CCC digest “12aab4ad3b42” are input as the original document, the document ID: AAA digest Suffix “a31be2cddfde”, “e2cddfde”, “dfde”, document ID: BBB digest Suffix “3cdfae51bdac”, “ae51bdac”, “bdac”, document ID: Cb ab “Su” 4b "12aab4ad3b42", "b4ad3b42", and "3b42" are obtained and sorted in dictionary order. It is original text document DB such as shown on the right side of FIG. 14 is generated.
図15はダイジェスト生成手段5により入力文書からダイジェストを生成する際の一例、ここでは前記文書ID:AAAの文書を引用として含む、文書ID:JJJの入力文書「友達がこんなこと書いてた。今日は、良い天気だなぁ。明日は晴れるかな?晴れるといいな。でも、明日雨らしいよ。」からダイジェストを生成する例を示すものである。 FIG. 15 shows an example when a digest is generated from an input document by the digest generation means 5. Here, the document ID: JJJ, which includes the document ID: AAA document as a citation, is written by a friend. "It's good weather. Is it fine tomorrow? I hope it is fine. But it's raining tomorrow."
詳細は図10乃至図13に示した実施例1の場合と同様なので省略するが、最終的に、ダイジェスト(フィンガープリント列)「b4a3a31be2cddfde34a2」が、各セグメントの開始位置「1,14,26,35,43」及び終了位置「13,25,34,42,53」、並びに文書ID:JJJとともに出力される。 Details are the same as in the case of the first embodiment shown in FIGS. 10 to 13, and will be omitted. However, the digest (fingerprint sequence) “b4a3a31be2cddfde34a2” finally becomes the start position “1, 14, 26, 35 of each segment”. , 43 ”and end position“ 13, 25, 34, 42, 53 ”and document ID: JJJ.
図16は引用検出手段6により入力文書のダイジェストと原典文書DBを比較して引用を検出する際の一例、ここでは前記文書ID:JJJの入力文書のダイジェストと図14に示した原典文書DBを比較して引用を検出する例を示すものである。 FIG. 16 shows an example of detecting a citation by comparing the digest of the input document and the original document DB by the citation detection means 6, here, the digest of the input document with the document ID: JJJ and the original document DB shown in FIG. An example of detecting citations by comparison is shown.
まず、ダイジェスト「b4a3a31be2cddfde34a2」をキーとして、図14に示した原典文書DBから前方最長一致のエントリを検索するが、一致するエントリは存在しない。そこで、入力文書のダイジェストをフィンガープリント長(ここでは4byte)だけシフトして「a31be2cddfde34a2」とし、これをキーとして前記同様に図14に示した原典文書DBを検索すると、先頭から3フィンガープリント長分、原典文書DB中の文書ID:AAAのダイジェストのSuffix「a31be2cddfde」と一致する。 First, using the digest “b4a3a31be2cddfde34a2” as a key, the forward longest matching entry is searched from the original document DB shown in FIG. 14, but there is no matching entry. Therefore, when the digest of the input document is shifted by the fingerprint length (here, 4 bytes) to “a31be2cddfde34a2” and the original document DB shown in FIG. Document ID in the original document DB: Matches the suffix “A31be2cddfde” of AAA digest.
この際、Minが「2」あるいは「3」であれば、一致したフィンガープリントのうち、先頭のフィンガープリントに対応するセグメントの開始位置及び末尾のフィンガープリントに対応するセグメントの終了位置、ここでは「14」及び「42」をそれぞれ引用開始位置及び引用終了位置として、文書ID:AAAとともに出力する。 At this time, if Min is “2” or “3”, among the matched fingerprints, the start position of the segment corresponding to the first fingerprint and the end position of the segment corresponding to the last fingerprint, 14 ”and“ 42 ”are output together with the document ID: AAA as the citation start position and the citation end position, respectively.
1:原典文書集合、2,5:ダイジェスト生成手段、3:原典文書DB生成手段、4:原典文書DB、6は引用検出手段、21:セグメンテーション部、22:正規化部、23:足切り部、24:フィンガープリント生成部。 1: source document set, 2, 5: digest generation unit, 3: source document DB generation unit, 4: source document DB, 6: citation detection unit, 21: segmentation unit, 22: normalization unit, 23: cut off unit 24: Fingerprint generator.
Claims (10)
他の文書の集合である原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録した原典文書データベースと、
入力文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記入力文書のダイジェストをその文書IDとともに出力するダイジェスト生成手段と、
前記入力文書のダイジェストをキーとして原典文書データベースを前方最長一致で検索し、一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力する引用検出手段とを備えた
ことを特徴とする引用検出装置。 Detects whether the input document contains citations that are two or more consecutive sentences with no modification of the character string in the other document, and if so, outputs the document ID of the other document A device that performs
For each document in the original document set, which is a set of other documents, the document character string is divided into partial character strings that can serve as citation units, and summaries of the partial character strings are generated, respectively. A source document database in which digests of the documents arranged in the order of appearance of columns are registered together with their document IDs in a format that allows the longest forward matching search for each partial character string;
Dividing the character string of the input document into partial character strings that can be used as citation units, generating summaries of the partial character strings, and arranging the digests of the input documents configured by arranging the summaries in the order of appearance of the partial character strings. Digest generating means for outputting together with the ID;
Citation detection means for searching the original document database with the longest forward match using the digest of the input document as a key, and outputting the document ID if there is another document whose number of matching summaries exceeds a predetermined threshold A citation detector characterized by.
ダイジェスト生成手段は、
文書の文字列を引用の単位となり得るセグメントに分割し、各セグメントをその出現順の情報、前記文書の文書IDとともに出力するセグメンテーション部と、
前記各セグメントを正規化する正規化部と、
前記正規化後の各セグメントのうち、一定の長さ以下のセグメントを削除する足切り部と、
残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの出現順の情報に従って並べて構成した前記文書のダイジェストをその文書IDとともに出力するフィンガープリント生成部とからなる
ことを特徴とする引用検出装置。 The citation detection device according to claim 1,
The digest generation means
A segmentation unit that divides a character string of a document into segments that can be a unit of citation, and outputs each segment together with information on the order of appearance thereof, and a document ID of the document;
A normalization unit for normalizing each segment;
Of each segment after the normalization, a cut-off part that deletes a segment of a certain length or less,
Each remaining segment after normalization is input to an arbitrary hash function to generate a fingerprint, and a digest of the document configured by arranging each fingerprint according to the order of appearance of each segment is output together with the document ID. A citation detection device comprising:
原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストをその文書IDとともに出力するダイジェスト生成手段と、
原典文書集合中の各文書に対応するダイジェストについて、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録して原典文書データベースを生成する原典文書データベース生成手段とを備えた
ことを特徴とする原典文書データベース生成装置。 An apparatus for generating a source document database from a source document set that is a set of other documents,
For each document in the source document set, the character string of the document is divided into partial character strings that can be used as citation units, summaries of the partial character strings are generated, and the summaries are arranged in the order of appearance of the partial character strings. Digest generating means for outputting the digest of the document together with the document ID;
Source document database generation means for generating a source document database by registering the digest corresponding to each document in the source document set together with its document ID in a format that allows the longest forward matching search for each partial character string. An original document database generation device characterized by
ダイジェスト生成手段は、
原典文書集合中の各文書について、文書の文字列を引用の単位となり得るセグメントに分割し、各セグメントをその出現順の情報、前記文書の文書IDとともに出力するセグメンテーション部と、
前記各セグメントを正規化する正規化部と、
前記正規化後の各セグメントのうち、一定の長さ以下のセグメントを削除する足切り部と、
残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの出現順の情報に従って並べて構成した前記文書のダイジェストをその文書IDとともに出力するフィンガープリント生成部とからなる
ことを特徴とする原典文書データベース生成装置。 In the original document database generation device according to claim 3,
The digest generation means
For each document in the original document set, a segmentation unit that divides the character string of the document into segments that can be a citation unit, and outputs each segment together with information on its appearance order, the document ID of the document,
A normalization unit for normalizing each segment;
Of each segment after the normalization, a cut-off part that deletes a segment of a certain length or less,
Each remaining segment after normalization is input to an arbitrary hash function to generate a fingerprint, and a digest of the document configured by arranging each fingerprint according to the order of appearance of each segment is output together with the document ID. An original document database generation device comprising:
他の文書の集合である原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストを、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録した原典文書データベースを用い、
ダイジェスト生成手段が、入力文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記入力文書のダイジェストをその文書IDとともに出力するステップと、
引用検出手段が、前記入力文書のダイジェストをキーとして原典文書データベースを前方最長一致で検索し、一致する要約の数が所定の閾値以上の他の文書があればその文書IDを出力するステップとを含む
ことを特徴とする引用検出方法。 Detects whether the input document contains citations that are two or more consecutive sentences with no modification of the character string in the other document, and if so, outputs the document ID of the other document A way to
For each document in the original document set, which is a set of other documents, the document character string is divided into partial character strings that can serve as citation units, and summaries of the partial character strings are generated, respectively. Using the original document database in which the digests of the documents arranged in the order of appearance of the columns are registered together with their document IDs in a format that can be searched for the longest match for each partial character string,
The input document in which the digest generation means divides the character string of the input document into partial character strings that can be a citation unit, generates summaries of the partial character strings, and arranges the summaries in the order of appearance of the partial character strings. Outputting a digest of along with the document ID;
The citation detection means searches the original document database with the longest forward match using the digest of the input document as a key, and outputs another document ID if there is another document whose number of matching summaries exceeds a predetermined threshold value. A citation detection method characterized by including.
ダイジェスト生成ステップは、
セグメンテーション部が、文書の文字列を引用の単位となり得るセグメントに分割し、各セグメントをその出現順の情報、前記文書の文書IDとともに出力するステップと、
正規化部が、前記各セグメントを正規化するステップと、
足切り部が、前記正規化後の各セグメントのうち、一定の長さ以下のセグメントを削除するステップと、
フィンガープリント生成部が、残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの出現順の情報に従って並べて構成した前記文書のダイジェストをその文書IDとともに出力するステップとを含む
ことを特徴とする引用検出方法。 The citation detection method according to claim 5,
The digest generation step is
A segmentation unit that divides a character string of a document into segments that can serve as a citation unit, and outputs each segment together with information on the order of appearance thereof and a document ID of the document;
A normalization unit normalizing each of the segments;
A step of deleting a segment having a certain length or less from each segment after normalization,
A digest of the document in which the fingerprint generation unit generates the fingerprints by inputting the remaining normalized segments into an arbitrary hash function, and arranges the fingerprints according to the order of appearance of the segments. And a step of outputting the document ID together with the document ID.
ダイジェスト生成手段が、原典文書集合中の各文書について、文書の文字列を引用の単位となり得る部分文字列に分割し、当該部分文字列の要約をそれぞれ生成し、各要約を前記部分文字列の出現順に並べて構成した前記文書のダイジェストをその文書IDとともに出力するステップと、
原典文書データベース生成手段が、原典文書集合中の各文書に対応するダイジェストについて、前記部分文字列毎に前方最長一致検索可能な形式でその文書IDとともに登録して原典文書データベースを生成するステップとを含む
ことを特徴とする原典文書データベース生成方法。 A method for generating a source document database from a source document set that is a set of other documents,
For each document in the source document set, the digest generation means divides the document character string into partial character strings that can serve as citation units, generates summaries of the partial character strings, and each summarization of the partial character strings. Outputting a digest of the document arranged in order of appearance together with its document ID;
A source document database generating means for registering a digest corresponding to each document in the source document set together with its document ID in a format that allows a longest forward matching search for each partial character string; and generating a source document database A source document database generation method characterized by including.
ダイジェスト生成ステップは、
セグメンテーション部が、原典文書集合中の各文書について、文書の文字列を引用の単位となり得るセグメントに分割し、各セグメントをその出現順の情報、前記文書の文書IDとともに出力するステップと、
正規化部が、前記各セグメントを正規化するステップと、
足切り部が、前記正規化後の各セグメントのうち、一定の長さ以下のセグメントを削除するステップと、
フィンガープリント生成部が、残りの正規化後の各セグメントを任意のハッシュ関数に入力してフィンガープリントをそれぞれ生成し、各フィンガープリントを前記各セグメントの出現順の情報に従って並べて構成した前記文書のダイジェストをその文書IDとともに出力するステップとを含む
ことを特徴とする原典文書データベース生成方法。 The original document database generation method according to claim 7,
The digest generation step is
A segmentation unit, for each document in the source document set, divides the document character string into segments that can be a citation unit, and outputs each segment together with information on the order of appearance thereof and the document ID of the document;
A normalization unit normalizing each of the segments;
A step of deleting a segment having a certain length or less from each segment after normalization,
A digest of the document in which the fingerprint generation unit generates the fingerprints by inputting the remaining normalized segments into an arbitrary hash function, and arranges the fingerprints according to the order of appearance of the segments. And a document ID of the original document database.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009027288A JP4831787B2 (en) | 2009-02-09 | 2009-02-09 | Citation detection device, its program and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009027288A JP4831787B2 (en) | 2009-02-09 | 2009-02-09 | Citation detection device, its program and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010182238A true JP2010182238A (en) | 2010-08-19 |
JP4831787B2 JP4831787B2 (en) | 2011-12-07 |
Family
ID=42763783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009027288A Active JP4831787B2 (en) | 2009-02-09 | 2009-02-09 | Citation detection device, its program and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4831787B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012168678A (en) * | 2011-02-14 | 2012-09-06 | Nec Corp | Inter-document similarity calculation device, inter-document similarity calculation method and inter-document similarity calculation program |
JP2013142974A (en) * | 2012-01-10 | 2013-07-22 | Toshiba Corp | Difference extraction device and program |
JP2015090529A (en) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | Device and method for detecting modification in excerpted documents |
JP2016517064A (en) * | 2013-03-08 | 2016-06-09 | ビットディフェンダー アイピーアール マネジメント リミテッド | Document classification using multi-scale text fingerprinting |
EP3073390A1 (en) | 2015-03-26 | 2016-09-28 | Fujitsu Limited | Document checking device, method, and program |
US10409992B2 (en) | 2015-10-15 | 2019-09-10 | Fujitsu Limited | Investigation apparatus, computer-readable recording medium, and investigation method |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07225761A (en) * | 1994-02-08 | 1995-08-22 | Hitachi Ltd | Matching verification system for document data |
JPH08320873A (en) * | 1995-05-25 | 1996-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for automatic key word extraction |
JP2005242668A (en) * | 2004-02-26 | 2005-09-08 | Nippon Telegr & Teleph Corp <Ntt> | Pattern matching device, method, and program |
JP2005251206A (en) * | 2004-03-03 | 2005-09-15 | Microsoft Corp | Word collection method and system for use in word segmentation |
-
2009
- 2009-02-09 JP JP2009027288A patent/JP4831787B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07225761A (en) * | 1994-02-08 | 1995-08-22 | Hitachi Ltd | Matching verification system for document data |
JPH08320873A (en) * | 1995-05-25 | 1996-12-03 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for automatic key word extraction |
JP2005242668A (en) * | 2004-02-26 | 2005-09-08 | Nippon Telegr & Teleph Corp <Ntt> | Pattern matching device, method, and program |
JP2005251206A (en) * | 2004-03-03 | 2005-09-15 | Microsoft Corp | Word collection method and system for use in word segmentation |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012168678A (en) * | 2011-02-14 | 2012-09-06 | Nec Corp | Inter-document similarity calculation device, inter-document similarity calculation method and inter-document similarity calculation program |
JP2013142974A (en) * | 2012-01-10 | 2013-07-22 | Toshiba Corp | Difference extraction device and program |
JP2016517064A (en) * | 2013-03-08 | 2016-06-09 | ビットディフェンダー アイピーアール マネジメント リミテッド | Document classification using multi-scale text fingerprinting |
KR101863172B1 (en) * | 2013-03-08 | 2018-05-31 | 비트데펜더 아이피알 매니지먼트 엘티디 | Document classification using multiscale text fingerprints |
JP2015090529A (en) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | Device and method for detecting modification in excerpted documents |
EP3073390A1 (en) | 2015-03-26 | 2016-09-28 | Fujitsu Limited | Document checking device, method, and program |
US10409992B2 (en) | 2015-10-15 | 2019-09-10 | Fujitsu Limited | Investigation apparatus, computer-readable recording medium, and investigation method |
Also Published As
Publication number | Publication date |
---|---|
JP4831787B2 (en) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7805289B2 (en) | Aligning hierarchal and sequential document trees to identify parallel data | |
AU2023248112A1 (en) | Method and system for key phrase extraction and generation from text | |
CN111626048A (en) | Text error correction method, device, equipment and storage medium | |
JP4831787B2 (en) | Citation detection device, its program and recording medium | |
Singh et al. | OCR++: a robust framework for information extraction from scholarly articles | |
CN112784009B (en) | Method and device for mining subject term, electronic equipment and storage medium | |
US8583415B2 (en) | Phonetic search using normalized string | |
Liu et al. | Ranking-based name matching for author disambiguation in bibliographic data | |
Laddha et al. | Extracting aspect specific opinion expressions | |
Iurshina et al. | NILK: entity linking dataset targeting NIL-linking cases | |
US11556706B2 (en) | Effective retrieval of text data based on semantic attributes between morphemes | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
Sefid et al. | Cleaning noisy and heterogeneous metadata for record linking across scholarly big datasets | |
CN113407693B (en) | Text similarity comparison method and device for full-media reading | |
Soori et al. | Text similarity based on data compression in Arabic | |
Zou et al. | A cluster-based plagiarism detection method | |
JP5869948B2 (en) | Passage dividing method, apparatus, and program | |
KR101663038B1 (en) | Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof | |
Kim et al. | Extracting clinical relations in electronic health records using enriched parse trees | |
Celebi et al. | Segmenting hashtags using automatically created training data | |
Zhang et al. | Effective and Fast Near Duplicate Detection via Signature‐Based Compression Metrics | |
Ting et al. | Faster classification using compression analytics | |
WO2009113289A1 (en) | New case generation device, new case generation method, and new case generation program | |
Das et al. | Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models | |
Lin et al. | Measuring tree similarity for natural language processing based information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110511 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4831787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140930 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |