JP2017211784A - Summarizing device, method and program - Google Patents
Summarizing device, method and program Download PDFInfo
- Publication number
- JP2017211784A JP2017211784A JP2016103759A JP2016103759A JP2017211784A JP 2017211784 A JP2017211784 A JP 2017211784A JP 2016103759 A JP2016103759 A JP 2016103759A JP 2016103759 A JP2016103759 A JP 2016103759A JP 2017211784 A JP2017211784 A JP 2017211784A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- sentences
- sentence
- state
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、要約装置、方法、及びプログラムに関する。 The present invention relates to a summary device, a method, and a program.
文書の自動要約は、元の文書を短縮文字で示すことを目的としている。要約の主要なアプローチには、抽出法と抽象化法とがある。抽出法には、要約を生成するために、元の文書から文(あるいは文節等)を選択するものがある。また、もう一つの方法である抽象化法としては、要約として新規の文章を要約として生成する手法がある。 Automatic document summarization is intended to indicate the original document in abbreviated characters. The main approaches to summarization include extraction methods and abstraction methods. Some extraction methods select sentences (or phrases, etc.) from the original document to generate a summary. As another abstraction method, there is a method of generating a new sentence as a summary as a summary.
例えば、非特許文献1では、要約を最大ナップサック問題(MKMC)とみなしている。ここでの要約とは、可能な限り多くのコンセプトを網羅する複数文を抽出することである。なお、コンセプトとは、非機能語のことである。 For example, in Non-Patent Document 1, the summary is regarded as a maximum knapsack problem (MKMC). Summarization here means extracting multiple sentences that cover as many concepts as possible. A concept is a non-functional word.
また、参考文献2では、文書に含まれているエンティティを使用して、一貫性を評価する方法を説明している。機械で生成された文書は、文書におけるエンティティの有無に従って評価される。この場合、エンティティは、名詞と代名詞を指す。 Reference 2 describes a method for evaluating consistency using an entity included in a document. Machine-generated documents are evaluated according to the presence or absence of entities in the document. In this case, entities refer to nouns and pronouns.
しかしながら、従来手法によると、抽出法でも抽象化法でも、必ずしも人が読み易いとは言えない文章が生成されてしまう。 However, according to the conventional method, a sentence that is not necessarily easy to read by humans is generated by both the extraction method and the abstraction method.
本発明では、人が読みやすい要約を得ることができる要約装置、方法、及びプログラムを提供することを目的とする。 An object of the present invention is to provide a summarization apparatus, method, and program capable of obtaining a human-readable summary.
上記目的を達成するために、第1の発明に係る要約装置は、文書に含まれる文を選択して要約を生成する要約装置であって、前記文書に含まれる複数の文の各々について、前記文に含まれる、エンティティと前記エンティティの状態を計算するエンティティ計算部と、前記エンティティ計算部によって前記複数の文の各々について計算されたエンティティと前記エンティティの状態に基づいて、前記エンティティの各々について、前記エンティティの状態ペア毎に、前記文書において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する確率を表す遷移確率を推定する確率推定部と、前記複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる前記文書の要約の候補を複数生成する文選択部と、前記確率推定部によって推定された前記遷移確率の各々と、前記文選択部によって生成された前記要約の候補の各々と、予め求められたエンティティの重みとに基づいて、要約に含まれる前記エンティティの各々についての、前記要約において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する前記遷移確率を用いて表されるコヒーレンススコア、及び前記エンティティの重みを用いて表される評価関数を最適化するように、前記要約の候補の各々から、前記文書の要約を選択する要約選択部と、を含んで構成されている。 In order to achieve the above object, a summarization device according to a first invention is a summarization device that generates a summary by selecting a sentence included in a document, and for each of a plurality of sentences included in the document, An entity included in a sentence and an entity calculator that calculates the state of the entity, and for each of the entities based on the entity and the state of the entity calculated for each of the plurality of sentences by the entity calculator. A probability estimator that estimates a transition probability representing a probability that the state of the entity in the preceding sentence among the adjacent sentences in the document transitions to the state of the entity in the subsequent sentence, for each state pair of the entity; Of the plurality of sentences, the document composed of sentences selected so that the sum of the sentence lengths is equal to or less than a predetermined length. A sentence selection unit that generates a plurality of candidates, each of the transition probabilities estimated by the probability estimation unit, each of the summary candidates generated by the sentence selection unit, and a previously determined entity weight For each of the entities included in the summary, the transition probability that the state of the entity in the preceding sentence of the adjacent sentences in the summary transitions to the state of the entity in the subsequent sentence is used. A summary selector for selecting a summary of the document from each of the summary candidates so as to optimize the coherence score represented by It is configured.
第2の発明に係る要約方法は、文書に含まれる文を選択して要約を生成する要約方法であって、エンティティ計算部が、前記文書に含まれる複数の文の各々について、前記文に含まれる、エンティティと前記エンティティの状態を計算するステップと、確率推定部が、前記エンティティ計算部によって前記複数の文の各々について計算されたエンティティと前記エンティティの状態に基づいて、前記エンティティの各々について、前記エンティティの状態ペア毎に、前記文書において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する確率を表す遷移確率を推定するステップと、文選択部が、前記複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる前記文書の要約の候補を複数生成するステップと、要約選択部が、前記確率推定部によって推定された前記遷移確率の各々と、前記文選択部によって生成された前記要約の候補の各々と、予め求められたエンティティの重みとに基づいて、要約に含まれる前記エンティティの各々についての、前記要約において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する前記遷移確率を用いて表されるコヒーレンススコア、及び前記エンティティの重みを用いて表される評価関数を最適化するように、前記要約の候補の各々から、前記文書の要約を選択するステップと、を含んで構成されている。 A summarization method according to a second invention is a summarization method for selecting a sentence included in a document and generating a summary, wherein the entity calculator includes each of a plurality of sentences included in the document in the sentence. Calculating a state of the entity and the entity, and a probability estimator for each of the entities based on the entity and the state of the entity calculated for each of the plurality of sentences by the entity calculator. Estimating a transition probability representing a probability that a state of the entity in a preceding sentence of adjacent sentences in the document transitions to a state of the entity in a subsequent sentence for each state pair of the entity; and sentence selection The sentence is composed of sentences selected from the plurality of sentences so that the sum of the lengths of the sentences is equal to or less than a predetermined length. Generating a plurality of summary candidates for the written document; and a summary selection unit, each of the transition probabilities estimated by the probability estimation unit, each of the summary candidates generated by the sentence selection unit, Based on the determined entity weight, for each of the entities included in the summary, the state of the entity in the preamble of adjacent sentences in the summary transitions to the state of the entity in the subsequent sentence Selecting a summary of the document from each of the summary candidates to optimize a coherence score expressed using the transition probability and an evaluation function expressed using the weight of the entity; , Including.
また、前記文選択部は、前記複数の文から、文の長さの総和が前記予め定められた長さ以下になるようにランダムに繰り返し選択された文からなる前記文書の要約の候補を複数生成するようにすることができる。 In addition, the sentence selection unit may select a plurality of document summarization candidates that are composed of sentences that are repeatedly selected at random so that the sum of the lengths of the sentences is equal to or less than the predetermined length. Can be generated.
また、前記エンティティ計算部は、複数の文書に含まれる複数の文の各々について、前記文に含まれる、エンティティと前記エンティティの状態を計算し、前記確率推定部は、前記エンティティ計算部によって前記複数の文書に含まれる前記複数の文の各々について計算されたエンティティと前記エンティティの状態に基づいて、前記エンティティの各々について、前記エンティティの状態ペア毎に、前記遷移確率を推定し、前記文選択部は、前記複数の文書に含まれる前記複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる、前記複数の文書の要約の候補を複数生成し、前記要約選択部は、前記確率推定部によって推定された前記遷移確率の各々と、前記文選択部によって生成された前記要約の候補の各々と、複数の学習用文書と前記複数の学習用文書に対する要約の各々とから予め求められたエンティティの重みとに基づいて、前記評価関数を最適化するように、前記要約の候補の各々から、前記複数の文書の要約を選択するようにすることができる。 The entity calculation unit calculates an entity and a state of the entity included in the sentence for each of a plurality of sentences included in a plurality of documents, and the probability estimation unit Based on the entity calculated for each of the plurality of sentences included in the document and the state of the entity, the transition probability is estimated for each state pair of the entity for each of the entities, and the sentence selection unit Are a plurality of candidates for summarization of the plurality of documents, which are composed of sentences selected from the plurality of sentences included in the plurality of documents so that the sum of the lengths of the sentences is equal to or less than a predetermined length. The summary selector generates each of the transition probabilities estimated by the probability estimator and the summary candidate generated by the sentence selector. Each of the summary candidates so as to optimize the evaluation function based on each of the plurality of learning documents and a weight of the entity previously determined from the plurality of learning documents and each of the summaries for the plurality of learning documents. From the above, it is possible to select a summary of the plurality of documents.
また、前記エンティティの重みは、複数の学習用文書と前記複数の学習用文書の各々に対する要約とから予め学習されたものであるようにすることができる。 Further, the weight of the entity may be learned in advance from a plurality of learning documents and a summary for each of the plurality of learning documents.
また、前記要約選択部は、評価関数を最適化するように、前記要約の候補の各々から、前記文書の要約を選択し、かつ前記要約において隣接する文で共通する単語の割合が予め定められた閾値以下となるように、前記要約を生成するようにすることができる。 Further, the summary selection unit selects a summary of the document from each of the summary candidates so as to optimize an evaluation function, and a ratio of words common to adjacent sentences in the summary is determined in advance. The summary can be generated so as to be less than or equal to the threshold value.
また、第3の発明のプログラムは、コンピュータを、上記の要約装置の各部として機能させるためのプログラムである。 A program of the third invention is a program for causing a computer to function as each part of the above summary device.
以上説明したように、本発明の要約装置、方法、及びプログラムによれば、複数の文の各々について計算されたエンティティとエンティティの状態に基づいて、文書において隣接する文のうちの前文でのエンティティの状態が、後文でのエンティティの状態へ遷移する確率を表す遷移確率を推定し、複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる文書の要約の候補を複数生成し、推定された遷移確率の各々と、要約の候補の各々と、予め求められたエンティティの重みとに基づいて、要約において隣接する文のうちの前文でのエンティティの状態が、後文でのエンティティの状態へ遷移する遷移確率を用いて表されるコヒーレンススコア、及びエンティティの重みを用いて表される評価関数を最適化するように、要約の候補の各々から、文書の要約を選択することにより、人が読みやすい要約を得ることができる、という効果が得られる。 As described above, according to the summary device, method, and program of the present invention, the entity in the preceding sentence of the sentences adjacent to each other in the document based on the entity calculated for each of the plurality of sentences and the state of the entity. A sentence that is selected so that the total length of sentences is less than or equal to a predetermined length from a plurality of sentences by estimating the transition probability that represents the probability that the state of the transition to the entity state in the later sentence Generating a plurality of document summary candidates, and, based on each of the estimated transition probabilities, each of the summary candidates, and a previously determined entity weight, The coherence score expressed using the transition probability that the state of the entity in the latter sentence transitions to the entity state in the later sentence and the evaluation function expressed using the weight of the entity As of, from each of the candidates summary, by selecting the summary of the document, it is possible to obtain a human readable summary, the effect is obtained that.
以下、図面を参照して本発明の実施の形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<本発明の実施の形態の概要>
本実施の形態は、自然言語処理の技術に属し、文書の自動要約に関連する。本実施の形態は、従来手法と比較して、読みやすい要約を生成することを目的とする。また、本実施の形態では、要約の方法として抽出法を対象とする。
<Outline of Embodiment of the Present Invention>
This embodiment belongs to natural language processing technology and relates to automatic document summarization. The purpose of this embodiment is to generate an easy-to-read summary compared to the conventional method. In this embodiment, an extraction method is used as a summary method.
本実施の形態では、生成された文書の品質を評価するためにエンティティを使用して、自動複数文書要約の品質を向上させることを目的とする。ここでは、単語であるエンティティと、当該エンティティの状態を用いる。本実施の形態は、生成された文書の一貫性と情報性を評価するためにエンティティに基づいて、評価関数を設計する。本実施の形態における要約文の生成とは、評価関数の最大化により、文書から複数文を選択することである。 The purpose of this embodiment is to improve the quality of automatic multi-document summarization by using entities to evaluate the quality of generated documents. Here, an entity that is a word and the state of the entity are used. In this embodiment, an evaluation function is designed based on an entity in order to evaluate the consistency and information property of a generated document. The generation of the summary sentence in the present embodiment is to select a plurality of sentences from the document by maximizing the evaluation function.
要約化は、主要な情報を網羅する一連の文を生成することである。本実施の形態は、要約を生成するために重み付き最長パス問題を使用する。また、エンティティに基づいて、要約として適切かどうかを評価する最適化関数を設計する。これにより、文書の要約は、評価関数を最大化することにより一連の文を選択する問題として扱うことができる。 Summarization is the generation of a series of sentences that cover key information. This embodiment uses the weighted longest path problem to generate a summary. Also, based on the entity, we design an optimization function that evaluates whether it is appropriate as a summary. Thus, document summaries can be treated as a problem of selecting a sequence of sentences by maximizing the evaluation function.
本実施の形態は、2つの主要な部分で構成されている。一つは、要約文の評価システムであり、もう一つは、要約のための複数文選択システムである。 This embodiment is composed of two main parts. One is a summary sentence evaluation system, and the other is a multiple sentence selection system for summarization.
本実施の形態では、重要な情報を網羅するように文を複数選択し、選択された複数の文が一貫した文書となるように並べ替える。また、各文は、要約に重要な情報を追加し、かつ、文書の一貫性を維持するように選ばれる。 In the present embodiment, a plurality of sentences are selected so as to cover important information, and rearranged so that the selected plurality of sentences become a consistent document. Each sentence is also chosen to add important information to the summary and maintain document consistency.
<問題の設定>
まず、本実施の形態における問題の設定と、本実施の形態で用いる文選択アルゴリズムについて説明する。
<Problem settings>
First, the problem setting in this embodiment and the sentence selection algorithm used in this embodiment will be described.
[重み付き最長パス問題]
合計L個の文からなるK個の文書があると仮定する。すなわち、K個の文書に含まれる文の数が合計L個であると仮定する。これらのK個の文書の要約を生成する。要約を生成するために、L個の文から複数の文を選択する。上記のL個の文から抽出された文書Tが存在すると仮定する。文書TがK個の文書の要約として、どれほど適切かを評価するために関数を設計する。
[Weighted longest path problem]
Assume that there are K documents consisting of a total of L sentences. That is, it is assumed that the total number of sentences included in K documents is L. Generate a summary of these K documents. In order to generate a summary, a plurality of sentences are selected from the L sentences. Assume that there is a document T extracted from the above L sentences. A function is designed to evaluate how appropriate a document T is as a summary of K documents.
既知の通り、優れた要約は、1)冗長性がなく、2)重要な情報を網羅し、3)可能な限り一貫性があるものである。評価関数は、この3点を反映している必要がある。
要約Tは、M個のエンティティ(単語)、N個の文からなり、以下の通り、N<Lとなる。
As is known, a good summary is 1) without redundancy, 2) covers important information, and 3) is as consistent as possible. The evaluation function needs to reflect these three points.
The summary T is composed of M entities (words) and N sentences, and N <L as follows.
ri Aは、文Aにおけるエンティティeiの状態を示す。「subj」、「obj」、「present」および「absent」という4種類の状態がある。「subj」は、エンティティeiが文Aにおける主語であることを示す。「obj」は、エンティティeiが文Aにおける目的語であることを示す。エンティティeiが文Aに存在し、「subj」や「obj」に適合しない場合は、「present」が使用される。「absent」は、文Aにおいて、エンティティeiが存在していないことを示す。エンティティeiの重み付けaiは、ソース文書セットにおける、トークンの正規化頻度である。 r i A indicates the state of the entity e i in the sentence A. There are four types of states: “subj”, “obj”, “present”, and “absent”. “Subj” indicates that the entity e i is the subject in the sentence A. “Obj” indicates that the entity e i is an object in the sentence A. If entity e i exists in sentence A and does not match “subj” or “obj”, “present” is used. “Absent” indicates that the entity e i does not exist in the sentence A. The weighting a i of the entity e i is the token normalization frequency in the source document set.
Score(T)は、生成された要約Tの総合的評価である。Score(T)は、生成された要約Tが要約として、どれほど適切なのかという指標となる。要約を抽出する手法は、以下の式(2)に示すように、Score(T)を最大化する一連の文Seqを検出することである。 Score (T) is an overall evaluation of the generated summary T. Score (T) is an index of how appropriate the generated summary T is as a summary. The technique for extracting the summary is to detect a series of sentences Seq that maximize Score (T), as shown in the following equation (2).
aiは、エンティティeiの重み付けであり、Fiは、抽出した文字列のコヒーレンススコアである。上記のようにコヒーレンススコアFiは、要約に含まれるエンティティの各々についての、要約において隣接する文のうちの前文でのエンティティeiの状態rj iが、後文でのエンティティeiの状態rj i+1へ遷移する遷移確率pei(rj irj i+1)を用いて表される。本実施の形態で用いるモデルは、固定長の重み付けされた最長パス問題である。この問題は、一貫性と情報の網羅を考慮する。 a i is a weighting of the entity e i , and F i is a coherence score of the extracted character string. Coherence score F i as described above, for each of the entities included in the summary, the state r j i of entity e i in the preamble of the adjacent sentences in summary, an entity e i in the post statement state It is expressed using a transition probability p ei (r j i r j i + 1 ) for transitioning to r j i +1. The model used in this embodiment is a fixed length weighted longest path problem. This issue allows for consistency and information coverage.
さらに、冗長性を考慮する必要がある。すなわち、要約において、多くの単語を共有している文は、隣り合うべきではない。この制約により、ローカル冗長性とグローバル冗長性を削減することができる。 Furthermore, it is necessary to consider redundancy. That is, in a summary, sentences that share many words should not be adjacent. This restriction can reduce local redundancy and global redundancy.
すなわち、要約において、すべての隣接文で以下の(4)式の制約を満たしているか否かを確認する。 That is, in the summary, it is confirmed whether or not all the adjacent sentences satisfy the constraint of the following expression (4).
R=A’∩B’/A’∪B’ (3)
(A’,B’は、それぞれ文A,Bに含まれる単語セットである。)
R≦Threshold1 (4)
R = A'∩B '/ A'∪B' (3)
(A ′ and B ′ are word sets included in sentences A and B, respectively.)
R ≦ Threshold 1 (4)
上記式(3)において、分子は、文Aと文Bとにおいて共通する単語の種類数である。また、分母は、文Aと文Bとにおいて出現する単語の種類数である。 In the above formula (3), the numerator is the number of types of words that are common to the sentence A and the sentence B. The denominator is the number of types of words that appear in sentence A and sentence B.
なお、R>Threshold1である場合、A−B及びB−Aの文の組み合わせを要約の候補を表すグラフから削除する。これにより、共通する単語が多い文同士は、要約において隣接した位置に配置されないようになる。 When R> Threshold1, the combination of sentences AB and BA is deleted from the graph representing the summary candidates. This prevents sentences with many common words from being placed at adjacent positions in the summary.
この式には冗長性の排除、情報の網羅、文の一貫性という、優れた要約を生成する3個の重要な要素が関係する。閾値Threshold1およびエンティティの重み付けaiは、実験によって予め決定される。 This formula involves three important elements that produce a good summary: redundancy elimination, information coverage, and sentence consistency. The threshold Threshold 1 and the entity weight a i are predetermined by experiment.
[文選択アルゴリズム]
本実施の形態では、文選択アルゴリズムとして、復号化アルゴリズムを利用する。復号化アルゴリズムは、NP困難問題であり、多項式時間アルゴリズムは存在しない。ランダム化されたアルゴリズムは迅速に近似解決法を得ることができる。本実施の形態では、すべての要件を満たす一連の文をランダムに選択する。また、本実施の形態では、この作業を数回繰り返して、要約の候補を複数生成し、スコアが最大となる要約の候補を、要約とする。選択処理の詳細は、アルゴリズム1に示す。
[Sentence selection algorithm]
In this embodiment, a decryption algorithm is used as the sentence selection algorithm. The decoding algorithm is an NP-hard problem and there is no polynomial time algorithm. A randomized algorithm can quickly obtain an approximate solution. In the present embodiment, a series of sentences satisfying all requirements are selected at random. In the present embodiment, this operation is repeated several times to generate a plurality of summary candidates, and the summary candidate having the maximum score is defined as a summary. Details of the selection process are shown in Algorithm 1.
アルゴリズム1 ランダムアルゴリズム
初期化:
U←{文書セットに存在するすべての文}
S←{}空集合 (要約の候補集合)
C←{}空集合 (文集合)
REPEAT:(一定回数繰り返し)
(文をランダムに選択する。s∈U)
IF: lenth(s)+Σi lenth(si)<= Threshold2; si∈C,THEN
Uからsを取り除き、sをCの最後に付ける。
ELSE
CをSに追加し、C,Uを初期化する。
END IF
O = argmaxT Score(T); T∈S
RETURN O
Algorithm 1 Random algorithm initialization:
U ← {all sentences in the document set}
S ← {} empty set (summary candidate set)
C ← {} empty set (sentence set)
REPEAT: (Repeat a certain number of times)
(Select a sentence at random. S∈U)
IF: lenti (s) + Σ i lenti (s i ) <= Threshold2; s i ∈C, THEN
Remove s from U and add s to the end of C.
ELSE
C is added to S and C and U are initialized.
END IF
O = argmax T Score (T); TεS
RETURN O
<本発明の実施の形態に係る学習装置の構成>
次に、本発明の実施の形態に係る学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。
<Configuration of Learning Device According to Embodiment of the Present Invention>
Next, the configuration of the learning device according to the embodiment of the present invention will be described. As shown in FIG. 1, a
入力部10は、複数の学習用文書を受け付ける。また、入力部10は、複数の学習用文書の各々に対して予め用意された要約の各々を受け付ける。
The
演算部20は、文書記憶部21と、要約記憶部22と、エンティティ計算部23と、回帰分析部24と、重み記憶部25と、を含んで構成されている。
The
文書記憶部21には、入力部10において受け付けた複数の学習用文書が記憶されている。
The
要約記憶部22には、入力部10において受け付けた複数の要約が記憶されている。
The
エンティティ計算部23は、文書記憶部21に記憶された複数の学習用文書の各々について、当該学習用文書に含まれるエンティティを計算する。エンティティを計算する際に必要とされる事前処理には、語幹処理、及びストップワードの削除と単純化が含まれる。最初に必要なのは、エンティティを識別し、代名詞の照応を解決することである。本実施の形態では、利用可能なエンティティ識別ツールと照応解析ツールとしてStanford CoreNLPを使用する。例えば、エンティティとしては、形容詞の単語、副詞の単語、名詞の単語、代名詞の単語、及び動詞の単語の少なくとも1つが用いられる。なお、文脈を変更した際に代名詞の意味が変わる可能性があるため、代名詞は、代名詞が示すエンティティによって置き換えられる。
The
回帰分析部24は、エンティティ計算部23によって複数の学習用文書の各々について計算されたエンティティと、要約記憶部22に記憶された複数の要約とから、論理的回帰分析法を用いて、各エンティティの重みaiを学習する。また、冗長性の閾値も、実験よって決定する。エンティティの重みaiは、複数の学習用文書と複数の学習用文書の各々に対する要約とから予め学習される。複数の学習用文書としては、例えばDUC2003データを使用することができる。
The
重み記憶部25には、回帰分析部24によって得られた各エンティティの重みaiが格納される。
The
出力部30は、重み記憶部25に記憶された各エンティティの重みaiを結果として出力する。
The
<本発明の実施の形態に係る要約装置の構成>
次に、本発明の実施の形態に係る要約装置の構成について説明する。図2に示すように、本発明の実施の形態に係る要約装置200は、CPUと、RAMと、後述する要約処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この要約装置200は、機能的には図2に示すように入力部40と、演算部50と、出力部60とを備えている。要約装置200は、文書に含まれる文を選択して要約を生成する。
<Configuration of Summarization Device According to Embodiment of the Present Invention>
Next, the configuration of the summarization apparatus according to the embodiment of the present invention will be described. As shown in FIG. 2, the
入力部40は、要約対象の複数の文書を受け付ける。
The
演算部50は、文書記憶部51と、エンティティ計算部52と、確率推定部53と、遷移確率記憶部54と、文選択部55と、要約候補記憶部56と、重み記憶部57と、要約選択部58と、を含んで構成されている。
The
文書記憶部51には、入力部40において受け付けた複数の文書が記憶される。
The
エンティティ計算部52は、文書記憶部51に記憶されている複数の文書に含まれる複数の文の各々について、当該文に含まれる、エンティティと当該エンティティの状態を計算する。
The
確率推定部53は、エンティティ計算部52によって複数の文の各々について計算されたエンティティと当該エンティティの状態に基づいて、エンティティekの各々について、エンティティekの状態ペア(m,n)毎に、文書において隣接する文のうちの前文でのエンティティekの状態mが、後文でのエンティティekの状態nへ遷移する確率を表す遷移確率pek(mn)を推定する。
Based on the entity calculated for each of the plurality of sentences by the
具体的には、確率推定部53は、文書記憶部51に記憶された、複数の文書からなる文書セットにおいて、各文書に含まれる各エンティティに対し、以下の式(5)に示すように、遷移確率を推定する。
Specifically, the
#ek(m)ek(n)は、隣り合う文において、前文でekが状態mを後文でekが状態nを示す回数を、全文書を通して数え上げた数値であり、「N−M」は、文書数M、文数Nのデータにおける隣接文の組み合わせ数を示す。 #E k (m) e k (n) is a numerical value obtained by counting the number of times that e k indicates state m in the preceding sentence and e k indicates state n in the preceding sentence throughout the entire document. “−M” indicates the number of adjacent sentence combinations in the data of the number of documents M and the number of sentences N.
遷移確率記憶部54には、確率推定部53によって推定された遷移確率の各々が格納される。
Each transition probability estimated by the
文選択部55は、文書記憶部51に記憶された、複数の文書の複数の文から、文の長さの総和が予め定められた長さThreshold2以下になるようにランダムに繰り返し選択された文からなる要約の候補を複数生成する。
The
具体的には、文選択部55は、文書記憶部51に記憶された複数の文書の複数の文から、上記アルゴリズム1に従って選択された文からなる要約の候補を複数生成する。
Specifically, the
要約候補記憶部56には、文選択部55によって得られた複数の要約の候補が格納される。
The summary
重み記憶部57には、学習装置100によって予め求められた各エンティティの重みaiが記憶されている。
The
要約選択部58は、遷移確率記憶部54に記憶された遷移確率の各々と、要約候補記憶部56に記憶された要約の候補の各々と、重み記憶部57に記憶されたエンティティeiの重みaiとに基づいて、コヒーレンススコアFi及びエンティティの重みaiとを用いて表される評価関数Score(T)を最適化するように、要約候補記憶部56に記憶された要約の候補の各々から、要約を選択する。
The
具体的には、要約選択部58は、上記アルゴリズム1のうちの以下の式(6)に従って、要約候補記憶部56に記憶された要約の候補の各々から、複数の文書の要約を選択する。
Specifically, the
O = argmaxT Score(T); T∈S (6) O = argmax T Score (T); TεS (6)
また、要約選択部58は、上記式(3),(4)に従って、要約の候補において隣接する文で共通する単語の割合が予め定められた閾値Threshold1以下となるように、要約を生成する。
In addition, the
出力部60は、要約選択部58によって選択された要約を結果として出力する。
The
<本発明の実施の形態に係る学習装置の作用>
次に、本発明の実施の形態に係る学習装置100の作用について説明する。入力部10において、複数の学習用文書を受け付けると、複数の学習用文書が文書記憶部21に記憶される。また、入力部10において、複数の学習用文書の各々に対する要約の各々を受け付けると、複数の要約が要約記憶部22に記憶される。そして、学習装置100は、図3に示す学習処理ルーチンを実行する。
<Operation of Learning Device According to Embodiment of the Present Invention>
Next, the operation of the
まず、ステップS100において、エンティティ計算部23は、文書記憶部21に記憶された複数の学習用文書の各々について、当該学習用文書に含まれるエンティティeiを計算する。
First, in step S <b> 100, the
次に、ステップS102において、回帰分析部24は、上記ステップS100で複数の学習用文書の各々について計算されたエンティティeiと、要約記憶部22に記憶された複数の要約とから、論理的回帰分析法を用いて、各エンティティeiの重みaiを学習する。
Next, in step S102, the
そして、ステップS104において、回帰分析部24は、上記ステップS102で得られた各エンティティeiの重みaiを重み記憶部25に格納する。
In step S104, the
そして、ステップS106において、上記ステップS104で重み記憶部25に格納された、各エンティティeiの重みaiを出力部30により出力して、学習処理ルーチンを終了する。
In step S106, the weight a i of each entity e i stored in the
<本発明の実施の形態に係る要約装置の作用>
次に、本発明の実施の形態に係る要約装置200の作用について説明する。学習装置100によって学習された各エンティティeiに対する重みaiが、要約装置200の重み記憶部57に格納される。また、入力部40において要約対象の複数の文書を受け付けると、要約装置200の文書記憶部51に格納される。要約装置200は、図4に示す要約処理ルーチンを実行する。
<Operation of the summary device according to the embodiment of the present invention>
Next, the operation of the summarizing
まず、ステップS202において、文書記憶部51に記憶された複数の文書の各々について、当該文書に含まれる各文を単語に切り分ける。そして、エンティティ計算部52は、複数の文書に含まれる複数の文の各々について、当該文に含まれる、エンティティと当該エンティティの状態を計算する。
First, in step S202, for each of a plurality of documents stored in the
ステップS204において、確率推定部53は、上記ステップS204で複数の文の各々について計算されたエンティティと当該エンティティの状態に基づいて、エンティティekの各々について、状態ペア(m、n)毎に、上記式(5)に従って、遷移確率pek(mn)を推定する。そして、確率推定部53は、推定された遷移確率pek(mn)の各々を、遷移確率記憶部54に格納する。
In step S204, the
ステップS206において、文選択部55は、複数の文書の複数の文から、文の長さの総和が予め定められた長さThreshold2以下になるようにランダムに繰り返し選択された文からなる要約の候補を複数生成する。ステップS208は、図5に示す文選択処理ルーチンによって実現される。
In step S206, the
<文選択処理ルーチン>
ステップS300において、文選択部55は、複数の文書に存在するすべての文の集合U、要約の候補集合S、及び文集合Cを初期化する。なお、集合Uには、複数の文書に存在するすべての文を格納することで初期化を行う。また、要約の候補集合S及び文集合Cについては、空集合とすることで初期化を行う。
<Sentence selection processing routine>
In step S300, the
ステップS302において、文選択部55は、上記ステップS300で初期化された集合U、又は後述するステップS310で初期化された集合Uから、文sをランダムに選択する。
In step S302, the
ステップS304において、文選択部55は、前回のステップまでに選択された文siの長さの総和Σilength(si)と、上記ステップS302で選択された文sの長さlength(s)との総和が予め定められた長さThreshold2以下であるか否かを判定する。長さの総和が予め定められた長さThreshold2以下である場合には、ステップS306へ進む。一方、長さの総和が予め定められた長さThreshold2より大きい場合には、ステップS308へ進む。
In step S304, the
ステップS306において、文選択部55は、上記ステップS300で初期化された集合C又は前回の本ステップS306で更新された集合Cの最後に、上記ステップS302で選択された文sを追加して、上記ステップS302へ戻る。
In step S306, the
ステップS308において、文選択部55は、前回のステップまでに更新された集合Cを、上記ステップS300で初期化された集合S又は前回の本ステップS308で更新された集合Sに追加する。要約の候補集合Sは、要約候補記憶部56に記憶される。
In step S308, the
ステップS310において、文選択部55は、集合C及び集合Uを初期化する。
In step S310, the
ステップS312において、文選択部55は、上記ステップS302〜上記ステップS310の処理が一定数繰り返されたか否かを判定する。上記ステップS302〜上記ステップS310の処理が一定数繰り返された場合には、ステップS314へ進む。一方、上記ステップS302〜上記ステップS310の処理が一定数繰り返されていない場合には、ステップS302へ戻る。
In step S312, the
ステップS314において、要約選択部58は、上記ステップS204で遷移確率記憶部54に記憶された遷移確率の各々と、上記ステップS308で要約候補記憶部56に記憶された要約の候補の各々と、重み記憶部57に記憶されたエンティティeiの重みaiとに基づいて、式(6)に従って、要約候補記憶部56に記憶された要約の候補の各々から、要約を選択する。
In step S314, the
ステップS316において、上記ステップS314で得られた要約を出力して、文選択処理ルーチンを終了する。 In step S316, the summary obtained in step S314 is output, and the sentence selection processing routine ends.
次に、要約処理ルーチンに戻り、ステップS208において、要約選択部58は、上記ステップS206で得られた要約から、上記式(3),(4)に従って、要約において隣接する文で共通する単語の割合が予め定められた閾値Threshold1以下となるように、要約を生成する。ステップS208の処理により要約の冗長性が排除される。
Next, returning to the summary processing routine, in step S208, the
ステップS210において、要約選択部58は、上記ステップS208で得られた要約を出力部60により出力して、要約処理ルーチンを終了する。
In step S210, the
<実施例>
次に、本実施の形態の要約装置を用いた実験の結果を示す。
<Example>
Next, a result of an experiment using the summarization apparatus of the present embodiment will be shown.
[実験の準備]
実験は、複数文書要約タスクである、DUC2004要約化タスクのデータセットを使用して行った。データセットは50個の文書クラスタがあり、各クラスタには、10個の文書が含まれる。各クラスタに対しては、1個の要約が生成される。目標の要約長は、100単語である。なお、エンティティの重みaiなどの各パラメータを決定するために、トレーニングデータとして、DUC2003のデータセットも利用可能である。図6に、実験の結果得られた要約の例を示す。
[Preparation for experiment]
The experiment was performed using the DUC2004 summarization task data set, which is a multi-document summarization task. The data set has 50 document clusters, and each cluster includes 10 documents. One summary is generated for each cluster. The target summary length is 100 words. In order to determine each parameter such as the entity weight a i , a DUC2003 data set can also be used as training data. FIG. 6 shows an example of a summary obtained as a result of the experiment.
なお、ROUGE−1のFスコアは、人手による解析との相関が高いことが証明されているため、本実験では、結果の検討において、ROUGE−1のFスコアに注目する。 In addition, since it is proved that the F score of ROUGE-1 is highly correlated with the manual analysis, in this experiment, attention is paid to the F score of ROUGE-1 in the examination of the results.
[関連手法との比較]
本実施の形態に係る要約装置と、広範囲に使用されている複数のシステムとを比較する。実験結果を表1に示す。MEADは、ランク付けアルゴリズムを採用するツールキットであり、MEADに含まれるMMR(Maximal Marginal Relevance)は複数文書の要約を生成する。MKMCは、オリジナルの最大網羅方法である。
[Comparison with related methods]
The summarization apparatus according to the present embodiment is compared with a plurality of systems widely used. The experimental results are shown in Table 1. MEAD is a toolkit that employs a ranking algorithm, and MMR (Maximal Marginal Relevance) included in MEAD generates a summary of a plurality of documents. MKMC is the original maximum coverage method.
上記表1に示すように、本実施の形態は、一貫性を、要約システムを設計する際の重要な要素とみなし、エンティティを使用することにより、最新の最先端技術による結果とほぼ同等の結果を得ることができることがわかる。 As shown in Table 1 above, the present embodiment regards consistency as an important element in designing a summarization system, and uses entities to obtain results that are almost equivalent to the results from the latest state-of-the-art technology. It can be seen that can be obtained.
以上説明したように、本発明の実施の形態に係る学習装置によれば、複数の学習用文書及び複数の学習用文書の各々に対する要約から、エンティティの重みを学習することにより、人が読みやすい要約を得るためのパラメータを得ることができる。 As described above, according to the learning device according to the embodiment of the present invention, it is easy for a person to read by learning entity weights from a plurality of learning documents and a summary for each of the plurality of learning documents. Parameters for obtaining a summary can be obtained.
また、本発明の実施の形態に係る要約装置によれば、複数の文の各々について計算されたエンティティとエンティティの状態に基づいて、文書において隣接する文のうちの前文でのエンティティの状態が、後文でのエンティティの状態へ遷移する確率を表す遷移確率を推定し、複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる文書の要約の候補を複数生成し、推定された遷移確率の各々と、要約の候補の各々と、予め求められたエンティティの重みとに基づいて、要約において隣接する文のうちの前文でのエンティティの状態が、後文でのエンティティの状態へ遷移する遷移確率を用いて表されるコヒーレンススコア、及びエンティティの重みを用いて表される評価関数を最適化するように、要約の候補の各々から、文書の要約を選択することにより、人が読みやすい要約を得ることができる。 Further, according to the summarization apparatus according to the embodiment of the present invention, based on the entity and the state of the entity calculated for each of the plurality of sentences, the state of the entity in the preceding sentence of the adjacent sentences in the document is: Estimate the transition probability that represents the probability of transition to the entity state in the subsequent sentence, and from a plurality of sentences, the document consisting of the sentence selected so that the sum of the sentence lengths is less than or equal to the predetermined length A plurality of summary candidates are generated, and based on each of the estimated transition probabilities, each of the summary candidates, and the previously determined entity weight, the state of the entity in the preceding sentence of the sentences adjacent to each other in the summary To optimize the coherence score expressed using the transition probability to transition to the entity state in the later sentence and the evaluation function expressed using the entity weight From each candidate, by selecting the summary of the document, it is possible to obtain a human readable summary.
また、エンティティの状態の遷移を表す遷移確率を用いて表されるコヒーレンススコア及びエンティティの重みを用いて表される評価関数を最適化するように、要約を選択することにより、重要な情報が網羅され、かつ文書の一貫性が維持されている要約を得ることができる。 It also covers important information by selecting summaries to optimize the coherence score expressed using transition probabilities representing entity state transitions and the evaluation function expressed using entity weights. And a summary with document consistency maintained.
また、上記評価関数を最適化するように要約を選択し、かつ要約において隣接する文で共通する単語の割合が予め定められた閾値以下となるように、要約を生成することにより、冗長性が排除された要約を得ることができる。 In addition, by selecting the summary so as to optimize the evaluation function and generating the summary so that the ratio of words common to adjacent sentences in the summary is equal to or less than a predetermined threshold, redundancy is reduced. An excluded summary can be obtained.
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
例えば、上記実施の形態では、複数の文書に対する要約を生成する場合を例に説明したが、これに限定されるものではなく、1つの文書から要約を生成するようにしてもよい。 For example, although cases have been described with the above embodiment as an example where summaries for a plurality of documents are generated, the present invention is not limited to this, and summaries may be generated from a single document.
また、上記実施の形態の要約選択部58は、評価関数を最適化するように要約を選択し、かつ要約において隣接する文で共通する単語の割合が予め定められた閾値以下となるように、要約を生成する処理を行う場合を例に説明したが、当該処理を行わなくてもよい。また、文を選択して要約の候補を生成する際に、隣接する文で共通する単語の割合が予め定められた閾値以下となるように、要約の候補を生成し、隣接する文で共通する単語の割合が閾値より大きい要約の候補を破棄するようにしてもよい。
In addition, the
また、学習装置と要約装置とを1つの装置で構成するようにしてもよい。 Further, the learning device and the summarization device may be configured by one device.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。 Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.
10 入力部
20 演算部
21 文書記憶部
22 要約記憶部
23 エンティティ計算部
24 回帰分析部
25 重み記憶部
30 出力部
40 入力部
50 演算部
51 文書記憶部
52 エンティティ計算部
53 確率推定部
54 遷移確率記憶部
55 文選択部
56 要約候補記憶部
57 重み記憶部
58 要約選択部
60 出力部
100 学習装置
200 要約装置
DESCRIPTION OF
Claims (7)
前記文書に含まれる複数の文の各々について、前記文に含まれる、エンティティと前記エンティティの状態を計算するエンティティ計算部と、
前記エンティティ計算部によって前記複数の文の各々について計算されたエンティティと前記エンティティの状態に基づいて、前記エンティティの各々について、前記エンティティの状態ペア毎に、前記文書において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する確率を表す遷移確率を推定する確率推定部と、
前記複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる前記文書の要約の候補を複数生成する文選択部と、
前記確率推定部によって推定された前記遷移確率の各々と、前記文選択部によって生成された前記要約の候補の各々と、予め求められたエンティティの重みとに基づいて、要約に含まれる前記エンティティの各々についての、前記要約において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する前記遷移確率を用いて表されるコヒーレンススコア、及び前記エンティティの重みを用いて表される評価関数を最適化するように、前記要約の候補の各々から、前記文書の要約を選択する要約選択部と、
を含む要約装置。 A summary device for selecting a sentence contained in a document and generating a summary,
For each of a plurality of sentences included in the document, an entity calculation unit that calculates an entity included in the sentence and the state of the entity;
Based on the entity calculated for each of the plurality of sentences and the state of the entity by the entity calculator, for each of the entity state pairs, A probability estimation unit that estimates a transition probability representing a probability that the state of the entity transitions to the state of the entity in a later sentence;
A sentence selection unit that generates a plurality of candidates for the summary of the document including sentences selected so that the total length of sentences is not more than a predetermined length from the plurality of sentences;
Based on each of the transition probabilities estimated by the probability estimation unit, each of the summary candidates generated by the sentence selection unit, and a weight of the entity obtained in advance, the entity included in the summary For each, a coherence score represented by using the transition probability that the state of the entity in the preceding sentence of the adjacent sentences in the summary transitions to the state of the entity in the subsequent sentence, and the weight of the entity A summary selector for selecting a summary of the document from each of the summary candidates so as to optimize the evaluation function represented using
Summarization device including.
前記確率推定部は、前記エンティティ計算部によって前記複数の文書に含まれる前記複数の文の各々について計算されたエンティティと前記エンティティの状態に基づいて、前記エンティティの各々について、前記エンティティの状態ペア毎に、前記遷移確率を推定し、
前記文選択部は、前記複数の文書に含まれる前記複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる、前記複数の文書の要約の候補を複数生成し、
前記要約選択部は、前記確率推定部によって推定された前記遷移確率の各々と、前記文選択部によって生成された前記要約の候補の各々と、複数の学習用文書と前記複数の学習用文書に対する要約の各々とから予め求められたエンティティの重みとに基づいて、前記評価関数を最適化するように、前記要約の候補の各々から、前記複数の文書の要約を選択する
請求項1又は請求項2に記載の要約装置。 The entity calculation unit calculates, for each of a plurality of sentences included in a plurality of documents, an entity included in the sentence and a state of the entity,
The probability estimator is configured for each state pair of the entity for each of the entities based on the entity calculated for each of the plurality of sentences included in the plurality of documents and the state of the entity by the entity calculator. To estimate the transition probability,
The sentence selection unit includes the sentences selected from the plurality of sentences included in the plurality of documents so that the sum of the lengths of the sentences is equal to or less than a predetermined length. Generate multiple candidates for
The summary selection unit is provided for each of the transition probabilities estimated by the probability estimation unit, each of the summary candidates generated by the sentence selection unit, a plurality of learning documents, and the plurality of learning documents. The summary of the plurality of documents is selected from each of the summary candidates to optimize the evaluation function based on entity weights previously determined from each of the summaries. 2. The summarization device according to 2.
請求項1〜請求項4の何れか1項に記載の要約装置。 The summary selection unit selects a summary of the document from each of the summary candidates so as to optimize an evaluation function, and a threshold value in which a ratio of words common to adjacent sentences in the summary is predetermined. The summarization device according to any one of claims 1 to 4, wherein the summary is generated so as to be as follows.
エンティティ計算部が、前記文書に含まれる複数の文の各々について、前記文に含まれる、エンティティと前記エンティティの状態を計算するステップと、
確率推定部が、前記エンティティ計算部によって前記複数の文の各々について計算されたエンティティと前記エンティティの状態に基づいて、前記エンティティの各々について、前記エンティティの状態ペア毎に、前記文書において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する確率を表す遷移確率を推定するステップと、
文選択部が、前記複数の文から、文の長さの総和が予め定められた長さ以下になるように選択された文からなる前記文書の要約の候補を複数生成するステップと、
要約選択部が、前記確率推定部によって推定された前記遷移確率の各々と、前記文選択部によって生成された前記要約の候補の各々と、予め求められたエンティティの重みとに基づいて、要約に含まれる前記エンティティの各々についての、前記要約において隣接する文のうちの前文での前記エンティティの状態が、後文での前記エンティティの状態へ遷移する前記遷移確率を用いて表されるコヒーレンススコア、及び前記エンティティの重みを用いて表される評価関数を最適化するように、前記要約の候補の各々から、前記文書の要約を選択するステップと、
を含む要約方法。 A summarization method for generating a summary by selecting sentences contained in a document,
An entity calculation unit calculating, for each of a plurality of sentences included in the document, an entity included in the sentence and a state of the entity;
A probability estimator, for each of the entities, for each of the entity state pairs, for each of the entities, based on the entity calculated for each of the plurality of sentences by the entity calculator and the state of the entities. Estimating the transition probability representing the probability that the state of the entity in the preamble of the transition to the state of the entity in the subsequent sentence;
A step of generating a plurality of document summary candidates composed of sentences selected from the plurality of sentences so that a total sum of sentence lengths is equal to or less than a predetermined length;
A summary selection unit generates a summary based on each of the transition probabilities estimated by the probability estimation unit, each of the summary candidates generated by the sentence selection unit, and a weight of an entity obtained in advance. A coherence score for each of the included entities represented by using the transition probability that the state of the entity in the preceding sentence of the adjacent sentences in the summary transitions to the state of the entity in the subsequent sentence; And selecting a summary of the document from each of the summary candidates so as to optimize the evaluation function represented using the entity weights;
Summarizing methods including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016103759A JP2017211784A (en) | 2016-05-24 | 2016-05-24 | Summarizing device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016103759A JP2017211784A (en) | 2016-05-24 | 2016-05-24 | Summarizing device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017211784A true JP2017211784A (en) | 2017-11-30 |
Family
ID=60476749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016103759A Pending JP2017211784A (en) | 2016-05-24 | 2016-05-24 | Summarizing device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017211784A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10936901B2 (en) | 2018-03-02 | 2021-03-02 | Fuji Xerox Co., Ltd. | Information processing device and non-transitory computer readable recording medium |
CN114996441A (en) * | 2022-04-27 | 2022-09-02 | 京东科技信息技术有限公司 | Document processing method and device, electronic equipment and storage medium |
-
2016
- 2016-05-24 JP JP2016103759A patent/JP2017211784A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10936901B2 (en) | 2018-03-02 | 2021-03-02 | Fuji Xerox Co., Ltd. | Information processing device and non-transitory computer readable recording medium |
CN114996441A (en) * | 2022-04-27 | 2022-09-02 | 京东科技信息技术有限公司 | Document processing method and device, electronic equipment and storage medium |
CN114996441B (en) * | 2022-04-27 | 2024-01-12 | 京东科技信息技术有限公司 | Document processing method, device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mihalcea | Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling | |
Daumé et al. | Search-based structured prediction | |
US9275339B2 (en) | System and method for probabilistic name matching | |
CN110569354B (en) | Barrage emotion analysis method and device | |
CN109923556A (en) | Pointer sentry's mixed architecture | |
WO2017139539A2 (en) | Electronic message information retrieval system | |
CN106599148A (en) | Method and device for generating abstract | |
JP3682529B2 (en) | Summary automatic evaluation processing apparatus, summary automatic evaluation processing program, and summary automatic evaluation processing method | |
CN104536979A (en) | Generation method and device of topic model and acquisition method and device of topic distribution | |
McCarthy et al. | Addressing posterior collapse with mutual information for improved variational neural machine translation | |
CN110019832B (en) | Method and device for acquiring language model | |
Lassalle et al. | Joint anaphoricity detection and coreference resolution with constrained latent structures | |
CN116227466A (en) | Sentence generation method, device and equipment with similar semantic different expressions | |
JP2017211784A (en) | Summarizing device, method and program | |
CN109299463B (en) | Emotion score calculation method and related equipment | |
CN113743090A (en) | Keyword extraction method and device | |
Risch | Detecting Twitter topics using latent Dirichlet allocation | |
KR102400689B1 (en) | Semantic relation learning device, semantic relation learning method, and semantic relation learning program | |
CN110222181B (en) | Python-based film evaluation emotion analysis method | |
CN111401070B (en) | Word meaning similarity determining method and device, electronic equipment and storage medium | |
CN110609997B (en) | Method and device for generating abstract of text | |
CN111428487A (en) | Model training method, lyric generation method, device, electronic equipment and medium | |
Ho et al. | Preprocessing Impact on Sentiment Analysis Performance on Malay Social Media Text | |
Abbas | A Stochastic Prediction Interface for Urdu | |
Thushara et al. | An analysis on different document keyword extraction methods |