JP5058221B2 - Sentence shortening device, method and program thereof - Google Patents
Sentence shortening device, method and program thereof Download PDFInfo
- Publication number
- JP5058221B2 JP5058221B2 JP2009177584A JP2009177584A JP5058221B2 JP 5058221 B2 JP5058221 B2 JP 5058221B2 JP 2009177584 A JP2009177584 A JP 2009177584A JP 2009177584 A JP2009177584 A JP 2009177584A JP 5058221 B2 JP5058221 B2 JP 5058221B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- clause
- candidate
- phrase
- pointer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、テキスト(文書)の要約に際し、当該テキストを構成する一つの文、つまり原則として例えば日本語であれば句点「。」、英語であればピリオド「.」を単位として区切られる文を短縮して要約文を生成する技術に関する。 In the present invention, when summarizing text (document), one sentence constituting the text, that is, a sentence delimited in units of a period “.” In principle, for example, in Japanese, and a period “.” In English, in principle. The present invention relates to a technique for generating a summary sentence by shortening.
従来の要約文を生成する方法としては、文を構成する単語の中から重要な単語を選択し、それらを接合した侯補の中から、単語重要度や単語bigramを用いた評価関数の値が最も高くなる侯補をその文の要約とする方法が提案されている(非特許文献1参照)。また、従来の別の方法として、文の係り受け解析の結果である依存構造木に対し、ルート(根)から見て枝にある文節を刈り込むことにより係り受け関係を維持した要約を生成する方法であって、コーパスから係り受け関係の強さを学習することで強い係り受け関係の枝は残す方法も提案されている(非特許文献2参照)。 As a conventional method for generating a summary sentence, an important word is selected from words constituting a sentence, and a word importance or an evaluation function value using a word bigram is selected from a complement obtained by joining the words. A method has been proposed in which the highest compensation is used as a summary of the sentence (see Non-Patent Document 1). Also, as another conventional method, a method of generating a summary maintaining the dependency relationship by pruning the clauses at the branch when viewed from the root (root) with respect to the dependency structure tree as a result of the dependency analysis of the sentence. A method of leaving a strong dependency relationship branch by learning the strength of the dependency relationship from the corpus has also been proposed (see Non-Patent Document 2).
しかしながら、従来の単語を選択して接合する方法では、原文の依存構造が考慮されないために、読み難い文や誤った依存構造を有する文が生成されるという問題があった。また、従来の依存構造を保持して文節の枝狩りを行う方法では、文節の依存構造に頼って文節を選択するので、要約として出力される文節の系列の隣同士が必ずしも依存構造にあるわけではなく、読み難い文が生成されるという問題があった。 However, in the conventional method of selecting and joining words, there is a problem in that the dependency structure of the original sentence is not taken into account, so that a sentence that is difficult to read or a sentence having an incorrect dependency structure is generated. Also, in the conventional method of pruning a clause while retaining the dependency structure, the clause is selected depending on the dependency structure of the clause, so the adjacent phrase sequences output as a summary are not necessarily in the dependency structure. However, there was a problem that sentences that were difficult to read were generated.
本発明の目的は、原文(入力文)の内容を維持したまま、自然で読み易い要約文を生成することにある。 An object of the present invention is to generate a natural and easy-to-read summary sentence while maintaining the contents of the original sentence (input sentence).
前記目的を達成するため、本発明では、形態素解析および係り受け解析済みの入力文に対応する要約文を生成する文短縮装置であって、単語の重要度を格納する単語重要度テーブルと、文節間の連接確率を格納する文節連接テーブルと、前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、形態素解析および係り受け解析済みの入力文を受け付ける文入力部と、文入力部で受け付けた前記入力文のルートの文節に、当該ルートの文節より文頭側にある文節であり、かつ前記入力文の文末側の文節に対し係り受け関係にある文頭側の文節を組み合わせて要約文の候補を生成するとともに、各候補の長さを前記文節情報取得部を用いて求め、さらに各候補の生成確率を前記文節情報取得部および文情報計算部を用いて求める文侯補生成部と、文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する制御部とを備えたことを特徴とする。 To achieve the above object, the present invention provides a sentence shortening device for generating a summary corresponding to the morphological analysis and dependency analysis already input sentence, a word importance level table that stores the importance of a word, and clauses articulated table for storing articulation probabilities between clause, with calculating the importance of the clause based on the importance of the words included in the phrase in which the word obtained from importance level table, constitute a sentence, the The clause information acquisition unit that calculates the length of the clause, the connection probability obtained by the clause connection table, and the clauses that constitute the sentence obtained from the clause information acquisition unit and sentence information calculation unit for calculating a generation probability of the sentence is generated on the basis of the degree, and sentence input section for accepting a morphological analysis and dependency analysis already input sentence received by the sentence input unit The root of clause of serial input sentence, a clause is more clauses of the route beginning of a sentence side, and the candidate sentence end side of the dependency summary by combining clause beginning of a sentence side in relationship to clause of the input sentence A sentence supplement generation unit that determines the length of each candidate using the phrase information acquisition unit and further determines the generation probability of each candidate using the phrase information acquisition unit and the sentence information calculation unit; a sentence candidate table for storing the candidates of the summary generated by the auxiliary generator with its generation probability and length, most generation probability is high summary candidates in a range of pre-specified length from the sentence candidate table And a controller for outputting.
以上説明したように本発明によれば、コーパスから得られる単語の重要度と文節の連接確率を用いて、入力文の依存構造に基づいて末端の文節を刈り込むことによって文を短縮するため、文節の係り受け関係の強さに基づく方法や単語の接合による方法に比べて、入力文の持つ内容を網羅し、文全体を通して自然な読み易い要約文を生成できるという効果がある。 As described above, according to the present invention, the phrase is shortened by trimming the terminal phrase based on the dependency structure of the input sentence using the importance of the word obtained from the corpus and the connection probability of the phrase. Compared to the method based on the strength of the dependency relationship and the method based on word joining, the contents of the input sentence are covered, and a natural and easy-to-read summary sentence can be generated throughout the sentence.
次に、本発明の実施の形態について図面を参照して説明する。なお、以下の説明において、「機能語」とは文節中の単語のうち文法的な役割を有する単語を、また「内容語」とは機能語以外の一般的な意味を有する単語をいうものとする。 Next, embodiments of the present invention will be described with reference to the drawings. In the following description, “function word” means a word having a grammatical role among words in a phrase, and “content word” means a word having a general meaning other than a function word. To do.
<第1の実施の形態>
図1は本発明の文短縮装置の実施の形態の一例を示すもので、本実施の形態の文短縮装置は、単語重要度テーブル1と、文節連接テーブル2と、文節情報取得部3と、文情報計算部4と、文入力部5と、文侯補生成部6と、文侯補テーブル7と、制御部8とからなる。
<First Embodiment>
FIG. 1 shows an example of an embodiment of a sentence shortening apparatus according to the present invention. The sentence shortening apparatus according to the present embodiment includes a word importance level table 1, a phrase connection table 2, a phrase
単語重要度テーブル1は、所定のコーパス(文書の集合)に対し、周知の形態素解析を行い、その中で出現する単語について予め計算された重要度を格納している。単語の重要度を計算する方法については、TF*IDF等の周知の方法を用いることができるため、特に規定しない。図2は単語重要度テーブルの一例を示すもので、ここではコーパス中の各単語(但し、内容語のみ)について、その表記、品詞、当該コーパスにおける出現頻度、該出現頻度から求められた重要度(IDF)が格納されている。 The word importance level table 1 performs a well-known morphological analysis on a predetermined corpus (a set of documents), and stores pre-calculated importance levels for words appearing therein. A method for calculating the importance of the word is not particularly defined because a known method such as TF * IDF can be used. FIG. 2 shows an example of a word importance table. Here, for each word in the corpus (however, only the content word), its notation, part of speech, appearance frequency in the corpus, and importance calculated from the appearance frequency (IDF) is stored.
文節連接テーブル2は、所定のコーパス(文書の集合)に対し、周知の形態素解析および係り受け解析を行い、その中で出現するある文節と別の文節との連鎖についての予め計算された確率(連接確率)を格納している。ある文節と別の文節とが連接する確率の計算方法については、n−gram言語モデルを作成するための周知の方法を使うことができるため、特に規定しない。 The phrase concatenation table 2 performs well-known morphological analysis and dependency analysis on a predetermined corpus (a set of documents), and pre-calculated probabilities for a chain of one phrase appearing in the same and another phrase ( The probability of connection). The calculation method of the probability that a certain clause is connected to another clause is not particularly defined because a well-known method for creating an n-gram language model can be used.
また、文節の表記の仕方については、その文節の内容語列の主辞または機能語列の主辞を単独または組み合わせて使っても良い。例えば、内容語列の主辞を単独で使う場合は、前の文節と後ろの文節における内容語列の主辞の表記のみ、前の文節と後ろの文節における内容語列の主辞の品詞のみ、あるいは前の文節と後ろの文節における内容語列の主辞の表記+品詞という形式等で表現されても良い。内容語列の主辞と機能語列の主辞を組み合わせる場合は、前の文節における内容語列の主辞と後ろの文節における機能語列の主辞の連接および前の文節における機能語列の主辞と後ろの文節における内容語列の主辞の連接で表現できる。 In addition, as to the method of notation of the clause, the main word of the content word string or the functional word string of the clause may be used alone or in combination. For example, when using the main word of the content word sequence alone, only the notation of the main word of the content word sequence in the previous and subsequent clauses, only the part of speech of the main word of the content word sequence in the previous and subsequent clauses, or the front It may be expressed in the form of notation of the main word + part of speech of the content word string in the following phrase and the following sentence. When combining the main word of the content word string and the main word of the function word string, the main word of the content word string in the previous sentence and the main word of the function word string in the previous sentence and the latter It can be expressed by concatenating the main word of the content word string in the phrase.
図3は文節連接テーブルの一例を示すもので、ここではコーパス中の連鎖する文節について、その内容語列の主辞の品詞、連接確率が格納されている。なお、ここでは文頭記号<s>や文末記号</s>との連接も含めるものとする。 FIG. 3 shows an example of the phrase connection table, in which the part of speech and the connection probability of the main word of the content word string are stored for the chained phrases in the corpus. Note that here, concatenation with the initial symbol <s> and the final symbol </ s> is also included.
文節情報取得部3は、文侯補生成部6で作成された、後述する要約文の候補(候補文)を構成する各文節について、その重要度を当該文節に含まれる各単語についての単語重要度テーブル1より得られる重要度に基づいて計算するとともに、その長さを計算する。重要度を計算する単語は品詞によって制限を設けても良く、例えば名詞に限定しても良い。重要度の計算の一例としては、文節内の各単語の重要度の総和を計算する方法がある。文節の長さは、例えば文節内の表記の文字列の文字数や特定のcodingにおけるバイト数としても良い。
The phrase
文情報計算部4は、文侯補生成部6で作成された、後述する要約文の侯補(候補文)が生成される確率(生成確率)を計算する。文の生成確率については、文節連接テーブル4より得られる前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部3によって計算された前記要約文の候補を構成する各文節の重要度とに基づいて計算する。
The sentence
文入力部5は、図示しない記憶手段から読み出されて入力され又は通信媒体を介して他の装置等から入力された、形態素解析および係り受け解析済みの短縮対象文(入力文)を受け付ける。
The
図4および図5は入力文の一例、ここでは原文(テキストデータ)が「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」である場合の例を示すもので、図4は文節の依存構造を視覚的に、また、図5は同じ依存構造を表形式で表している。図5において、「*」で始まる行が文節を表す。文節の情報には、文節番号、係り先(の文節番号)、内容語列の主辞(ヘッド)、機能語列の主辞(ヘッド)がある。主辞とは文節における代表単語を指す。以降の行には、その文節に含まれる各単語の情報を示している。例えば、先頭の文節「天気が」の情報[*0 2D 0/1]は文節番号が0で文節番号2の文節「よかった」にかかることを意味する。文節の係り先が「−1O」となる文節は依存構造のルート(根)であることを示す。
FIG. 4 and FIG. 5 are examples of input sentences, and the original sentence (text data) here is "I decided to go hiking to a park with many lunch boxes because the weather was very good." FIG. 4 shows a sentence dependency structure visually, and FIG. 5 shows the same dependency structure in a tabular form. In FIG. 5, the line beginning with “*” represents a phrase. The phrase information includes a phrase number, a relation destination (sentence number), a main word (head) of a content word string, and a main word (head) of a function word string. The main word indicates the representative word in the phrase. The following lines show information on each word included in the phrase. For example, the information [* 0
文侯補生成部6は、文入力部5で受け付けた入力文の依存構造に基づいて当該入力文を構成する単数または複数の文節を組み合わせて前記入力文に対する要約文の侯補を生成するとともに、生成した要約文の侯補を文節情報取得部3および文情報計算部4へ出力し、文節情報取得部3で計算される前記生成した要約文の侯補の各文節の長さの総和をとることによってその長さを求め、これと文情報計算部4で計算される前記生成した要約文の侯補の生成確率とを、当該生成した要約文の候補とともに文侯補テーブル7に格納する。
The sentence
要約文の侯補を生成する処理の一例を挙げる。入力文の係り受け解析結果に基づいて入力文の依存構造に合致しない候補は排除する。ここでの依存構造は根(ルート)から枝分かれして1つ以上の葉(リーフ)が再帰的に枝分かれする構造を指す。例えば、入力文の依存構造の根(ルート)に相当する文節に注目すると、ルートの文節だけからなる要約文は、入力文の依存構造を保持するので侯補の一つとする。さらにルートの文節に加え、その他の文節を次々に組み合わせ、入力文の依存構造を保持するものだけを要約文の侯補とする。 An example of a process for generating a summary sentence complement is given. Candidates that do not match the dependency structure of the input sentence are excluded based on the dependency analysis result of the input sentence. Here, the dependency structure refers to a structure in which one or more leaves (leafs) branch recursively from a root (root). For example, focusing on the clause corresponding to the root (root) of the dependency structure of the input sentence, a summary sentence consisting of only the root clause retains the dependency structure of the input sentence and is therefore one of the supplements. Furthermore, in addition to the root clause, other clauses are combined one after another, and only those that retain the dependency structure of the input sentence are used as supplements for the summary sentence.
また、文侯補生成部6は文の長さの制限を設けて要約文の侯補を生成しても良い。即ち、文節情報取得部3を用いて求めた要約文の侯補の長さ、例えば前記要約文の候補を構成する全ての文節のバイト数の総和が予め指定した制限値を超えた場合は、その候補を除外するようにしても良い。
Further, the sentence
文侯補テーブル7は、文侯補生成部6で生成された要約文の候補をその生成確率および長さとともに格納する。図6は文候補テーブルの一例を示すもので、ここでは生成確率は対数を取っている。
The sentence supplement table 7 stores the summary sentence candidates generated by the sentence
制御部8は、前述した各部を制御し、文侯補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約として出力する。
The
図7に文侯補生成部6における処理の流れを示す。
FIG. 7 shows the flow of processing in the sentence
まず始めに、文侯補テーブル7を初期化する(s1)。初期化では文節数が0の文が存在すると考える。次に、入力文の文末の文節にポインタをセットする(s2)。文侯補テーブル7に処理していない侯補文があれば(s3)、文侯補テーブル7から処理する侯補文を取り出し、侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成する(s4)。この新たな侯補文の長さが予め指定した制限を越えておらず(s5)、かつポインタの文節が依存構造のルートか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は(s6)新たな候補文の生成確率を計算し(s7)、文侯補テーブル7に新たな侯補文とその生成確率および長さを格納して(s8)残りの候補文を処理する。また、それ以外の場合は何もせずに残りの候補文を処理する。文侯補テーブル7に処理していない侯補文がなくなったら(s3)、一つ前の文節にポインタを移す(s9)。上記について、ポインタを文頭に向けてずらしていき、処理できる文節がなくなるまで繰り返す(s10)。 First, the sentence complement table 7 is initialized (s1). Initialization is considered to be a sentence with 0 clauses. Next, a pointer is set at the last sentence of the input sentence (s2). If there is an unprocessed supplementary sentence in the sentence supplementary table 7 (s3), the supplementary sentence to be processed is extracted from the sentence supplementary table 7, and the pointer sentence is connected to the head of the supplementary sentence (sentence series) to create a new candidate sentence. Generate (s4). If the length of the new supplementary sentence does not exceed the previously specified limit (s5) and the clause of the pointer is the root of the dependency structure, or the clause of the pointer is directly applied to any clause of the supplementary sentence (s6) ) Calculate the generation probability of a new candidate sentence (s7), store the new candidate sentence and its generation probability and length in the sentence complement table 7, and process the remaining candidate sentences (s8). In other cases, the remaining candidate sentences are processed without doing anything. When there are no unprocessed supplementary sentences in the sentence supplementary table 7 (s3), the pointer is moved to the previous clause (s9). The above procedure is repeated until the pointer is shifted toward the beginning of the sentence and there are no more phrases that can be processed (s10).
文情報計算部4では、文節間の連接確率と文節の重要度とに基づいて文の生成確率を計算する。以下、生成確率を計算する処理の一例について説明する。
The sentence
文節の重要度は式(1)のように文全体の重要度で各文節の重要度を正規化することにより、重要度の確率とみなしても良い。文節の重要度は文節を構成する単語の重要度を用いる。単語の重要度は文書頻度の逆数であるidfを用いる。名詞以外の品詞を有する単語には一定の非常に小さな重要度を与えても良い。重要度確率は対数を取ったものを用いても良い。 The importance of a phrase may be regarded as a probability of importance by normalizing the importance of each phrase with the importance of the whole sentence as in equation (1). The importance of a phrase uses the importance of words constituting the phrase. The importance of the word is idf which is the reciprocal of the document frequency. Words with parts of speech other than nouns may be given a certain very small importance. The importance probability may be a logarithmic value.
ここで、wkは文節Biを構成する単語を表し、nは文節数を表す。また、Bjは全ての文節を表し、wlは全ての文節を構成する単語を表す。 Here, w k represents a word constituting the phrase B i , and n represents the number of phrases. B j represents all the clauses, and w l represents words constituting all the clauses.
例えば図5から「公園に」という文節は、品詞が「名詞」の「公園」という単語と、品詞が「格助詞:連用」の「に」という単語とからなる。名詞に該当する単語は図2に示した単語重要度テーブル1中の重要度を用いるが、それ以外の単語は一定の値0.01を与えるとすると、文節「公園に」の重要度は(4.90+0.01)となり、同様に全ての文節の重要度を計算すれば、上記の式(1)より、文節「公園に」の重要度確率を求めることができる。 For example, from FIG. 5, the phrase “in the park” consists of the word “park” with the part of speech “noun” and the word “ni” with the part of speech “case particle: combined use”. For the word corresponding to the noun, the importance in the word importance table 1 shown in FIG. 2 is used, and when the other words give a constant value of 0.01, the importance of the phrase “in the park” is ( 4. Similarly, if the importance of all the phrases is calculated, the importance probability of the phrase “in the park” can be obtained from the above equation (1).
また、文節間の連接確率を求める処理の一例を以下に説明する。入力文の係り受け解析結果から、文節にはヘッドとなる内容語と機能語が得られるものとする。図5では、最初の文節は「*0 2D 0/1」となっているが、「0/1」の「0」が内容語のヘッドの位置を、「1」が機能語のヘッドの位置を表している。つまり、この場合、内容語のヘッドは「天気」であり、機能語のヘッドは「が」である。図3に示した文節間の連接確率は、別途用意したコーパスから各文節の内容語列の主辞の品詞bigramを用いて言語モデルを学習したものである。連接確率の数値は対数をとったものである。同様にして機能語列の主辞からも品詞bigramを用いて言語モデルを学習できる。これらの言語モデルから文節間の連接確率を得ることができる。
An example of processing for obtaining the connection probability between phrases will be described below. From the dependency analysis result of the input sentence, it is assumed that a content word and a function word as a head are obtained in the clause. In FIG. 5, the first phrase is “* 0
また、式(2)のようにこれらを組み合わせて、連接する文節に対して内容語列の主辞と機能語列の主辞との積を計算することにより文節間の連接確率を得ることもできる。 Further, by combining these as shown in Equation (2), it is possible to obtain the connection probability between phrases by calculating the product of the main word of the content word string and the main word of the function word string for the connected phrases.
但し、Padj contは内容語列の主辞の連接確率で、Padj funcは機能語列の主辞の連接確率を表す。あるいは、図8に示すように内容語列の主辞と機能語列の主辞との連接確率を用いても良い。 However, P adj cont is the concatenation probability of the main word in the content word sequence, P adj func represents the concatenation probability of the main word of the function word string. Alternatively, as shown in FIG. 8, the concatenation probability between the main word of the content word string and the main word of the function word string may be used.
前後の文節が依存関係にある場合の連接確率については、例えば確率Padjを1にしたり平方根を取るなどして、依存関係にあることを考慮した数値にしても良い。 Regarding the connection probability when the preceding and following clauses are in a dependency relationship, for example, the probability P adj may be set to 1 or a square root may be taken to take a numerical value that considers the dependency relationship.
文節の重要度確率と文節の連接確率が求まれば、文の生成確率は式(3)で求めることができる。 If the importance probability of the phrase and the connection probability of the phrase are obtained, the generation probability of the sentence can be obtained by Expression (3).
確率を対数で表すと、次のようになる。 Probability is expressed in logarithm as follows.
要約文の候補の先頭の文節はB0で表され、要約文の候補の文節数をnとすると末尾の文節はBn-1で表される。B-1は文頭記号<s>を指し、Bnは文末記号</s>を指す。 The head clause of the summary sentence candidate is represented by B 0 , and the last sentence is represented by B n−1, where n is the number of summary sentence candidate clauses. B -1 indicates a sentence head symbol <s>, and B n indicates a sentence end symbol </ s>.
また、文の長さも考慮した生成確率を計算するには、式(5)のように要約文の候補の文節数の幾何平均により正規化しても良い。 Further, in order to calculate the generation probability in consideration of the sentence length, normalization may be performed by the geometric mean of the number of phrases of the summary sentence candidates as shown in Equation (5).
確率を対数で表すと、次のようになる。 Probability is expressed in logarithm as follows.
但し、nは要約文の候補の文節数を表す。 However, n represents the number of phrases of the summary sentence candidate.
入力文「天気がとてもよかったこともあってお弁当を持って緑の多そうな公園にハイキングに行くことにした。」において、図4に示した依存構造を入力とする場合について説明する。要約文の候補には始めに文頭記号と文末記号からなる<s></s>(文節数0の文)を保持しておく。 The case where the dependency structure shown in FIG. 4 is used as an input in the input sentence “I decided to go hiking in a park with lots of green because the weather was very good” was explained. First, a summary sentence candidate holds <s> </ s> (sentence with 0 clauses) composed of a head symbol and a sentence end symbol.
文候補生成部6では、ポインタを末尾に設定し、末尾の文末から検査することにより依存構造のルート文節である「した。」を得る。ルート文節は要約文の侯補にするので、要約文の侯補に追加し、「<s>した。</s>」の生成確率を計算する。図6はポインタを文末の1番目から8番目までずらした文侯補テーブルの例であり、この際、図6の1行目に示す文節数と生成確率と長さが文候補テーブル7に格納される。但し、図6では文頭記号と文末記号の記載を省略している。
The sentence
次にポインタを1つ前にずらし、文節「ことに」を文侯補テーブル7にある「<s>した。</s>」と「<s></s>」の侯補文の前につなげる。このとき、「ことに」は「した。」にかかるので、「<s>ことにした。</s>」を要約文に採用する。図6の2行目に示すように文節数と生成確率と長さを格納する。「ことに」の直接の係り先が「した。」以外には存在しないので、「<s>ことに</s>」は採用しない。 Next, the pointer is shifted to the previous position, and the phrase “To” is connected to the “<s>” and “<s> </ s>” in the sentence complement table 7. . At this time, since “it” is related to “we did”, “<s> is decided. </ S>” is adopted in the summary sentence. As shown in the second line of FIG. 6, the number of clauses, generation probability, and length are stored. Since there is no direct relationship of “thing” other than “do”, “<s> especially </ s>” is not adopted.
以降同様に、「<s>行くことにした。</s>」は採用するが、「<s>行くことに</s>」や「<s>行く</s>」や「行くした。</s>」は採用しない。 Similarly, “<s> go. </ S>” is adopted, but “<s> go to </ s>”, “<s> go </ s>” and “goed” </ </ S> ”is not adopted.
以降同様に計算し、制限文字数を越えないという条件のもとで、ポインタを文頭までずらしていき、文頭文節までの組み合わせを計算する。 Thereafter, the same calculation is performed. Under the condition that the limit number of characters is not exceeded, the pointer is shifted to the beginning of the sentence, and the combination up to the beginning sentence is calculated.
文節数が大きくなるにつれて計算量が増えるので、全ての組み合わせを計算するのではなく、ポインタのある位置での生成確率の高い上位N個の侯補文だけを保持して、次にポインタをずらすときはそれらを含む候補文だけに絞るために、ビームサーチのような周知の方法を取って計算量を減らしても良い。 Since the amount of calculation increases as the number of clauses increases, not all combinations are calculated, but only the top N complement sentences with a high probability of generation at a position of the pointer are held, and the pointer is shifted next time In order to narrow down to candidate sentences including them, a known method such as beam search may be used to reduce the amount of calculation.
この例の入力文はEUCエンコーディングにおいて92バイトで、制限文字数は要約率を60%としたときに55.2バイトである。候補となる要約文を生成する過程で55.2バイトを越える要約文は除外され、ポインタをずらした際にも除外した要約文の侯補はもはや考慮せず、これらの侯補に新たに文節を加えた要約文は生成されない。 The input sentence in this example is 92 bytes in EUC encoding, and the limit number of characters is 55.2 bytes when the summarization rate is 60%. In the process of generating candidate summaries, summaries exceeding 55.2 bytes are excluded, and the supplements of the summaries that have been excluded even when the pointer is shifted are no longer considered, and new phrases are added to these supplements. A summary sentence added with is not generated.
図9はこのときの最終的な文侯補テーブルの生成確率が上位の侯補文を示している。図10は文節連接確率を用いないで文節重要度のみで生成確率を計算した場合の例である。これらを比較すると、図9は上位5件が全て自然な文であるのに対して、図10は上位5件のうちの2つが不自然な文になっている。このことから、本発明では文を短縮する際に読み易い文を生成できるということが言える。 FIG. 9 shows a supplementary sentence with the highest generation probability of the final sentence supplementary table at this time. FIG. 10 shows an example in which the generation probability is calculated only by the phrase importance without using the phrase connection probability. Comparing these, FIG. 9 shows that the top five cases are all natural sentences, whereas FIG. 10 shows that two of the top five cases are unnatural sentences. From this, it can be said that the present invention can generate an easy-to-read sentence when the sentence is shortened.
なお、要約率を100%、つまり入力文と同じ長さに設定することもできる。この場合、入力文も含めて最も高い確率で生成される文が出力される。 The summary rate can be set to 100%, that is, the same length as the input sentence. In this case, the sentence generated with the highest probability including the input sentence is output.
<第2の実施の形態>
ところで、要約文の制限文字数が少なく設定されていたり、入力文の文字数が多い場合、つまり要約率が低い場合(なお、本願では、文が短縮されない(原文に近い)ほど要約率が高い、文が短縮される(原文から遠い)ほど要約率が低い、と表現する。)に、要約文は入力文(原文)の依存構造の根(ルート)を含まなければならないという制約があると、要約文に重要な文節を含めることができなかったり、読み難い要約文を生成してしまうことがある。
<Second Embodiment>
By the way, if the number of characters in the summary sentence is set to be small or the number of characters in the input sentence is large, that is, the summary rate is low (in this application, the sentence is not shortened (close to the original text), the summary rate is high. Is expressed in such a way that the summary rate is lower (the farther away from the original text is, the lower the summarization rate is).) However, if there is a constraint that the root of the dependency structure of the input sentence (original text) must be included, Sentences may not contain important clauses or may produce summary sentences that are difficult to read.
このような場合、前記制約をなくし、原文の依存構造のルート以外の文節、即ち原文中の予め指定した特定の条件を満たす文節を文末とする要約文の候補を生成することで、前述した問題を解決することができる。但し、原文の依存構造のルート以外の文節を文末とする要約文を出力する場合、文末が不自然になるため、文末の文節では内容語列だけを取り出すことで、要約文の文末を体言止めに変換するようにしても良い。 In such a case, the above-mentioned problem can be solved by eliminating the restriction and generating a summary sentence candidate having a sentence other than the root of the dependency structure of the original sentence, that is, a sentence satisfying a specific condition specified in advance in the original sentence. Can be solved. However, when outputting a summary sentence with a clause other than the root of the dependency structure of the original sentence as the end of the sentence, the end of the sentence becomes unnatural, so in the last sentence of the sentence, only the content word string is taken out to stop the end of the summary sentence. You may make it convert into.
本実施の形態の装置構成は、図1に示したものと基本的に同一であるが、文候補生成部6及び制御部8における動作が異なる。
The apparatus configuration of the present embodiment is basically the same as that shown in FIG. 1, but the operations in the sentence
即ち、本実施の形態の文候補生成部6では、第1の実施の形態の場合と同様、文入力部5で受け付けた入力文の依存構造に基づいて当該入力文を構成する単数または複数の文節を組み合わせて前記入力文に対する要約文の侯補を生成するとともに、生成した要約文の侯補を文節情報取得部3および文情報計算部4へ出力し、文節情報取得部3で計算される前記生成した要約文の侯補の各文節の長さの総和をとることによってその長さを求め、これと文情報計算部4で計算される前記生成した要約文の侯補の生成確率とを、当該生成した要約文の候補とともに文侯補テーブル7に格納するが、要約文の侯補を生成する際、入力文(原文)の依存構造のルート以外の予め指定した特定の条件を満たす文節を文末とする要約文の候補も生成することができる。
That is, in the sentence
図11は本実施の形態の文侯補生成部6における処理の流れを示すもので、図7に示した第1の実施の形態の場合と比較して、ポインタの文節に関する判定処理(s6)において、ポインタの文節が依存構造のルートか、またはポインタの文節が予め指定された特定の条件を満たすか、またはポインタの文節が侯補文のいずれかの文節に直接かかるか、を判定している(s11)点を除いて同様である。
FIG. 11 shows the flow of processing in the sentence
本実施の形態における要約文の候補を生成する処理の一例を挙げる。ある文節が予め指定した特定の条件を満たす場合、当該文節が原文の依存構造の根(ルート)でなくても、その文節と下部の文節とを次々に組み合わせて要約文の候補とする。即ち、その文節を最上位とする部分木の集合を要約文の候補としても良い。 An example of processing for generating summary sentence candidates in the present embodiment will be described. When a clause satisfies a specific condition specified in advance, even if the clause is not the root (root) of the dependency structure of the original sentence, the clause and lower clauses are combined one after another to be a summary sentence candidate. In other words, a set of subtrees with the clause at the top may be used as a summary sentence candidate.
特定の条件の一例としては、
(1)係り受けの深さが1(原文の依存構造のルートに直接係る)の文節である、
(2)内容語列の主辞(ヘッド)の品詞は、「名詞」、「名詞:動作」、「名詞:連用」、「補助名詞」、「名詞接尾辞:名詞」のいずれかである、
(3)機能語列の主辞(ヘッド)の品詞が「連用」を含み、かつその文節が「読点」を含む、
が挙げられ、これらのいずれも満たす文節を最上位とする部分木を要約文の候補としても良い。
As an example of specific conditions,
(1) A clause whose dependency depth is 1 (directly related to the root of the dependency structure of the original text),
(2) The part of speech of the main word (head) of the content word sequence is one of “noun”, “noun: action”, “noun: continuous use”, “auxiliary noun”, “noun suffix: noun”,
(3) The part of speech of the main word (head) of the function word string includes “continuous use”, and the phrase includes “reading marks”.
A subtree having the highest phrase as a clause satisfying any of these may be used as a summary sentence candidate.
また、特定の条件の他の例としては、
(a)(i)文節の表記が「であり」、「であって」、「で、」のいずれかを含む場合は、係り先の文節が述部か(係り受けの深さが1)または係り先の文節の機能語列の主辞の品詞が「動詞語幹」や「名詞:動作」でない文節である、あるいは、
(ii)文節の表記が「を」を含む場合は、係り先の文節の表記が「指し、」、「意味し、」、「言い、」、「いい、」のいずれかである、
(b)文節内の内容語列の主辞の品詞が、「名詞」、「名詞:動作」、「名詞:連用」、「補助名詞」、「名詞接尾辞:名詞」のいずれかである、
が挙げられ、これらのいずれも満たす文節を最上位とする部分木の集合を要約文の候補としても良い。
As another example of specific conditions,
(A) (i) If the clause notation contains “is”, “is”, or “de”, the dependency clause is a predicate (the dependency depth is 1) Or the part of speech of the main word in the function word sequence of the related clause is a phrase that is not “verb stem” or “noun: action”, or
(ii) If the phrase description includes `` '', the related phrase description is `` point, '' `` means, '' `` say, '' or `` good, ''
(B) The part of speech of the content word sequence in the clause is one of “noun”, “noun: action”, “noun: continuous use”, “auxiliary noun”, “noun suffix: noun”,
A set of subtrees with the clauses satisfying all of these as the highest level may be used as summary sentence candidates.
このように文節の表記、品詞、係り受けの深さなどを条件にすることができるが、これらに限定されるものではない。 As described above, the phrase notation, the part of speech, the depth of dependency, and the like can be used as conditions, but the present invention is not limited thereto.
図12は入力文(原文)の他の例、図13は図12の入力文の文節の依存構造を視覚的に、また、図14は同じ依存構造を表形式(但し、文節番号5以下のみ)で表したものであり、以下、これらを用いて、本実施の形態における要約文の候補の生成について説明する。なお、図14中の記号の意味は図5の場合と同様である。
FIG. 12 shows another example of the input sentence (original sentence), FIG. 13 visually shows the dependency structure of the clause of the input sentence of FIG. 12, and FIG. 14 shows the same dependency structure in tabular form (however, only the
前述した入力文は、文節番号11の文節「呼ばれる。」を根(ルート)とする依存構造を有する。依存構造のルートを含まなければならないとした場合には、図15に示すような要約文しか生成されない。
The above-described input sentence has a dependency structure having the phrase “called” with the
ここで、上記3つの条件(1)(2)(3)を全て満たす文節は文節番号9の文節「天使で、」である。なぜなら、この文節は文節番号11、即ち依存構造のルートに係り、内容語列の主辞の品詞が「名詞」であり、機能語列の主辞の品詞が「格助詞:連用」であって「連用」を含み、かつ「読点」を含むからである。従って、この文節を要約文の候補とする。さらに依存構造を保持するようにこの文節とその下部の文節とを次々に組み合わせたものも要約文の候補とする。
Here, the phrase that satisfies all the above three conditions (1), (2), and (3) is the phrase “with angel” with the
また、原文の依存構造のルートを含まない候補文を出力する場合には、要約文の末尾が文としては不自然になるので、文節の途中で出力をやめて体言止めにしても良い。この場合、体言止めになるように機能語列を省略することから、先の条件に該当する文節の機能語列の主辞(ヘッド)の品詞を内容語列の主辞(ヘッド)の品詞に置換しても良い。 In addition, when outputting a candidate sentence that does not include the root of the dependency structure of the original sentence, the end of the summary sentence becomes unnatural as a sentence. In this case, since the function word string is omitted so as to stop speaking, the part of speech of the head word of the function word string of the clause corresponding to the previous condition is replaced with the part of speech of the head word of the content word string. May be.
例えば、図12乃至図14の例の場合、予め指定した特定の条件を満たす文節の機能語列の主辞(ヘッド)の品詞である「格助詞:連用」を内容語列の主辞(ヘッド)である品詞である「名詞」に置換する。これにより、「格助詞:連用」と文末記号<s/>との連接確率が−2.306であったとしても、これを「名詞」と文末記号<s/>との連接確率−1.380である場合にこれを代わりに用いて生成確率を計算することができ、文末を体言止めにした場合の生成確率を計算できるという効果を得ることができる。 For example, in the example of FIGS. 12 to 14, “case particles: continuous use”, which is the part of speech of the functional word string of the phrase satisfying a specific condition specified in advance, is used as the main word (head) of the content word string. Replace with a noun that is a part of speech. As a result, even if the concatenation probability between “case particle: continuous use” and the sentence ending symbol <s /> is −2.306, the connection probability between “noun” and sentence ending symbol <s /> is −1.380. This can be used instead to calculate the generation probability, and the generation probability when the sentence ending is stopped can be calculated.
本実施の形態の制御部8では、第1の実施の形態の場合と同様、前述した各部を制御し、文侯補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約として出力するが、前述した特定の条件を満たす場合は出力しようとする候補の文末の文節の単語を全て出力せずに途中までを出力する。
As in the case of the first embodiment, the
例えば、文末の文節について最初の単語から内容語列の主辞(ヘッド)の単語までに出力を制限することで、内容語列だけを出力することができる。例えば、図14の文節番号9の文節「天使で、」の内容語列の主辞(ヘッド)は「天使」であるため、この文節における出力は「天使」のみとなる。これにより、図16に示すように、要約文の文末を体言止めにすることができる。
For example, by restricting the output from the first word to the main word (head) of the content word string for the clause at the end of the sentence, only the content word string can be output. For example, since the main word (head) of the content word string of the phrase “Angel,” with
図17に本実施の形態の制御部8における処理の流れを示す。
FIG. 17 shows a flow of processing in the
制御部8は、文候補テーブル7から予め指定された長さの範囲で最も生成確率が高い要約文の候補を入力文の要約として出力するが、この際、当該候補が前述した特定の条件を満たしたかどうかを判定し(s21)、満たさない場合は何もせずそのまま出力し、一方、前述した特定の条件を満たす場合はその文末の文節を内容語列のみとして出力する以下の処理を行う。
The
即ち、出力しようとする要約文の文節が最後の文節でなければ(s22)、当該文節の全ての単語を出力する(s23)。一方、最後の文節であれば、当該文節の内容語列の主辞の単語の位置を取得し(s24)、ポインタの位置を当該文節の先頭「0」にセットする(s25)。次に、前記取得した内容語列の主辞の単語の位置とポインタの位置とを比較し、ポインタの位置が前記取得した位置以下であれば(s26)、ポインタの位置にある単語を出力する(s27)とともにポインタの位置をインクリメントし(s28)、これをポインタの位置が前記取得した位置より大きくなるまで繰り返す。 That is, if the summary phrase to be output is not the last phrase (s22), all words in the phrase are output (s23). On the other hand, if it is the last clause, the position of the main word in the content word string of the clause is acquired (s24), and the position of the pointer is set to the head “0” of the clause (s25). Next, the position of the main word in the acquired content word string is compared with the position of the pointer, and if the position of the pointer is equal to or less than the acquired position (s26), the word at the position of the pointer is output ( The position of the pointer is incremented together with s27) (s28), and this is repeated until the position of the pointer becomes larger than the acquired position.
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムあるいは図7、図11、図17のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。 Note that the present invention includes a program for realizing the functions shown in the configuration diagram of FIG. 1 or the procedures shown in the flowcharts of FIGS. 7, 11, and 17 via a medium or a communication line in a known computer. It can also be realized by installing a program.
1:単語重要度テーブル、2:文節連接テーブル、3:文節情報取得部、4:文情報計算部、5:文入力部、6:文侯補生成部、7:文侯補テーブル、8:制御部。 1: word importance table, 2: phrase connection table, 3: phrase information acquisition unit, 4: sentence information calculation unit, 5: sentence input unit, 6: sentence supplement generation unit, 7: sentence supplement table, 8: Control unit.
Claims (9)
単語の重要度を格納する単語重要度テーブルと、
文節間の連接確率を格納する文節連接テーブルと、
前記単語重要度テーブルより得られる、文を構成する文節に含まれる単語についての重要度に基づいて当該文節の重要度を計算するとともに、当該文節の長さを計算する文節情報取得部と、
前記文節連接テーブルより得られる、文を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部より得られる前記文を構成する文節の重要度とに基づいて当該文が生成される生成確率を計算する文情報計算部と、
形態素解析および係り受け解析済みの入力文を受け付ける文入力部と、
文入力部で受け付けた前記入力文のルートの文節に、当該ルートの文節より文頭側にある文節であり、かつ前記入力文の文末側の文節に対し係り受け関係にある文頭側の文節を組み合わせて要約文の候補を生成するとともに、各候補の長さを前記文節情報取得部を用いて求め、さらに各候補の生成確率を前記文節情報取得部および文情報計算部を用いて求める文侯補生成部と、
文侯補生成部で生成された要約文の候補をその生成確率および長さとともに格納する文候補テーブルと、
前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力する制御部とを備えた
ことを特徴とする文短縮装置。 A sentence shortening device that generates a summary sentence corresponding to an input sentence that has been subjected to morphological analysis and dependency analysis,
And the word significance table that stores the importance of a single word,
And clause connecting table that contains the concatenation probability of inter-clause,
Calculating the importance of the clause based on the importance of the words included in the clauses constituting the sentence obtained from the word importance table, and the phrase information acquisition unit for calculating the length of the clause;
Probability of generating the sentence based on the concatenation probability that the phrases constituting the sentence are adjacent to each other and the importance of the phrases constituting the sentence obtained from the phrase information acquisition unit, obtained from the phrase connection table A sentence information calculation unit for calculating
A sentence input unit that accepts input sentences that have been subjected to morphological analysis and dependency analysis;
The root of the phrase of the input sentence received by sentence input section, a clause is more clauses of the route beginning of a sentence side, and combining the clauses beginning of a sentence side in the modification relation to endnote side clauses of the input sentence A summary sentence candidate is generated, the length of each candidate is determined using the phrase information acquisition unit, and the generation probability of each candidate is determined using the phrase information acquisition unit and the sentence information calculation unit. A generator,
A sentence candidate table that stores the summary sentence candidates generated by the sentence complement generation unit together with the generation probability and length thereof;
Statements shortening device being characterized in that a control unit for outputting a candidate for most product probable summary in the range of pre-specified length from the sentence candidate table.
(a)入力文のルートの文節にポインタをセットし、前記ルートの文節を要約文の候補とし、前記ルートの文節の生成確率を前記文情報計算部を用いて計算し、前記ルートの文節の長さを前記文節情報取得部を用いて計算し、求めた前記ルートの文節の生成確率および長さを文候補テーブルに格納し、前記ルートの文節の一つ前の文節にポインタを移し、
(b)前記文侯補テーブルから処理する侯補文を取り出し、当該侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を前記文情報計算部を用いて計算し、前記新たな候補文の長さを前記文節情報取得部を用いて計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)前記文侯補テーブルに処理していない侯補文がなくなったら、前記ポインタの文節の一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項1に記載の文短縮装置。 The sentence complement generation unit
(A) a pointer is set to the incoming print statements routes clause, the candidate phrase the summary of the route, the generation probability of the root of the phrase is calculated using the sentence information calculation unit, clauses of the route Is calculated using the phrase information acquisition unit, the generation probability and length of the obtained phrase of the root is stored in a sentence candidate table, and the pointer is moved to the previous phrase of the root phrase,
(B) the removed Hou complementizer for processing from Bunko auxiliary table, by connecting a clause top pointer of the Hou complementizer (series of clauses) generates a new candidate sentences,
(C) If the length of the new supplementary sentence does not exceed a predetermined limit and the clause of the pointer is the root of the dependency structure, or the clause of the pointer is directly applied to any clause of the supplementary sentence, the new supplementary sentence The generation probability of a candidate sentence is calculated using the sentence information calculation unit, the length of the new candidate sentence is calculated using the phrase information acquisition unit, and the new supplementary sentence and its Store the generation probability and length and return to (b), otherwise do nothing and return to (b)
; (D) Bunko When there is no more Hou complementizer not treated to the auxiliary table and transferred to the pointer to the previous clause clause of the pointer back (b), the
(E) Repeat (b) to (d) until there are no more clauses that can be processed,
The sentence shortening device according to claim 1, wherein a summary sentence candidate is generated.
(a)入力文のルートの文節にポインタをセットし、前記ルートの文節を要約文の候補とし、前記ルートの文節の生成確率を前記文節情報取得部および文情報計算部を用いて計算し、前記ルートの文節の長さを前記文節情報取得部を用いて計算し、求めた前記ルートの文節の生成確率および長さを文候補テーブルに格納し、前記ルートの文節の一つ前の文節にポインタを移し、
(b)前記文侯補テーブルから処理する侯補文を取り出し、当該侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c’)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が予め指定された特定の条件を満たすか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を前記文情報計算部を用いて計算し、前記新たな候補文の長さを前記文節情報取得部を用いて計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)前記文侯補テーブルに処理していない侯補文がなくなったら、前記ポインタの文節の一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項1に記載の文短縮装置。 The sentence complement generation unit
A pointer is set to the root of clause (a) incoming print statements, the candidate of the summary of the clauses of the route, the generation probability of the root of the phrase is calculated using the phrase information obtaining unit and sentence information calculation unit Calculating the length of the phrase of the route using the phrase information acquisition unit, storing the generation probability and length of the determined phrase of the route in a sentence candidate table, and the phrase preceding the phrase of the root Move the pointer to
(B) the removed Hou complementizer for processing from Bunko auxiliary table, by connecting a clause top pointer of the Hou complementizer (series of clauses) generates a new candidate sentences,
(C ′) the length of the new supplementary sentence does not exceed a predesignated limit and the clause of the pointer is a root of a dependency structure, or the clause of the pointer satisfies a predesignated specific condition, or When the clause of the pointer is directly applied to any clause of the supplementary sentence, the generation probability of the new candidate sentence is calculated using the sentence information calculation unit, and the length of the new candidate sentence is calculated using the phrase information acquisition unit. And the new supplementary sentence and its generation probability and length are stored in the sentence supplementary table, and the process returns to (b). Otherwise, nothing is performed and the process returns to (b).
; (D) Bunko When there is no more Hou complementizer not treated to the auxiliary table and transferred to the pointer to the previous clause clause of the pointer back (b), the
(E) Repeat (b) to (d) until there are no more clauses that can be processed,
The sentence shortening device according to claim 1, wherein a summary sentence candidate is generated.
ことを特徴とする請求項3に記載の文短縮装置。 Control unit when outputting the candidate most generation probability is high summary in the range of pre-specified length from the sentence candidate table, if not satisfy the specified condition is directly output, the specific condition The sentence shortening device according to claim 3, wherein if the condition is satisfied, the phrase at the end of the sentence is output as only the content word string.
文入力部が、形態素解析および係り受け解析済みの入力文を受け付けるステップと、
文侯補生成部が、前記入力文のルートの文節に、当該ルートの文節より文頭側にある文節であり、かつ前記入力文の文末側の文節に対し係り受け関係にある文頭側の文節を組み合わせて要約文の候補を生成し、文節情報取得部および文情報計算部へ出力するステップと、
文節情報取得部が、単語の重要度を格納する単語重要度テーブルより得られる、前記要約文の候補を構成する文節に含まれる単語についての重要度に基づいて当該要約文の候補を構成する文節の重要度を計算するとともに当該文節の長さを計算し、文節の重要度を文情報計算部へ出力するとともに文節の長さを文侯補生成部へ出力するステップと、
文情報計算部が、文節間の連接確率を格納する文節連接テーブルより得られる、前記要約文の候補を構成する文節のそれぞれが隣り合う連接確率と、文節情報取得部より得られる前記要約文の候補を構成する文節の重要度とに基づいて当該要約文の候補が生成される生成確率を計算し、文侯補生成部へ出力するステップと、
文侯補生成部が、文節情報取得部より得られる前記要約文の候補を構成する文節の長さから当該要約文の候補の長さを求め、文情報計算部より得られる前記要約文の候補の生成確率とともに文候補テーブルに格納するステップと、
制御部が、前記文候補テーブルから予め指定された長さの範囲で最も生成確率が高い要約文の候補を出力するステップとを含む
ことを特徴とする文短縮方法。 A sentence shortening method for generating a summary sentence corresponding to an input sentence that has been subjected to morphological analysis and dependency analysis,
A step in which a sentence input unit receives an input sentence that has undergone morphological analysis and dependency analysis;
Bunko auxiliary generator is the root of the phrase of the input sentence, a clause is more clauses of the route beginning of a sentence side, and the clause beginning of a sentence side in the modification relation to endnote side clauses of the input sentence Generating a summary sentence candidate in combination and outputting it to the phrase information acquisition unit and the sentence information calculation unit;
Clause information acquisition unit is obtained from the word significance table for storing the importance of a word to form a candidate of the summary based on the importance of the words contained in clause constituting candidates for the summary Calculating the importance of the clause, calculating the length of the clause, outputting the importance of the clause to the sentence information calculation unit, and outputting the length of the clause to the sentence complement generation unit;
Sentence information calculation unit is obtained from the clauses articulated table for storing articulation probabilities between clause, and connecting the probability that each adjacent clauses that constitute the candidate of the summary, the summary obtained from clause information acquisition unit Calculating a generation probability that the candidate for the summary sentence is generated based on the importance of the clauses constituting the candidate and outputting to the sentence complement generation unit;
The sentence complement generation unit obtains the length of the summary sentence candidate from the lengths of the phrases constituting the summary sentence candidate obtained from the phrase information acquisition unit, and the summary sentence candidate obtained from the sentence information calculation unit Storing in the sentence candidate table together with the generation probability of
Control unit, sentence shortened method characterized by including the step of outputting a candidate for most product probable summary in the range of pre-specified length from the sentence candidate table.
(a)入力文のルートの文節にポインタをセットし、前記ルートの文節を要約文の候補とし、前記ルートの文節の生成確率を前記文情報計算部を用いて計算し、前記ルートの文節の長さを前記文節情報取得部を用いて計算し、求めた前記ルートの文節の生成確率および長さを文候補テーブルに格納し、前記ルートの文節の一つ前の文節にポインタを移し、
(b)前記文侯補テーブルから処理する侯補文を取り出し、当該侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を前記文情報計算部を用いて計算し、前記新たな候補文の長さを前記文節情報取得部を用いて計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)前記文侯補テーブルに処理していない侯補文がなくなったら、前記ポインタの文節の一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項5に記載の文短縮方法。 The sentence complement generation step includes:
(A) a pointer is set to the incoming print statements routes clause, the candidate phrase the summary of the route, the generation probability of the root of the phrase is calculated using the sentence information calculation unit, clauses of the route Is calculated using the phrase information acquisition unit, the generation probability and length of the obtained phrase of the root is stored in a sentence candidate table, and the pointer is moved to the previous phrase of the root phrase,
(B) the removed Hou complementizer for processing from Bunko auxiliary table, by connecting a clause top pointer of the Hou complementizer (series of clauses) generates a new candidate sentences,
(C) If the length of the new supplementary sentence does not exceed a predetermined limit and the clause of the pointer is the root of the dependency structure, or the clause of the pointer is directly applied to any clause of the supplementary sentence, the new supplementary sentence The generation probability of a candidate sentence is calculated using the sentence information calculation unit, the length of the new candidate sentence is calculated using the phrase information acquisition unit, and the new supplementary sentence and its Store the generation probability and length and return to (b), otherwise do nothing and return to (b)
; (D) Bunko When there is no more Hou complementizer not treated to the auxiliary table and transferred to the pointer to the previous clause clause of the pointer back (b), the
(E) Repeat (b) to (d) until there are no more clauses that can be processed,
6. The sentence shortening method according to claim 5, wherein a summary sentence candidate is generated.
(a)入力文のルートの文節にポインタをセットし、前記ルートの文節を要約文の候補とし、前記ルートの文節の生成確率を前記文節情報取得部および文情報計算部を用いて計算し、前記ルートの文節の長さを前記文節情報取得部を用いて計算し、求めた前記ルートの文節の生成確率および長さを文候補テーブルに格納し、前記ルートの文節の一つ前の文節にポインタを移し、
(b)前記文侯補テーブルから処理する侯補文を取り出し、当該侯補文(文節の系列)の先頭にポインタの文節をつなげて新たな候補文を生成し、
(c’)前記新たな侯補文の長さが予め指定した制限を越えておらず、かつポインタの文節が依存構造のルートか、またはポインタの文節が予め指定された特定の条件を満たすか、またはポインタの文節が侯補文のいずれかの文節に直接かかる場合は前記新たな候補文の生成確率を前記文情報計算部を用いて計算し、前記新たな候補文の長さを前記文節情報取得部を用いて計算し、前記文侯補テーブルに前記新たな侯補文とその生成確率および長さを格納して(b)に戻り、それ以外の場合は何もせず(b)に戻り、
(d)前記文侯補テーブルに処理していない侯補文がなくなったら、前記ポインタの文節の一つ前の文節にポインタを移して(b)に戻り、
(e)処理できる文節がなくなるまで(b)〜(d)を繰り返す、
ことにより要約文の候補を生成する
ことを特徴とする請求項5に記載の文短縮方法。 The sentence complement generation step includes:
A pointer is set to the root of clause (a) incoming print statements, the candidate of the summary of the clauses of the route, the generation probability of the root of the phrase is calculated using the phrase information obtaining unit and sentence information calculation unit Calculating the length of the phrase of the route using the phrase information acquisition unit, storing the generation probability and length of the determined phrase of the route in a sentence candidate table, and the phrase preceding the phrase of the root Move the pointer to
(B) the removed Hou complementizer for processing from Bunko auxiliary table, by connecting a clause top pointer of the Hou complementizer (series of clauses) generates a new candidate sentences,
(C ′) the length of the new supplementary sentence does not exceed a predesignated limit and the clause of the pointer is a root of a dependency structure, or the clause of the pointer satisfies a predesignated specific condition, or When the clause of the pointer is directly applied to any clause of the supplementary sentence, the generation probability of the new candidate sentence is calculated using the sentence information calculation unit, and the length of the new candidate sentence is calculated using the phrase information acquisition unit. And the new supplementary sentence and its generation probability and length are stored in the sentence supplementary table, and the process returns to (b). Otherwise, nothing is performed and the process returns to (b).
; (D) Bunko When there is no more Hou complementizer not treated to the auxiliary table and transferred to the pointer to the previous clause clause of the pointer back (b), the
(E) Repeat (b) to (d) until there are no more clauses that can be processed,
6. The sentence shortening method according to claim 5, wherein a summary sentence candidate is generated.
ことを特徴とする請求項7に記載の文短縮方法。 Control unit, when outputting the candidate most generation probability is high summary in the range of pre-specified length from the sentence candidate table, if not satisfy the specified condition is directly output, the specific condition The sentence shortening method according to claim 7, further comprising a step of outputting a sentence at the end of the sentence as a content word string only when the condition is satisfied.
The program for functioning a computer as each means of the sentence shortening apparatus in any one of Claims 1 thru | or 4.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177584A JP5058221B2 (en) | 2008-11-12 | 2009-07-30 | Sentence shortening device, method and program thereof |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008289719 | 2008-11-12 | ||
JP2008289719 | 2008-11-12 | ||
JP2009177584A JP5058221B2 (en) | 2008-11-12 | 2009-07-30 | Sentence shortening device, method and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010140468A JP2010140468A (en) | 2010-06-24 |
JP5058221B2 true JP5058221B2 (en) | 2012-10-24 |
Family
ID=42350523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009177584A Active JP5058221B2 (en) | 2008-11-12 | 2009-07-30 | Sentence shortening device, method and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5058221B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5810052B2 (en) * | 2012-08-27 | 2015-11-11 | 日本電信電話株式会社 | Abstract generating apparatus, method, and program |
JP5810053B2 (en) * | 2012-08-27 | 2015-11-11 | 日本電信電話株式会社 | Abstract generating apparatus, method, and program |
JP6565262B2 (en) * | 2015-03-27 | 2019-08-28 | 富士通株式会社 | Abbreviated sentence generation apparatus, method, and program |
US9767193B2 (en) | 2015-03-27 | 2017-09-19 | Fujitsu Limited | Generation apparatus and method |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11184865A (en) * | 1997-12-19 | 1999-07-09 | Matsushita Electric Ind Co Ltd | Document summarizing device |
JP2001184352A (en) * | 1999-12-27 | 2001-07-06 | Dainippon Screen Mfg Co Ltd | Automatic summary preparing device and recording medium |
JP2001265792A (en) * | 2000-03-15 | 2001-09-28 | Rikogaku Shinkokai | Device and method for automatically generating summary sentence and medium having the method recorded thereon |
JP3790187B2 (en) * | 2002-05-22 | 2006-06-28 | 日本電信電話株式会社 | Text summarization method, apparatus, and text summarization program |
-
2009
- 2009-07-30 JP JP2009177584A patent/JP5058221B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010140468A (en) | 2010-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2958105B1 (en) | Method and apparatus for speech synthesis based on large corpus | |
JP4931958B2 (en) | Text summarization method, apparatus and program | |
Ney et al. | Algorithms for statistical translation of spoken language | |
CN103678282B (en) | A kind of segmenting method and device | |
Salloum et al. | Elissa: A dialectal to standard Arabic machine translation system | |
Chitnis et al. | Variable-length word encodings for neural translation models | |
Kaur et al. | Review of machine transliteration techniques | |
US20080255841A1 (en) | Voice search device | |
KR100932538B1 (en) | Speech synthesis method and apparatus | |
CN101685441A (en) | Generalized reordering statistic translation method and device based on non-continuous phrase | |
JP5058221B2 (en) | Sentence shortening device, method and program thereof | |
Al-Gaphari et al. | A method to convert Sana’ani accent to Modern Standard Arabic | |
JP2009075795A (en) | Machine translation device, machine translation method, and program | |
KR20050032759A (en) | Automatic expansion method and device for foreign language transliteration | |
JP6300601B2 (en) | Dictionary device, morpheme analyzer, data structure, morpheme analysis method and program | |
JP2006004366A (en) | Machine translation system and computer program for it | |
Oravecz et al. | Semi-automatic normalization of Old Hungarian codices | |
KR101604553B1 (en) | Apparatus and method for generating pseudomorpheme-based speech recognition units by unsupervised segmentation and merging | |
Arısoy et al. | Turkish dictation system for broadcast news applications | |
JP6300596B2 (en) | Dictionary device, morpheme analyzer, data structure, morpheme analysis method and program | |
Bisazza | Designing a NooJ Module for Turkish Inflectional Analysis: an Example of Highly Productive Morphology | |
KR20190059826A (en) | Apparatus for tokenizing based on korean affix and method thereof | |
Tsourakis et al. | A generic methodology of converting transliterated text to phonetic strings case study: greeklish. | |
Mahar et al. | Probabilistic analysis of sindhi word prediction using N-Grams | |
JP6915373B2 (en) | Evaluation program, evaluation method and evaluation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101215 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110613 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110614 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110615 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120731 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120731 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5058221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |