JP6451414B2 - Information processing apparatus, summary sentence editing method, and program - Google Patents
Information processing apparatus, summary sentence editing method, and program Download PDFInfo
- Publication number
- JP6451414B2 JP6451414B2 JP2015044280A JP2015044280A JP6451414B2 JP 6451414 B2 JP6451414 B2 JP 6451414B2 JP 2015044280 A JP2015044280 A JP 2015044280A JP 2015044280 A JP2015044280 A JP 2015044280A JP 6451414 B2 JP6451414 B2 JP 6451414B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- sentence
- phrase
- text
- summary sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 108
- 230000010365 information processing Effects 0.000 title claims description 63
- 238000004458 analytical method Methods 0.000 claims description 120
- 230000008569 process Effects 0.000 claims description 81
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims 2
- 238000012217 deletion Methods 0.000 description 61
- 230000037430 deletion Effects 0.000 description 61
- 238000012545 processing Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 230000000877 morphologic effect Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 230000009467 reduction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、要約文編集方法、及びプログラムに関する。 The present invention relates to an information processing apparatus, a summary sentence editing method, and a program.
大量の情報が文書の形式で提供される今日においては、文書の内容を短時間で効率良く把握し、目的の文書を探し出して活用する際に要約文は有用である。しかし、大量にある文書を要約する作業は時間と労力がかかる。そのため、コンピュータを利用して要約文の作成作業を支援する文書要約技術が研究されている。この技術は、例えば、医療分野で作成されるサマリーの要約、株式・証券分野で作成されるアナリストレポートの要約、コールセンター業務で作成される通話レポートの要約などへの応用が期待される。 In the present day when a large amount of information is provided in the form of a document, the summary sentence is useful for efficiently grasping the contents of the document in a short time and searching for and utilizing the target document. However, it takes time and effort to summarize a large number of documents. Therefore, document summarization techniques that support the creation of summary sentences using computers have been studied. This technology is expected to be applied to, for example, summary summaries created in the medical field, analyst report summaries created in the stock and securities fields, and call report summaries created in call center operations.
例えば、要約元の文書(以下、原文)を対象に形態素解析・構文解析(係り受け構造解析)を実施し、コンピュータが不要と判断した箇所を原文から削除して要約文を作成する技術が提案されている。また、原文から文字列を削除する割合(要約率)を予め複数設定しておき、要約率に応じて作成された複数の要約文からユーザが所望の要約文を選択できるようにする技術が提案されている。その他、ユーザが指定した語を強調表示する技術や、指定箇所に対応する事前準備された語句を挿脱する技術などが提案されている。 For example, a technology is proposed that creates a summary sentence by performing a morphological analysis / syntactic analysis (dependency structure analysis) on the source document (hereinafter referred to as the original text) and deleting a part that the computer determines is unnecessary from the original text. Has been. In addition, a technology has been proposed in which multiple ratios (summary rates) for deleting character strings from the original text are set in advance, and the user can select a desired summary text from a plurality of summary texts created according to the summary rate. Has been. In addition, a technique for highlighting a word designated by a user, a technique for inserting / removing a word / phrase prepared in advance corresponding to a designated location, and the like have been proposed.
上述した技術を適用することで要約文の作成作業が支援されるが、原文から削除された語句が適切でない場合には追加的に編集作業が生じる。例えば、ユーザが望むよりも長い語句が削除された場合、削除された語句を要約文に再び挿入する作業が生じる。他方、ユーザが削除を望む語句が削除されずに残っている場合、その語句を要約文から削除する作業が生じる。上述した技術のうち、指定操作だけで語句を挿脱できるようにする技術は、こうした事後的な編集作業の負担軽減に寄与しうる。 Although the above-described technique is applied to support the creation of a summary sentence, additional editing work occurs when words deleted from the original sentence are not appropriate. For example, when a phrase longer than the user desires is deleted, an operation of inserting the deleted phrase into the summary sentence again occurs. On the other hand, when a word that the user wants to delete remains without being deleted, an operation of deleting the word from the summary sentence occurs. Among the techniques described above, a technique that allows words to be inserted / removed only by a specified operation can contribute to reducing the burden of such subsequent editing work.
しかし、事前準備された語句を挿脱しても依然としてユーザが望む表現とならないことがあり、この場合にはユーザが直接的に要約文を編集する作業が生じる。指定操作により挿脱できる語句の自由度を高めることができれば、指定操作だけで要約文の編集作業が完結する可能性が高まり、作業負担の低減が期待される。 However, there is a case where the expression still desired by the user is not obtained even when the prepared phrase is inserted / removed. In this case, the user directly edits the summary sentence. If the degree of freedom of words that can be inserted / removed by the designation operation can be increased, the possibility of completing the editing of the summary sentence only by the designation operation is increased, and a reduction in the workload is expected.
そこで、1つの側面によれば、本発明の目的は、要約文の編集を容易にすることが可能な情報処理装置、要約文編集方法、及びプログラムを提供することにある。 Therefore, according to one aspect, an object of the present invention is to provide an information processing apparatus, a summary sentence editing method, and a program that can easily edit a summary sentence.
本開示の1つの側面によれば、原文と、該原文の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した構文木とを記憶する記憶部と、原文と、語句を省略して原文を要約した要約文とを表示する表示部と、原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、構文木の根へ向かう方向にある第2のノードを特定し、第1及び第2のノードに対応する語句を要約文に追加し、要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、構文木の末端へ向かう方向にある第4のノードを特定し、第3及び第4のノードに対応する語句を要約文から削除する演算部と、を備える、情報処理装置が提供される。 According to one aspect of the present disclosure, a storage unit that stores an original sentence and a syntax tree in which a dependency structure of a phrase based on a syntactic analysis of the original sentence is expressed by a connection relation of nodes corresponding to the phrase; And a display section that displays a summary sentence that summarizes the original text with the phrase omitted, and the root of the syntax tree connected to the first node corresponding to the phrase at the specified location when a specification operation for the original text is accepted. When the second node in the direction toward is specified, the words corresponding to the first and second nodes are added to the summary sentence, and the designation operation for the summary sentence is accepted, the word corresponding to the designated place An operation unit that identifies a fourth node that is connected to the third node and that is in a direction toward the end of the syntax tree, and that deletes words corresponding to the third and fourth nodes from the summary sentence. An information processing apparatus is provided.
本発明によれば、要約文の編集を容易にすることが可能になる。 According to the present invention, it is possible to easily edit a summary sentence.
以下に添付図面を参照しながら、本発明の実施形態について説明する。なお、本明細書及び図面において実質的に同一の機能を有する要素については、同一の符号を付することにより重複説明を省略する場合がある。 Embodiments of the present invention will be described below with reference to the accompanying drawings. In addition, about the element which has the substantially same function in this specification and drawing, duplication description may be abbreviate | omitted by attaching | subjecting the same code | symbol.
<1.第1実施形態>
図1を参照しながら、第1実施形態について説明する。図1は、第1実施形態に係る情報処理装置の一例を示した図である。第1実施形態は、文書を要約して要約文を自動作成する文書要約技術、及び要約文の編集を支援する編集支援技術に関する。以下、要約元の文書を原文と称する。また、説明の都合上、図1に示した原文31を要約して要約文32を作成し、要約文32を編集する場合を例に説明を行う。
<1. First Embodiment>
The first embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of an information processing apparatus according to the first embodiment. The first embodiment relates to a document summarization technique for automatically creating a summary sentence by summarizing documents, and an editing support technique for supporting editing of the summary sentence. Hereinafter, the document of the summarization source is referred to as the original text. Further, for convenience of explanation, an explanation will be given taking as an example a case where a summary sentence 32 is created by summarizing the
図1に示すように、情報処理装置10は、記憶部11、演算部12、表示部13を有する。
記憶部11は、RAM(Random Access Memory)などの揮発性記憶装置、又はHDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性記憶装置である。演算部12は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサである。但し、演算部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの電子回路であってもよい。
As illustrated in FIG. 1, the
The
演算部12は、例えば、記憶部11又は他のメモリに記憶されたプログラムを実行する。表示部13は、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、又はELD(Electro-Luminescence Display)などのディスプレイ装置である。
For example, the
なお、表示部13は情報処理装置10と一体に形成されていなくてもよく、例えば、表示部13に表示される内容が、ネットワークを介して情報処理装置10に接続された情報端末のディスプレイ装置に表示される仕組みにしてもよい。また、情報処理装置10の機能は、演算部12の機能を分担して実現する複数のコンピュータや、記憶部11の機能を有するストレージ装置などを組み合わせたシステムにより実現することも可能である。
The
記憶部11は、原文31と、構文木20とを記憶する。
構文木20は、原文31の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した情報である。語句は、例えば、文節や句である。
The
The
構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。句とは、2つ以上の語が集まって1つの品詞と同様の働きをする語の集合を言う。文節は、日本語を意味の分かる単位で区切ったものであり、文を読む際に自然な発音によって区切られる最小の単位である。日本語の文における任意の1つの文節は、その文節に続く少なくとも1つの文節と係り受け関係を有する。このような係り受け関係を有する文節の構造を係り受け構造と呼ぶ。 Parsing is a method of analyzing the structure of a sentence in units of phrases and clauses according to grammatical rules. A phrase refers to a set of words in which two or more words come together and function in the same way as a single part of speech. A phrase is a unit in which Japanese is delimited by a unit whose meaning is understood, and is the smallest unit that is delimited by natural pronunciation when a sentence is read. Any one phrase in the Japanese sentence has a dependency relationship with at least one phrase following the phrase. A phrase structure having such a dependency relationship is called a dependency structure.
なお、構文解析を行う際に前提として形態素解析が行われる。通常、意味を持つ最小の文字列の単位を形態素と呼ぶ。また、文を単語毎に分割し、各単語に品詞情報などを付け加える作業を形態素解析と呼ぶ。形態素解析を行うシステムは、自然言語の文法ルールや辞書情報を用いて文を形態素に分割し、各単語に対して機械的に品詞情報などを付与する。例えば、図1(B1)に示した原文31を上記の解析方法で解析すると、図1(A)に示すような構文木20が得られる。
Note that morphological analysis is performed as a premise when performing syntax analysis. Usually, the smallest meaningful character string unit is called a morpheme. The operation of dividing a sentence into words and adding part-of-speech information to each word is called morphological analysis. A system that performs morphological analysis divides a sentence into morphemes using natural language grammar rules and dictionary information, and mechanically gives part of speech information to each word. For example, when the
図1(A)の例では、「昨年」、「八月末の」、「暑い」、「日」、「経済論壇で」、「重い」、「存在だった」、「一人の」、「論客が」、「志」、「半ばで」、「世を」、「去った」が構文木20の要素となる語句である。以下、構文木20の要素をノードと呼ぶ。構文木20は、語句間の係り受け関係をノード間の接続関係(図1(A)ではノード間を接続する線)で表現している。以下、ノード間の接続関係をブランチと呼ぶ場合がある。
In the example of Fig. 1 (A), "Last year", "End of August", "Hot", "Sun", "In the economic platform", "Heavy", "It was", "One person", "", "" "", "" Mid-"", "" the world "", "" "left" "are phrases that are elements of the
木構造を有する構文木20の根(ルート)に位置するノードをルートノード、末端に位置するノードを末端ノードと呼ぶ場合がある。図1(A)の例では、「去った」に対応するノードがルートノードであり、「昨年」、「暑い」、「経済論壇で」、「重い」、「一人の」、「世を」、「志」がそれぞれ末端ノードである。つまり、ルートノードに対応する語句の後には係り受け関係を持つ語句が続かず、末端ノードに対応する語句の前には係り受け関係を持つ語句が存在しない。記憶部11には、このような構文木20に関する情報が格納されている。
A node located at the root of the
表示部13は、原文31と、原文31を要約した要約文32とを表示する。要約文32は、構文木20に基づいて原文31に含まれる一部の語句を省略したものである。例えば、要約文32は、ルートノードから末端ノードまでを一連のノードとブランチとで結ぶパスを任意に選択し、選択したパスにある各ノードに対応する語句を原文31上の語句と同じ順に並べることで得られる。図1(B1)は、「一人の」、「志」、「世を」に対応する末端ノードへ至るパスが選択された場合の要約文32を例示している。
The
表示部13は、原文31と、要約文32とを共に表示する。そして、演算部12は、原文31、及び要約文32に対するユーザの指定操作を受け付ける。演算部12は、原文31に対する指定操作を受け付けた場合に、指定箇所にある語句に対応する第1のノードに接続された、構文木20の根へ向かう方向にある第2のノードを特定し、第1及び第2のノードに対応する語句を要約文32に追加する。
The
図1(B1)の例では、原文31の「重い」が指定されている。この場合、演算部12は、「重い」に対応するノードを第1のノードとして特定し、第1のノードからルートノードへ向かう方向にあるノードを第2のノードとして特定する。なお、指定操作は、語句を選択して指定する操作であってもよいし、文字を指定する操作であってもよい。文字を指定する操作の場合、演算部12が、指定された文字を含む語句を特定し、特定した語句が指定されたものと判断する。
In the example of FIG. 1 (B1), “heavy” in the
この例において、演算部12は、第2のノードの候補として「存在だった」、「論客が」、「去った」を検出し、要約文32に既に含まれている「論客が」、「去った」を除く「存在だった」を第2のノードとして特定する。そして、演算部12は、第1及び第2のノードを追加範囲21に決定し、追加範囲21に対応する「重い」、「存在だった」を要約文32に追加する(図1(B2)下線部参照)。
In this example, the
一方、要約文32に対する指定操作を受け付けた場合、演算部12は、指定箇所にある語句に対応する第3のノードに接続された、構文木20の末端へ向かう方向にある第4のノードを特定し、第3及び第4のノードに対応する語句を要約文32から削除する。
On the other hand, when the designation operation for the summary sentence 32 is received, the
図1(B2)の例では、要約文32の「半ばで」が指定されている。この場合、演算部12は、「半ばで」に対応するノードを第3のノードとして特定し、第3のノードから末端ノードへ向かう方向にあるノードを第4のノードとして特定する。
In the example of FIG. 1 (B2), “mid-half” of the summary sentence 32 is designated. In this case, the
この例において、演算部12は、第4のノードの候補として「志」を検出し、「志」が要約文32に既に含まれていることを確認して「志」を第4のノードとして特定する。そして、演算部12は、第3及び第4のノードを削除範囲22に決定し、削除範囲22に対応する「志」、「半ばで」を要約文32から削除する(図1(B3)参照)。
In this example, the
第1実施形態によれば、文節や句などの語句を単位とする係り受け関係に基づいて指定箇所の語句が挿脱される。原文31の一部を指定した場合には、指定箇所にある語句と係り受け関係にある語句とが要約文32に挿入され、要約文32の一部を指定した場合には指定箇所にある語句と係り受け関係にある語句とが要約文32から削除される。
According to the first embodiment, a phrase at a specified location is inserted / removed based on a dependency relationship having a phrase or phrase as a unit. When a part of the
同じパス上にあるノードであっても、異なるノードに対応する語句が選択されれば、その語句に対応するノードを起点に挿脱される語句が決まる。そのため、指定箇所を変えながら追加又は削除する語句を調整することで、指定操作の繰り返しにより所望の要約文32が得られうる。つまり、挿脱される語句が固定されている場合に比べ、指定操作による編集の自由度が向上し、より簡易な操作で要約文を所望の表現に近づけることができる。その結果、要約文の編集が容易になる。 Even if nodes are on the same path, if a word corresponding to a different node is selected, a word to be inserted / removed starting from the node corresponding to the word is determined. Therefore, by adjusting the word to be added or deleted while changing the designated portion, the desired summary sentence 32 can be obtained by repeating the designation operation. That is, the degree of freedom of editing by the designation operation is improved as compared with the case where the words to be inserted / removed are fixed, and the summary sentence can be brought closer to a desired expression by a simpler operation. As a result, the summary sentence can be easily edited.
以上、第1実施形態について説明した。
<2.第2実施形態>
次に、第2実施形態について説明する。第2実施形態では、要約文の編集支援方法に関し、要約文に対する語句の追加・削除を簡単な操作で実現できるようにする方法を提案する。以下、この方法を実現可能な情報処理装置100について説明する。情報処理装置100は、第2実施形態に係る情報処理装置の一例である。
The first embodiment has been described above.
<2. Second Embodiment>
Next, a second embodiment will be described. The second embodiment proposes a method for enabling addition / deletion of words to / from a summary sentence with a simple operation, with respect to the summary sentence editing support method. Hereinafter, the
[2−1.ハードウェア]
ここで、図2を参照しながら、情報処理装置100のハードウェアについて説明する。図2は、第2実施形態に係る情報処理装置の機能を実現可能なハードウェアの一例を示した図である。つまり、後述する情報処理装置100の機能は、図2に例示したハードウェア資源を用いて実現することが可能である。また、情報処理装置100の機能は、コンピュータプログラムを用いて図2に示すハードウェアを制御することにより実現される。
[2-1. hardware]
Here, the hardware of the
なお、第2実施形態に係る技術は、図2に例示したハードウェアを有する1台の情報処理装置を利用して実現することも可能であるが、複数台の情報処理装置やストレージ装置などをネットワークで接続したシステムによっても実現することが可能である。このような変形も当然に第2実施形態の技術的範囲に属する。 Note that the technology according to the second embodiment can be realized by using one information processing apparatus having the hardware illustrated in FIG. 2, but a plurality of information processing apparatuses, storage apparatuses, and the like are provided. It can also be realized by a system connected via a network. Such a modification naturally belongs to the technical scope of the second embodiment.
図2に示すように、このハードウェアは、主に、CPU902と、ROM(Read Only Memory)904と、RAM906と、ホストバス908と、ブリッジ910とを有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926とを有する。
As shown in FIG. 2, this hardware mainly includes a
CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータなどを格納する記憶装置の一例である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に変化する各種パラメータなどが一時的又は永続的に格納される。
The
これらの要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、タッチパッド、ボタン、スイッチ、及びレバーなどが用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。
These elements are connected to each other via, for example, a
出力部918としては、例えば、CRT、LCD、PDP、又はELDなどのディスプレイ装置が用いられる。また、出力部918として、スピーカやヘッドホンなどのオーディオ出力装置、又はプリンタなどが用いられることもある。つまり、出力部918は、情報を視覚的又は聴覚的に出力することが可能な装置である。
As the
記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、HDDなどの磁気記憶デバイスが用いられる。また、記憶部920として、SSD(Solid State Drive)やRAMディスクなどの半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイスなどが用いられてもよい。
The
ドライブ922は、着脱可能な記録媒体であるリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928としては、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどが用いられる。
The
接続ポート924は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子など、外部接続機器930を接続するためのポートである。外部接続機器930としては、例えば、プリンタなどが用いられる。
The
通信部926は、ネットワーク932に接続するための通信デバイスである。通信部926としては、例えば、有線又は無線LAN(Local Area Network)用の通信回路、WUSB(Wireless USB)用の通信回路、光通信用の通信回路やルータ、ADSL(Asymmetric Digital Subscriber Line)用の通信回路やルータ、携帯電話ネットワーク用の通信回路などが用いられる。通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークであり、例えば、インターネット、LAN、放送網、衛星通信回線などを含む。
The
以上、情報処理装置100のハードウェアについて説明した。
[2−2.機能]
次に、図3を参照しながら、情報処理装置100の機能について説明する。図3は、第2実施形態に係る情報処理装置が有する機能の一例を示したブロック図である。
The hardware of the
[2-2. function]
Next, functions of the
図3に示すように、情報処理装置100は、記憶部101、原文入力部102、形態素解析部103、構文解析部104、要約文生成部105、文出力部106、指定受領部107、及び範囲制御部108を有する。
As illustrated in FIG. 3, the
なお、記憶部101の機能は、上述したRAM906や記憶部920などを用いて実現できる。原文入力部102、指定受領部107の機能は、上述した入力部916などの機能を用いて実現できる。形態素解析部103、構文解析部104、要約文生成部105、及び範囲制御部108の機能は、上述したCPU902などを用いて実現できる。文出力部106の機能は、上述した出力部918などを用いて実現できる。
Note that the function of the
(2−2−1.構文木、要約文、対応データの生成)
記憶部101には、原文テキスト101a、及び解析結果101bなどの情報が格納される。原文テキスト101aは、要約文の元となる原文のテキストデータである。
(2-2-1. Generation of syntax tree, summary sentence, and corresponding data)
The
例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。また、原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、原文テキストを取得して記憶部101に格納する。
For example, the original
形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。図4は、第2実施形態に係る形態素解析結果の一例を示した図である。原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、形態素解析部103は、図4に例示した形態素解析結果を出力する。
The
構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。なお、本稿では、構文解析の単位となる句や文節を単に「語句」と呼ぶことにする。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図5を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。図5は、第2実施形態に係る構文解析(係り受け解析)結果の一例を示した図である。
The
図5に示すように、各語句にはノード番号が割り当てられ、ノード番号をもとに各語句を特定することができる。語句間の係り受け関係は、係り先の欄に記載されたノード番号により表現される。例えば、ノード番号1の語句「昨年」は、ノード番号2の語句「八月末の」を係り先とする係り受け関係を有する。各語句に関する係り受け関係を表す木構造の表現を構文木と呼ぶが、図5に対応する構文木は図6のようになる。
As shown in FIG. 5, each word / phrase is assigned a node number, and each word / phrase can be specified based on the node number. The dependency relationship between words is expressed by a node number described in the dependency destination column. For example, the phrase “last year” of the
図6は、第2実施形態に係る構文木及び要約文テキストの一例を示した図である。図6に例示した構文木の各ブロックはノードを表す。また、ブロック間を結ぶ線はブランチであり、各ブランチがノード間の接続関係(つまり、係り受け関係)を表す。図6の例において、構文木のルートノードは、語句「去った」に対応するノードである。また、末端ノードは、語句「昨年」、「暑い」、「経済論壇で」、「重い」、「一人の」、「世を」、「志」にそれぞれ対応するノードである。 FIG. 6 is a diagram showing an example of a syntax tree and summary text according to the second embodiment. Each block of the syntax tree illustrated in FIG. 6 represents a node. A line connecting the blocks is a branch, and each branch represents a connection relationship between nodes (that is, a dependency relationship). In the example of FIG. 6, the root node of the syntax tree is a node corresponding to the phrase “Leave”. In addition, the terminal nodes are nodes corresponding to the phrases “last year”, “hot”, “in the economic forum”, “heavy”, “one person”, “the world”, and “zhi”, respectively.
さらに、構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。図7は、第2実施形態に係る原文と構文解析結果の対応データの一例を示した図である。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字に割り当てられた番号(以下、原文文字番号)と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成し、該対応データを記憶部101に格納する。
Further, the
要約文生成部105は、ルートノードから、設定されたノードまでを結ぶ一連のノードをもとに要約文テキストを生成する。図6の例では、ルートノードから、語句「一人の」、「世を」、「志」に対応するノードまでを結ぶ一連のノードをもとに生成された要約文「一人の論客が志半ばで世を去った。」が示されている。このように、要約文生成部105は、設定されたノードへ至るパス上のノードに対応する語句を特定し、特定した語句を原文テキスト101a上での語句の順に並べて要約文テキストを生成する。構文解析結果から要約文テキストを自動的に生成する処理では、要約に含めるノードあるいは要約において削除するノードを設定する方法として、単語重要度、単語Nグラム、係り受けの種類などを利用する様々な方式が既知であるが、本発明ではいずれかの方式に特定しない。また、全てのノードを要約文に含め、原文テキストと同一の要約文テキストを生成してもよいし、全てのノードを削除し、文字数0の文字列を要約文テキストとしてもよい。
The summary
要約文生成部105は、構文解析結果に含まれる語句のうち、要約文テキストに含めなかった語句の削除フラグをONにする(図5を参照)。削除フラグは、構文解析結果に含まれる語句にそれぞれ対応付けて管理され、要約文の編集処理に利用される。要約文生成部105は、要約文テキストを文出力部106に入力する。
The summary
さらに、要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。図8は、第2実施形態に係る要約文と構文解析結果の対応データの一例を示した図である。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字に割り当てられた番号(以下、要約文文字番号)と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成し、該対応データを記憶部101に格納する。
Further, the summary
文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105から入力された要約文テキストと共に原文テキスト101aを表示する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。
The
(2−2−2.要約文の編集)
指定受領部107は、文出力部106が表示した原文テキスト101a又は要約文テキストに対する指定操作を受け付ける。指定操作は、原文テキスト101a又は要約文テキストに含まれる文字又は語句を指定する操作である(図9(A)、図10(A)を参照)。図9は、第2実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。図10は、第2実施形態に係る語句の削除についての指定操作及び処理の一例を示した図である。ここでは文字を指定する指定操作を受け付けた場合について説明する。
(2-2-2. Editing summary sentences)
The
指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定された文字に対応するノードを特定する。他方、要約文テキストの文字に対する指定操作を受け付けると、指定受領部107は、要約文と構文解析結果の対応データ(図8を参照)を参照し、指定された文字に対応するノードを特定する。指定受領部107は、特定したノードの情報を範囲制御部108に入力する。このとき、指定受領部107は、指定操作の対象が原文テキスト101aであるか、要約文テキストであるかを範囲制御部108に通知する。
When the
指定操作の対象が原文テキスト101aである場合、範囲制御部108は、図9(B)に示すように、構文解析結果をもとに要約文テキストに追加する語句の範囲(以下、追加範囲)を決定する。このとき、範囲制御部108は、指定された文字に対応するノードからルートノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノード以外のノードを追加範囲に含める。
When the target of the designating operation is the
図9(B)の例では、語句「重い」に対応するノードから、語句「去った」に対応するルートノードに至るパス上のノードのうち、語句「論客が」が要約文テキストに含まれているため、追加範囲は、語句「重い」、「存在だった」に対応するノードとなる。この場合、図9(C)に示すように、語句「重い存在だった」(下線部)が要約文テキストに追加される。 In the example of FIG. 9B, among the nodes on the path from the node corresponding to the phrase “heavy” to the root node corresponding to the phrase “leaved”, the phrase “discussion is” is included in the summary text. Therefore, the added range is a node corresponding to the words “heavy” and “was present”. In this case, as shown in FIG. 9C, the phrase “it was heavy” (underlined) is added to the summary text.
一方、指定操作の対象が要約文テキストである場合、範囲制御部108は、図10(B)に示すように、構文解析結果をもとに要約文テキストから削除する語句の範囲(以下、削除範囲)を決定する。このとき、範囲制御部108は、指定された文字に対応するノードから末端ノードに至るパス上のノードを抽出し、抽出したノードのうち要約文テキストに既に含まれている語句に対応するノードを削除範囲に含める。
On the other hand, when the target of the designation operation is a summary sentence text, the
図10(B)の例では、語句「半ばで」に対応するノードから、語句「志」に対応する末端ノードに至るパス上のノードのうち、語句「半ばで」、「志」が要約文テキストに含まれているため、削除範囲は、語句「半ばで」、「志」に対応するノードとなる。この場合、図10(C)に示すように、語句「志半ばで」が要約文テキストから削除される。 In the example of FIG. 10B, of the nodes on the path from the node corresponding to the phrase “mid” to the terminal node corresponding to the phrase “zhi”, the phrases “middle” and “zhi” are summary sentences. Since it is included in the text, the deletion range is a node corresponding to the words “middle” and “will”. In this case, as shown in FIG. 10 (C), the phrase “mid-shi” is deleted from the summary text.
上述した追加範囲の追加処理及び削除範囲の削除処理は、要約文生成部105が実行する。範囲制御部108が決定した追加範囲又は削除範囲の情報が要約文生成部105に入力され、この情報をもとに要約文生成部105が要約文テキストを編集し、編集後の要約文テキストが文出力部106により表示される。このようにして図9(C)又は図10(C)に示すような編集後の要約文テキストが表示される。
The summary
以上説明したように、情報処理装置100によれば、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。
As described above, according to the
以上、情報処理装置100の機能について説明した。
[2−3.処理フロー]
次に、図11及び図12を参照しながら、情報処理装置100が実行する処理の流れについて説明する。図11は、第2実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。図12は、第2実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。
The function of the
[2-3. Processing flow]
Next, the flow of processing executed by the
(S101)原文入力部102は、原文テキスト101aを取得して記憶部101に格納する。例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、そこから原文テキストを取得して記憶部101に格納する。
(S101) The original
(S102)形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。例えば、原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、図4のような形態素解析結果が得られる。
(S102) The
(S103)構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図5を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。
(S103) The
(S104)構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字の原文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。
(S104) The
(S105)構文解析部104は、構文解析結果(図5を参照)に含まれる各語句に対応付けた削除フラグを全てOFFにする(初期化)。削除フラグは、要約文テキストに含まれる語句についてOFF、要約文テキストに含まれない語句についてONとされる。
(S105) The
(S106)要約文生成部105は、要約文生成時に削除するノードに対応する削除フラグをONに設定する。例えば、要約文生成部105は、ルートノードから、要約文生成のために設定されたノードへ至るパス上のノードに対応する語句を特定し、特定したノード以外のノードに対応する削除フラグをONに設定する。
(S106) The summary
(S107)要約文生成部105は、削除フラグがOFFのノードに対応する語句を原文テキスト101a上の出現順に連結して要約文テキストを生成する。
(S108)要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字の要約文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。
(S107) The summary
(S108) The summary
(S109)文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105が生成した要約文テキストと共に原文テキスト101aを出力する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。
(S109) The
(S110)指定受領部107は、文出力部106が出力した要約文テキストで確定されたか否かを判定する。例えば、指定受領部107は、要約文テキストの編集終了操作が行われたか否かを判定する。要約文テキストが確定された場合、図11及び図12に示した一連の処理は終了する。一方、要約文テキストが確定されていない場合、処理はS111へと進む。
(S110) The
(S111)指定受領部107は、原文テキスト101aの文字が指定されたか否かを判定する。原文テキスト101aの文字が指定された場合、処理はS112へと進む。一方、原文テキスト101aの文字が指定されていない場合、処理はS114へと進む。
(S111) The
(S112)指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定された文字(指定文字)に対応するノードを特定する。
(S112) When the
(S113)範囲制御部108は、構文解析結果をもとに、指定受領部107が特定したノードからルートノードまでの各ノードに対応する削除フラグをOFFにする。つまり、範囲制御部108は、図9(B)に示すように、構文解析結果をもとに、指定文字に対応するノードからルートノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノード以外のノードを追加範囲に含める。S113の処理が完了すると、処理はS107へと進む。
(S113) The
(S114)指定受領部107は、要約文テキストの文字が指定されたか否かを判定する。要約文テキストの文字が指定された場合、処理はS115へと進む。一方、要約文テキストの文字が指定されていない場合、処理はS110へと進む。
(S114) The
(S115)指定受領部107は、要約文テキストの文字に対する指定操作を受け付けると、要約文と構文解析結果の対応データ(図8を参照)を参照し、指定文字に対応するノードを特定する。
(S115) When the
(S116)範囲制御部108は、構文解析結果をもとに、指定受領部107が特定したノードから末端ノードまでの各ノードに対応する削除フラグをONにする。つまり、範囲制御部108は、図10(B)に示すように、構文解析結果をもとに、指定文字に対応するノードから末端ノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノードを削除範囲に含める。S116の処理が完了すると、処理はS107へと進む。
(S116) The
以上、情報処理装置100が実行する処理の流れについて説明した。
上記の処理方法によれば、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。
The flow of processing executed by the
According to the above processing method, the summary sentence text can be easily edited by performing the designation operation on the
以上、第2実施形態について説明した。
<3.第3実施形態>
次に、第3実施形態について説明する。但し、上述した第2実施形態の説明と重複する部分については詳細な説明を省略する。
The second embodiment has been described above.
<3. Third Embodiment>
Next, a third embodiment will be described. However, detailed description of the same parts as those described in the second embodiment will be omitted.
[3−1.機能]
第3実施形態に係る情報処理装置100は、同じテキストの中で複数の語句が共起する可能性の高さを示す共起確率を考慮して追加範囲及び削除範囲を決定する。この情報処理装置100は、ノードの共起確率に関する情報を示す共起確率テーブルを記憶部101に格納している点、及び範囲制御部108が共起確率を利用する点が上述した第2実施形態と異なる。以下、これらの相違点を中心に説明する。
[3-1. function]
The
(3−1−1.共起確率)
図13を参照しながら、共起確率テーブルについて説明する。図13は、第3実施形態に係る共起確率テーブルの一例を示した図である。図13に示すように、共起確率テーブルは、係り元ノードが含む内容語と、係り先ノードが含む内容語との組み合わせ毎に共起確率を対応付けるテーブルである。共起確率テーブルは予め記憶部101に格納される。なお、内容語とは、名詞、動詞、形容詞など、文法的な機能をほとんど有せず、主として語彙的意味を表す語を言う。
(3-1-1. Co-occurrence probability)
The co-occurrence probability table will be described with reference to FIG. FIG. 13 is a diagram illustrating an example of a co-occurrence probability table according to the third embodiment. As illustrated in FIG. 13, the co-occurrence probability table is a table that associates the co-occurrence probability for each combination of the content word included in the dependency source node and the content word included in the dependency destination node. The co-occurrence probability table is stored in the
共起確率は、下記の式(1)をもとにテキストコーパスを利用して計算される。下記の式(1)において、A→Bは、ノードAがノードBに係ることを意味する。つまり、ノードAが係り元ノードであり、ノードBが係り先ノードである。P(A→B)は、A→Bの係り受け関係を有するノードA、Bの共起確率を表す。MA、MBは、それぞれノードA、Bに含まれる内容語を表す。*は、任意の内容語を表す。N(MA→MB)、N(MA→*)、N(*→MB)は、それぞれテキストコーパスにおけるMA→MB、MA→*、*→MBの出現数を表す。 The co-occurrence probability is calculated using a text corpus based on the following equation (1). In the following formula (1), A → B means that node A relates to node B. In other words, node A is the source node and node B is the destination node. P (A → B) represents the co-occurrence probability of nodes A and B having a dependency relationship of A → B. M A and M B represent content words included in the nodes A and B, respectively. * Represents an arbitrary content word. N (M A → M B ), N (M A → *), and N (* → M B ) respectively represent the number of occurrences of M A → M B , M A → *, * → M B in the text corpus. .
(3−1−2.要約文の編集)
次に、図14及び図15を参照しながら、共起確率テーブルを利用した要約文の編集処理について説明する。図14は、第3実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。図15は、第3実施形態に係る語句の削除についての指定操作及び処理の一例を示した図である。
(3-1-2. Editing summary text)
Next, the summary sentence editing process using the co-occurrence probability table will be described with reference to FIGS. FIG. 14 is a diagram illustrating an example of a specifying operation and processing for adding words according to the third embodiment. FIG. 15 is a diagram illustrating an example of a designation operation and processing for deleting a phrase according to the third embodiment.
指定操作の対象が原文テキスト101aである場合(図14(A)を参照)、範囲制御部108は、図14(B)に示すように、構文解析結果をもとに追加範囲を決定する。このとき、範囲制御部108は、指定文字に対応するノードを起点とし、起点からルートノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノード以外のノードを追加範囲に含める。
When the target of the designation operation is the
また、範囲制御部108は、共起確率テーブルを参照し、起点から末端ノードへ向かう方向に連結するノードのうち共起確率が予め設定した閾値以上であるノードを抽出する。さらに、範囲制御部108は、抽出したノードを新たな起点とし、起点から末端ノードへ向かう方向に連結するノードのうち共起確率が予め設定した閾値以上であるノードを抽出する。そして、範囲制御部108は、この抽出処理を繰り返し、抽出したノードを追加範囲に加える。上記の閾値は、テキストコーパスから得られた共起確率の分布などをもとに統計的に妥当な値を求めてもよいし、ユーザが任意に設定してもよい。
Further, the
図14(B)の例では、指定文字に対応する語句「存在だった」に対応するノードから、語句「去った」に対応するルートノードに至るパス上のノードのうち、語句「論客が」が要約文テキストに含まれているため、語句「存在だった」に対応するノードが追加範囲に含められる。 In the example of FIG. 14B, among the nodes on the path from the node corresponding to the phrase “existing” corresponding to the designated character to the root node corresponding to the phrase “leaving”, the phrase “discussion is” Is included in the summary text, the node corresponding to the phrase “was present” is included in the additional range.
また、語句「存在だった」に対応するノードから末端ノードへ向かうノードとして、語句「経済論壇で」、「重い」に対応する2つのノードがある。この例では、語句「経済論壇で」と「存在だった」に対応するノード間の共起確率が閾値未満のため、このノードは追加範囲に含められない。一方、この例では、語句「重い」、「存在だった」に対応するノード間の共起確率が閾値以上のため、このノードは追加範囲に含められる。その結果、図14(C)に示すように、語句「重い存在だった」(下線部)が要約文テキストに追加される。 In addition, as nodes from the node corresponding to the phrase “existing” to the terminal node, there are two nodes corresponding to the phrases “in the economic platform” and “heavy”. In this example, since the co-occurrence probability between nodes corresponding to the phrases “in the economic forum” and “was present” is less than the threshold, this node is not included in the additional range. On the other hand, in this example, since the co-occurrence probability between nodes corresponding to the phrases “heavy” and “was present” is equal to or greater than the threshold, this node is included in the additional range. As a result, as shown in FIG. 14C, the phrase “it was heavy” (underlined portion) is added to the summary text.
一方、指定操作の対象が要約文テキストである場合、範囲制御部108は、図15(B)に示すように、構文解析結果をもとに削除範囲を決定する。このとき、範囲制御部108は、指定文字に対応するノードを起点とし、起点から末端ノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノードを削除範囲に含める。
また、範囲制御部108は、指定文字に対応するノードからルートノードに至るパス上のノードを抽出し、抽出したノードのうち要約文テキストに既に含まれている語句に対応するノードを候補とする。そして、範囲制御部108は、指定文字に対応するノードと候補との共起確率が閾値以上の場合に、その候補を削除範囲に含める。
On the other hand, when the target of the designation operation is a summary text, the
In addition, the
図15(B)の例では、指定文字列に対応する語句「志」に対応するノードは、それ自身が末端ノードであるため、さらに末端方向に削除範囲を抽出することはしない。一方、語句「志」に対応するノードから、語句「去った」に対応するルートノードに至るパス上のノードのうち、語句「半ばで」、「去った」が要約文テキストに含まれている。この例では、語句「志」と「半ばで」に対応するノードの共起確率が閾値以上であるため、削除範囲は、語句「志」、「半ばで」に対応するノードとなる。その結果、図15(C)に示すように、語句「志半ばで」が要約文テキストから削除される。なお、追加時に用いる閾値と削除時に用いる閾値とは、例えば、同じ値に設定される。 In the example of FIG. 15B, since the node corresponding to the phrase “zhi” corresponding to the designated character string is itself a terminal node, the deletion range is not further extracted in the terminal direction. On the other hand, of the nodes on the path from the node corresponding to the phrase “zhi” to the root node corresponding to the phrase “departed”, the phrases “middle” and “departed” are included in the summary text. . In this example, since the co-occurrence probability of the nodes corresponding to the phrases “zhi” and “middle” is greater than or equal to the threshold value, the deletion range is a node corresponding to the words “zhi” and “middle”. As a result, as shown in FIG. 15 (C), the phrase “mid-disease” is deleted from the summary text. Note that the threshold value used at the time of addition and the threshold value used at the time of deletion are set to the same value, for example.
以上説明したように、第3実施形態においても、第2実施形態の場合と同様に、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。
As described above, in the third embodiment, as in the case of the second embodiment, the summary text can be easily edited by performing the designation operation on the
追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、さらに、末端ノード方向に共起確率の高い一連のノードに対応する語句が追加範囲とされる。削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされ、さらに、ルートノード方向に共起確率の高い一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。さらに、共起確率を考慮するため、一度の操作で追加又は削除される可能性が特に高い語句の集合が1回の指定操作で処理され、更なる編集作業の負担軽減に寄与する。 At the time of addition, words corresponding to a series of nodes connected in the direction of the root node of the syntax tree are added as an additional range, and further words corresponding to a series of nodes having a high co-occurrence probability are set as an additional range in the direction of the end node. . At the time of deletion, words corresponding to a series of nodes connected in the terminal node direction are set as the deletion range, and words corresponding to a series of nodes having a high co-occurrence probability in the root node direction are set as the deletion range. Therefore, a set of words and phrases that are likely to be added or deleted at a time are processed together by a single designation operation, so that the summary text can be edited more easily, contributing to a reduction in the burden of editing work. Furthermore, in order to consider the co-occurrence probability, a set of words and phrases that are particularly likely to be added or deleted in one operation is processed in one designation operation, which contributes to further reducing the burden of editing work.
[3−2.処理フロー]
次に、図16〜図18を参照しながら、情報処理装置100が実行する処理の流れについて説明する。図16は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。図17は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。図18は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第3のフロー図である。
[3-2. Processing flow]
Next, the flow of processing executed by the
(S201)原文入力部102は、原文テキスト101aを取得して記憶部101に格納する。例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、そこから原文テキストを取得して記憶部101に格納する。
(S201) The original
(S202)形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。例えば、原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、図4のような形態素解析結果が得られる。
(S202) The
(S203)構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図5を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。
(S203) The
(S204)構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字の原文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。
(S204) The
(S205)構文解析部104は、構文解析結果(図5を参照)に含まれる各語句に対応付けた削除フラグを全てOFFにする(初期化)。削除フラグは、要約文テキストに含まれる語句についてOFF、要約文テキストに含まれない語句についてONとされる。
(S205) The
(S206)要約文生成部105は、要約文生成時に削除するノードに対応する削除フラグをONに設定する。例えば、要約文生成部105は、ルートノードから、要約文生成のために設定されたノードへ至るパス上のノードに対応する語句を特定し、特定したノード以外のノードに対応する削除フラグをONに設定する。
(S206) The summary
(S207)要約文生成部105は、削除フラグがOFFのノードに対応する語句を原文テキスト101a上の出現順に連結して要約文テキストを生成する。
(S208)要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字の要約文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。
(S207) The summary
(S208) The summary
(S209)文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105が生成した要約文テキストと共に原文テキスト101aを出力する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。
(S209) The
(S210)指定受領部107は、文出力部106が出力した要約文テキストで確定されたか否かを判定する。例えば、指定受領部107は、要約文テキストの編集終了操作が行われたか否かを判定する。要約文テキストが確定された場合、図16及び図17に示した一連の処理は終了する。一方、要約文テキストが確定されていない場合、処理はS211へと進む。
(S210) The
(S211)指定受領部107は、原文テキスト101aの文字が指定されたか否かを判定する。原文テキスト101aの文字が指定された場合、処理はS212へと進む。一方、原文テキスト101aの文字が指定されていない場合、処理はS217へと進む。
(S211) The
(S212)指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定文字に対応するノードを特定する。そして、指定受領部107は、特定したノードを検討対象ノードに設定する。
(S212) Upon receiving a designation operation for the characters of the
(S213)範囲制御部108は、サブルーチンS(図19を参照)の処理を実行する。サブルーチンS[…]は、「…」を引数とする処理単位である。S213の処理において、範囲制御部108は、S212で設定した検討対象ノードを引数に指定してサブルーチンSの処理を実行する。なお、サブルーチンSの処理については後述する。サブルーチンSの処理において追加起点ノードが設定されるが、これについても後述する。
(S213) The
(S214、S215、S216)S213の処理で設定された全ての追加起点ノードを対象に、各追加起点ノードについてS215の処理が実行される。S215の処理において、範囲制御部108は、構文解析結果をもとに、追加起点ノードからルートノードまでの各ノードに対応する削除フラグをOFFに設定する。全ての追加起点ノードについてS215の処理が完了した場合、処理はS207へと進む。
(S214, S215, S216) The process of S215 is executed for each additional starting node for all the additional starting nodes set in the process of S213. In the processing of S215, the
(S217)指定受領部107は、要約文テキストの文字が指定されたか否かを判定する。要約文テキストの文字が指定された場合、処理はS218へと進む。一方、要約文テキストの文字が指定されていない場合、処理はS210へと進む。
(S217) The
(S218)指定受領部107は、要約文テキストの文字に対する指定操作を受け付けると、要約文と構文解析結果の対応データ(図8を参照)を参照し、指定文字に対応するノードを特定する。そして、指定受領部107は、特定したノードを削除起点ノードに設定する。
(S218) Upon receiving the designation operation for the characters of the summary text, the
(S219)範囲制御部108は、削除起点ノードがルートノードであるか否かを判定する。削除起点ノードがルートノードである場合、処理はS224へと進む。一方、削除起点ノードがルートノードでない場合、処理はS220へと進む。
(S219) The
(S220)範囲制御部108は、共起確率テーブルから、削除起点ノードからルートノードへ向かう方向へ連結するノード(連結ノード)の共起確率を取得する。
(S221)範囲制御部108は、S220で取得した共起確率が予め設定された閾値以上であるか否かを判定する。共起確率が閾値以上である場合、処理はS222へと進む。一方、共起確率が閾値未満である場合、処理はS224へと進む。
(S220) The
(S221) The
(S222)範囲制御部108は、連結ノードが、末端ノードへ向かう方向に連結する削除フラグがOFFの他のノードを持つか否かを判定する。連結ノードが該他のノードを持つ場合、処理はS224へと進む。一方、連結ノードが該他のノードを持たない場合、処理はS223へと進む。
(S222) The
(S223)範囲制御部108は、連結ノードを削除起点ノードに設定する。S223の処理が完了すると、処理はS219へと進む。
(S224)範囲制御部108は、削除起点ノードから末端ノードまでの各ノードに対応する削除フラグをONに設定する。S224の処理が完了すると、処理はS207へと進む。
(S223) The
(S224) The
(サブルーチンS)
ここで、図19を参照しながら、サブルーチンSの処理について説明する。図19は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第4のフロー図である。なお、サブルーチンSの引数として指定されたノードを「入力ノード」とする。
(Subroutine S)
Here, the processing of the subroutine S will be described with reference to FIG. FIG. 19 is a fourth flowchart illustrating a process flow regarding the operation of the information processing apparatus according to the third embodiment. Note that a node designated as an argument of the subroutine S is an “input node”.
(S251)範囲制御部108は、入力ノードから末端ノードへ向かう方向に連結するノード(連結ノード)があるか否かを判定する。連結ノードがある場合、処理はS252へと進む。一方、連結ノードがない場合、図19に示した一連の処理は終了する。
(S251) The
(S252、S256)範囲制御部108は、入力ノードから末端ノードへ向かう方向に連結する連結ノードの全てを対象に、各連結ノードについてS252からS256までの処理を実行する。つまり、範囲制御部108は、処理対象の連結ノードを変えながらS253からS255までの処理を繰り返し実行する。全ての連結ノードについて処理が完了すると、処理はS257へと進む。
(S252, S256) The
(S253、S254)範囲制御部108は、共起確率テーブルから、入力ノードと連結ノードとの共起確率を取得し、共起確率が予め設定された閾値以上であるか否かを判定する。共起確率が閾値以上である場合、処理はS255へと進む。一方、共起確率が閾値未満である場合、処理はS256へと進む。
(S253, S254) The
(S255)範囲制御部108は、連結ノードを引数としてサブルーチンSの処理を実行する。つまり、範囲制御部108は、現在処理対象の連結ノードを入力ノードとして図19に示した一連の処理を実行する。
(S255) The
(S257)範囲制御部108は、全ての連結ノードについて共起確率が閾値より低かったか否かを判定する。つまり、範囲制御部108は、全ての連結ノードについてS255の処理が実行されなかったか否かを判定する。全ての連結ノードについて共起確率が閾値より低かった場合、処理はS258へと進む。一方、共起確率が閾値より高くなる連結ノードがあった場合、図19に示した一連の処理は終了する。
(S257) The
(S258)範囲制御部108は、入力ノードを追加起点ノードに設定する。S258の処理が完了すると、図19に示した一連の処理は終了する。
以上、情報処理装置100が実行する処理の流れについて説明した。
(S258) The
The flow of processing executed by the
上記の処理方法によれば、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。
追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、さらに、末端ノード方向に共起確率の高い一連のノードに対応する語句が追加範囲とされる。削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされ、さらに、ルートノード方向に共起確率の高い一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。さらに、共起確率を考慮するため、一度の操作で追加又は削除される可能性が特に高い語句の集合が1回の指定操作で処理され、更なる編集作業の負担軽減に寄与する。
According to the above processing method, the summary sentence text can be easily edited by performing the designation operation on the
At the time of addition, words corresponding to a series of nodes connected in the direction of the root node of the syntax tree are set as an additional range, and further, words corresponding to a series of nodes having a high co-occurrence probability in the direction of the terminal node are set as an additional range. . At the time of deletion, words corresponding to a series of nodes connected in the terminal node direction are set as the deletion range, and words corresponding to a series of nodes having a high co-occurrence probability in the root node direction are set as the deletion range. Therefore, a set of words and phrases that are likely to be added or deleted at a time are processed together by a single designation operation, so that the summary text can be edited more easily, contributing to a reduction in the burden of editing work. Furthermore, in order to consider the co-occurrence probability, a set of words and phrases that are particularly likely to be added or deleted in one operation is processed in one designation operation, which contributes to further reducing the burden of editing work.
以上、第3実施形態について説明した。
<4.第4実施形態>
次に、第4実施形態について説明する。但し、上述した第2又は第3実施形態の説明と重複する部分については詳細な説明を省略する。なお、第4実施形態の技術は、第2又は第3実施形態と組み合わせて利用されうる。
The third embodiment has been described above.
<4. Fourth Embodiment>
Next, a fourth embodiment will be described. However, detailed description of the same parts as those described in the second or third embodiment will be omitted. The technique of the fourth embodiment can be used in combination with the second or third embodiment.
[4−1.機能]
第4実施形態に係る情報処理装置100は、要約文テキストに語句を追加する際、指定文字に対応するノードからルートノードに至るパス上のノードのうち、特定の条件を満たすノードを選択して追加する。つまり、この情報処理装置100は、構文木上で離れた位置にあるノードの接続関係をショートカットする。
[4-1. function]
When the
以下、上記のショートカットについて、図20及び図21を参照しながら説明する。図20は、第4実施形態に係る構文解析(係り受け解析)結果の一例を示した図である。図21は、第4実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。 Hereinafter, the shortcut will be described with reference to FIGS. 20 and 21. FIG. FIG. 20 is a diagram illustrating an example of a syntax analysis (dependency analysis) result according to the fourth embodiment. FIG. 21 is a diagram illustrating an example of a specifying operation and processing for adding a phrase according to the fourth embodiment.
上記のショートカットには、図20に示すように、構文解析結果に追加したショートカットの情報が利用される。図20の例では、ノード番号「1」のノードが、ノード番号「13」のノードにショートカットされる。例えば、ノード番号「1」に対応する語句「昨年」が指定されると(図21(A)を参照)、ルートノードに至るパス上のノードのうちノード番号「13」のノード(語句「去った」に対応)までのノードがスキップされ、追加対象から除外される。そのため、図21(C)に示すように「昨年」だけが要約文テキストに追加される。 As shown in FIG. 20, the shortcut information added to the syntax analysis result is used as the shortcut. In the example of FIG. 20, the node with the node number “1” is shortcut to the node with the node number “13”. For example, when the phrase “last year” corresponding to the node number “1” is specified (see FIG. 21A), the node with the node number “13” (the phrase “departure” among the nodes on the path leading to the root node). Nodes up to “)” are skipped and excluded from addition targets. Therefore, only “Last Year” is added to the summary text as shown in FIG.
ショートカット先は、下記の式(2)をもとに決定される。D(i,j)は、ノードi,jの距離を表す。P(i,j)は、ノードi,jの共起確率を表す。ノードiに対するノードjのスコアScjをD(i,j)×P(i,j)と定義する。ノード間の距離は、ノード間にあるブランチの数や、ノード間にある他のノードの数に1を加えた数などで評価できる。共起確率は上述した共起確率テーブルにより与えられる。Nodes(i)は、ノードiからルートノードへ至るパス上のノードのうちスコアが最大となるノードのノード番号を表す。Lは、ノードiからルートノードに至るパス上のノード数である。 The shortcut destination is determined based on the following equation (2). D (i, j) represents the distance between the nodes i and j. P (i, j) represents the co-occurrence probability of the nodes i and j. The score Scj of the node j with respect to the node i is defined as D (i, j) × P (i, j). The distance between nodes can be evaluated by the number of branches between the nodes or the number of other nodes between the nodes plus one. The co-occurrence probability is given by the co-occurrence probability table described above. Node s (i) represents the node number of the node having the maximum score among the nodes on the path from the node i to the root node. L is the number of nodes on the path from the node i to the root node.
図21の例では、語句「昨年」が指定され、ルートノードに至るパス上の各ノードに対し、スコアSc1、Sc2、Sc3が参照されている。この例では、Sc1>Sc2、Sc3であるとき、Sc1に対応する語句「去った」のノードがショートカット先になる。そのため、範囲制御部108は、語句「八月末の」、「日」を追加対象から除外し、要約文テキストに含まれていない語句「昨年」を追加範囲に含める。その結果、図21(C)に示す要約文テキストが得られる。
In the example of FIG. 21, the phrase “last year” is specified, and the scores Sc1, Sc2, and Sc3 are referenced for each node on the path leading to the root node. In this example, when Sc1> Sc2, Sc3, the node of the phrase “Leave” corresponding to Sc1 is the shortcut destination. Therefore, the
このように、第4実施形態に係る情報処理装置100の機能によれば、ノード間の距離及び共起確率をもとに追加対象が絞り込まれる。指定文字に対応するノードがルートノードから遠ければ、要約文テキストに追加される語句が多くなり、不要な語句が追加されるリスクが高まるが、上記機能を適用することで、このようなリスクが軽減される。また、共起確率が考慮されるため、必要な語句が残り、不要な語句が除外される可能性が高まり、適切な語句の集合が追加される可能性を高めることができる。その結果、要約文テキストの編集が更に容易になり、編集作業の更なる負担軽減に寄与する。
Thus, according to the function of the
[4−2.処理フロー]
次に、図22〜図24を参照しながら、情報処理装置100が実行する処理の流れについて説明する。図22は、第4実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。図23は、第4実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。図24は、第4実施形態に係る情報処理装置の動作についての処理の流れを示した第3のフロー図である。
[4-2. Processing flow]
Next, the flow of processing executed by the
(S301)原文入力部102は、原文テキスト101aを取得して記憶部101に格納する。例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、そこから原文テキストを取得して記憶部101に格納する。
(S301) The original
(S302)形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。例えば、原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、図4のような形態素解析結果が得られる。
(S302) The
(S303)構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図20を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。
(S303) The
(S304)構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字の原文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。
(S304) The
(S305)構文解析部104は、構文解析結果(図20を参照)に含まれる各語句に対応付けた削除フラグを全てOFFにする(初期化)。削除フラグは、要約文テキストに含まれる語句についてOFF、要約文テキストに含まれない語句についてONとされる。
(S305) The
(S306)要約文生成部105は、要約文生成時に削除するノードに対応する削除フラグをONに設定する。例えば、要約文生成部105は、ルートノードから、要約文生成のために設定されたノードへ至るパス上のノードに対応する語句を特定し、特定したノード以外のノードに対応する削除フラグをONに設定する。
(S306) The summary
(S307)要約文生成部105は、削除フラグがOFFのノードに対応する語句を原文テキスト101a上の出現順に連結して要約文テキストを生成する。
(S308)要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字の要約文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。
(S307) The summary
(S308) The summary
(S309)文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105が生成した要約文テキストと共に原文テキスト101aを出力する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。
(S309) The
(S310)指定受領部107は、文出力部106が出力した要約文テキストで確定されたか否かを判定する。例えば、指定受領部107は、要約文テキストの編集終了操作が行われたか否かを判定する。要約文テキストが確定された場合、図22〜図24に示した一連の処理は終了する。一方、要約文テキストが確定されていない場合、処理はS311へと進む。
(S310) The
(S311)指定受領部107は、原文テキスト101aの文字が指定されたか否かを判定する。原文テキスト101aの文字が指定された場合、処理はS312へと進む。一方、原文テキスト101aの文字が指定されていない場合、処理はS320へと進む。
(S311) The
(S312)指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定文字に対応するノードを特定する。そして、指定受領部107は、特定したノードを追加起点ノードに設定する。
(S312) When the
(S313)範囲制御部108は、追加起点ノードのルートノード側に隣接するノードを近道判定ノードに設定する。S313の処理が完了すると、処理はS314へと進む。
(S314)範囲制御部108は、共起確率テーブルから、追加起点ノードと近道判定ノードとの共起確率を取得する。
(S313) The
(S314) The
(S315)範囲制御部108は、追加起点ノードと近道判定ノードの距離、及びS314で取得した共起確率に基づくスコアを計算する。例えば、追加起点ノードをノードi、近道判定ノードをノードjとし、ノードi,jの距離をD(i,j)、共起確率をP(i,j)とすると、スコアScjはD(i,j)×P(i,j)で与えられる。なお、上記距離は構文木上の距離である。
(S315) The
(S316)範囲制御部108は、近道判定ノードの削除フラグがONであるか否かを判定する。近道判定ノードの削除フラグがONである場合、処理はS317へと進む。一方、近道判定ノードの削除フラグがOFFである場合、処理はS318へと進む。
(S316) The
(S317)範囲制御部108は、現在の近道判定ノードのルートノード側に隣接するノードを新たな近道判定ノードに設定する。S317の処理が完了すると、処理はS314へと進む。
(S317) The
(S318)範囲制御部108は、追加起点ノードから、最大スコアのノードへのショートカットを設定する。
(S319)範囲制御部108は、ショートカットする区間に含まれるノードの削除フラグは維持したまま、追加起点ノードからルートノードまでの各ノードに対応する削除フラグをOFFに設定する。S319の処理が完了すると、処理はS307へと進む。
(S318) The
(S319) The
(S320)指定受領部107は、要約文テキストの文字が指定されたか否かを判定する。要約文テキストの文字が指定された場合、処理は第2又は第3実施形態と同じ処理が実行される。一方、要約文テキストの文字が指定されていない場合、処理はS310へと進む。
(S320) The
第2実施形態と同じ処理が実行される場合、図12のS115以降の処理が実行され、S116の処理が完了すると、処理はS307へと進む。一方、第3実施形態と同じ処理が実行される場合、図18のS218以降の処理が実行され、S224の処理が完了すると、処理はS307へと進む。このように、第4実施形態の技術は、第2又は第3実施形態の技術と組み合わせることができる。 When the same processing as that of the second embodiment is executed, the processing after S115 of FIG. 12 is executed, and when the processing of S116 is completed, the processing proceeds to S307. On the other hand, when the same processing as that of the third embodiment is executed, the processing after S218 in FIG. 18 is executed, and when the processing of S224 is completed, the processing proceeds to S307. Thus, the technique of the fourth embodiment can be combined with the technique of the second or third embodiment.
以上、情報処理装置100が実行する処理の流れについて説明した。
上記の処理方法によれば、ノード間の距離及び共起確率をもとに追加対象が絞り込まれる。指定文字に対応するノードがルートノードから遠ければ、要約文テキストに追加される語句が多くなり、不要な語句が追加されるリスクが高まるが、上記処理方法を適用することで、このようなリスクが軽減される。また、共起確率が考慮されるため、必要な語句が残り、不要な語句が除外される可能性が高まり、適切な語句の集合が追加される可能性を高めることができる。その結果、要約文テキストの編集が更に容易になり、編集作業の更なる負担軽減に寄与する。
The flow of processing executed by the
According to the above processing method, the addition target is narrowed down based on the distance between nodes and the co-occurrence probability. If the node corresponding to the specified character is far from the root node, more words will be added to the summary text and the risk of adding unnecessary words will increase, but this risk can be increased by applying the above processing method. Is reduced. In addition, since the co-occurrence probability is taken into consideration, it is possible to increase the possibility that necessary words remain and unnecessary words / phrases are excluded, and that a set of appropriate words / phrases is added. As a result, the summary text can be edited more easily, which contributes to further reducing the burden of editing work.
以上、第4実施形態について説明した。 The fourth embodiment has been described above.
10 情報処理装置
11 記憶部
12 演算部
13 表示部
20 構文木
21 追加範囲
22 削除範囲
31 原文
32 要約文
DESCRIPTION OF
Claims (6)
前記原文と、前記語句を省略して前記原文を要約した要約文とを表示する表示部と、
前記原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、前記構文木の根へ向かう方向にある第2のノードを特定し、前記第1及び第2のノードに対応する語句を前記要約文に追加し、
前記要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、前記構文木の末端へ向かう方向にある第4のノードを特定し、前記第3及び第4のノードに対応する語句を前記要約文から削除する演算部と、
を備える、情報処理装置。 A storage unit that stores an original sentence and a syntax tree in which a dependency structure of a phrase based on a syntactic analysis of the original sentence is expressed by a connection relation of nodes corresponding to the phrase;
A display unit that displays the original sentence and a summary sentence that summarizes the original sentence by omitting the word;
When the designation operation for the original sentence is received, the second node connected to the first node corresponding to the word or phrase at the designated location and in the direction toward the root of the syntax tree is specified, and the first and second Add words to the summary sentence that correspond to
When the designation operation for the summary sentence is received, the fourth node connected to the third node corresponding to the word at the designated location and in the direction toward the end of the syntax tree is specified, and the third And an arithmetic unit that deletes the word corresponding to the fourth node from the summary sentence;
An information processing apparatus comprising:
前記演算部は、前記原文に対する指定操作を受け付けた場合、前記第1のノードに接続された、前記構文木の末端へ向かう方向にあるノードのうち、前記第1のノードとの間の前記共起確率が、設定された閾値よりも大きいノードを前記第2のノードとして特定する
請求項1に記載の情報処理装置。 The storage unit further stores a co-occurrence probability between nodes connected on the syntax tree,
When the calculation unit receives a designating operation on the original text, the computing unit is connected to the first node and is connected to the first node among nodes in a direction toward the end of the syntax tree. The information processing apparatus according to claim 1, wherein a node having an occurrence probability greater than a set threshold is specified as the second node.
請求項2に記載の情報処理装置。 When the calculation unit receives a designating operation on the summary sentence, the co-occurrence with the third node among nodes connected to the third node and in a direction toward the root of the syntax tree. The information processing apparatus according to claim 2, wherein a node having a probability greater than the threshold is specified as the fourth node.
前記演算部は、前記原文に対する指定操作を受け付けた場合、前記第1のノードとの間の前記構文木上の距離が遠く、かつ、前記共起確率が大きくなるほど高い値をとる評価値に基づき、前記第1のノードに接続された、前記構文木の根へ向かう方向にあるノードのうち、前記評価値が最も高いノードを前記第2のノードとして特定する
請求項1に記載の情報処理装置。 The storage unit further stores a co-occurrence probability between nodes connected on the syntax tree,
When the calculation unit accepts a designation operation on the original text, the calculation unit is based on an evaluation value that takes a higher value as the distance from the first node on the syntax tree is longer and the co-occurrence probability increases. The information processing apparatus according to claim 1, wherein a node having the highest evaluation value is identified as the second node among nodes connected to the first node and in a direction toward a root of the syntax tree.
記憶部から、原文と、該原文の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した構文木とを取得し、
表示部に、前記原文と、前記原文を要約した要約文とを表示させ、
前記原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、前記構文木の根へ向かう方向にある第2のノードを特定し、前記第1及び第2のノードに対応する語句を前記要約文に追加し、
前記要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、前記構文木の末端へ向かう方向にある第4のノードを特定し、前記第3及び第4のノードに対応する語句を前記要約文から削除する
要約文編集方法。 Computer
From the storage unit, obtain the original sentence and a syntax tree expressing the dependency structure of the phrase based on the syntactic analysis of the original sentence by the connection relation of the nodes corresponding to the phrase;
The display unit displays the original sentence and a summary sentence summarizing the original sentence,
When the designation operation for the original sentence is received, the second node connected to the first node corresponding to the word or phrase at the designated location and in the direction toward the root of the syntax tree is specified, and the first and second Add words to the summary sentence that correspond to
When the designation operation for the summary sentence is received, the fourth node connected to the third node corresponding to the word at the designated location and in the direction toward the end of the syntax tree is specified, and the third And a summary sentence editing method of deleting words corresponding to the fourth node from the summary sentence.
記憶部から、原文と、該原文の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した構文木とを取得し、
表示部に、前記原文と、前記原文を要約した要約文とを表示させ、
前記原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、前記構文木の根へ向かう方向にある第2のノードを特定し、前記第1及び第2のノードに対応する語句を前記要約文に追加し、
前記要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、前記構文木の末端へ向かう方向にある第4のノードを特定し、前記第3及び第4のノードに対応する語句を前記要約文から削除する
処理を実行させる、プログラム。 On the computer,
From the storage unit, obtain the original sentence and a syntax tree expressing the dependency structure of the phrase based on the syntactic analysis of the original sentence by the connection relation of the nodes corresponding to the phrase;
The display unit displays the original sentence and a summary sentence summarizing the original sentence,
When the designation operation for the original sentence is received, the second node connected to the first node corresponding to the word or phrase at the designated location and in the direction toward the root of the syntax tree is specified, and the first and second Add words to the summary sentence that correspond to
When the designation operation for the summary sentence is received, the fourth node connected to the third node corresponding to the word at the designated location and in the direction toward the end of the syntax tree is specified, and the third And the program which performs the process which deletes the phrase corresponding to a 4th node from the said summary sentence.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044280A JP6451414B2 (en) | 2015-03-06 | 2015-03-06 | Information processing apparatus, summary sentence editing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015044280A JP6451414B2 (en) | 2015-03-06 | 2015-03-06 | Information processing apparatus, summary sentence editing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016164700A JP2016164700A (en) | 2016-09-08 |
JP6451414B2 true JP6451414B2 (en) | 2019-01-16 |
Family
ID=56876574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015044280A Expired - Fee Related JP6451414B2 (en) | 2015-03-06 | 2015-03-06 | Information processing apparatus, summary sentence editing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6451414B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7152437B2 (en) * | 2020-02-20 | 2022-10-12 | ソフトバンク株式会社 | Summary generation program, summary generation device and summary generation method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5838323A (en) * | 1995-09-29 | 1998-11-17 | Apple Computer, Inc. | Document summary computer system user interface |
JP2006350439A (en) * | 2005-06-13 | 2006-12-28 | Sony Ericsson Mobilecommunications Japan Inc | Portable document preparation device and cellular phone terminal |
JP5100445B2 (en) * | 2008-02-28 | 2012-12-19 | 株式会社東芝 | Machine translation apparatus and method |
WO2010052764A1 (en) * | 2008-11-05 | 2010-05-14 | 株式会社日立製作所 | Text display device |
JP5547254B2 (en) * | 2012-09-13 | 2014-07-09 | 日本電信電話株式会社 | Interactive summary generating apparatus, method and program |
-
2015
- 2015-03-06 JP JP2015044280A patent/JP6451414B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016164700A (en) | 2016-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7421604B2 (en) | Model pre-training method and device, text generation method and device, electronic equipment, storage medium and computer program | |
JP2004157981A (en) | Device for expressing summary | |
US20020111792A1 (en) | Document storage, retrieval and search systems and methods | |
JP4861375B2 (en) | Document processing apparatus, document processing program, and recording medium | |
JP3921523B2 (en) | Text generation method and text generation apparatus | |
KR20150032164A (en) | Active Knowledge Guidance Based on Deep Document Analysis | |
US20120124467A1 (en) | Method for automatically generating descriptive headings for a text element | |
CN117786095A (en) | Controllable news manuscript generation method, device and medium based on consistency discrimination | |
CN103020311B (en) | A kind of processing method of user search word and system | |
JP4065346B2 (en) | Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method | |
JP6451414B2 (en) | Information processing apparatus, summary sentence editing method, and program | |
JPH07182373A (en) | Document information retrieval device and document retrieval result display method | |
JP2016167123A (en) | Common operation column extraction program, common operation column extraction method, and common operation column extraction apparatus | |
JP4401269B2 (en) | Parallel translation judgment device and program | |
CN110457691A (en) | Emotional curve analysis method and device based on script characters | |
JP4378106B2 (en) | Document search apparatus, document search method and program | |
Zulkhazhav et al. | Kazakh text summarization using fuzzy logic | |
CN114299525A (en) | Picture processing method and device and electronic equipment | |
JP2009252143A (en) | Machine translation device and program | |
CN107783957B (en) | Ontology creating method and device | |
JPH07134720A (en) | Method and device for presenting relative information in sentence preparing system | |
JP4138048B2 (en) | Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device | |
CN115577090B (en) | Idiom understanding-based voice conversation method, device, equipment and storage medium | |
JP5073423B2 (en) | Translation search support apparatus, translation search support method, and translation search support program | |
JP2003099429A (en) | Glossary generation device, glossary generation program, and glossary search device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6451414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |