[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2015170145A - Program, device, and server for estimating simple sentence symbolizing target sentence - Google Patents

Program, device, and server for estimating simple sentence symbolizing target sentence Download PDF

Info

Publication number
JP2015170145A
JP2015170145A JP2014044668A JP2014044668A JP2015170145A JP 2015170145 A JP2015170145 A JP 2015170145A JP 2014044668 A JP2014044668 A JP 2014044668A JP 2014044668 A JP2014044668 A JP 2014044668A JP 2015170145 A JP2015170145 A JP 2015170145A
Authority
JP
Japan
Prior art keywords
sentence
associative
word
associative word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014044668A
Other languages
Japanese (ja)
Other versions
JP6153262B2 (en
Inventor
鈴木 雅実
Masami Suzuki
雅実 鈴木
滝嶋 康弘
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014044668A priority Critical patent/JP6153262B2/en
Publication of JP2015170145A publication Critical patent/JP2015170145A/en
Application granted granted Critical
Publication of JP6153262B2 publication Critical patent/JP6153262B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a program and the like that estimate a concise expression (simple sentence) symbolically expressing a target sentence, thereby enabling a user who encounters the target sentence to intuitively understand a semantic content of the target sentence only at a glance of the concise expression.SOLUTION: The device or server comprises: important word extraction means of extracting a plurality of characteristic important words according to a frequency of appearance of each word in the target sentence; first associative word extraction means of extracting a list of first associative words that cooccurrence-appear with the important words; second associative word extraction means of extracting a group of second associative word of lists that cooccurrence-appear with the simple sentences for each of the simple sentences stored in simple sentence storage means; associative words list matching means of searching the second associative word list, in the group of the second associative word lists for each of the simple sentences, which is the most similar to the first associative word list; and simple sentence estimation means of outputting the simple sentence based on the searched second associative word list as a sentence which symbolizes the target sentence.

Description

本発明は、対象文章の意味的内容を象徴する文を生成又は選択する技術に関する。   The present invention relates to a technique for generating or selecting a sentence symbolizing the semantic content of a target sentence.

近年、テキスト要約技術の進歩によって、Webページに記述された長い対象文章も短時間で圧縮し、ブラウザで閲覧することができる。要約を更に進めると、そのような対象文章を、文やキーワードにまで凝縮させることもできる。但し、テキスト要約技術は、論理的な意味のまとまりを保持するものであっって、通常、パラグラフのような文章を生成するに留まる。   In recent years, with the progress of text summarization technology, a long target sentence described in a Web page can be compressed in a short time and viewed with a browser. When the summary is further advanced, such target sentences can be condensed into sentences and keywords. However, the text summarization technique retains a logical group of meanings, and usually only generates sentences such as paragraphs.

テキスト要約技術は、対象文章から単語を抽出し、それら単語を含む文を繋ぎ合わせて要約文章を生成する。最近では、複数の対象文章を要約するものもあるが、いずれにせよ論理的な文章として再構成するものが一般的である(例えば非特許文献1参照)。また、内容網羅性及び可読性の高い要約を生成するために、文要素に種々の素性を付与する技術もある(例えば特許文献1参照)。一方で、対象文章に対して各種のアノテーションを施すことによって、簡易に検索する技術もある(例えば非特許文献2参照)。この技術によれば、対象文章における語の分布や形式的特徴から、種々の属性を付与するものであって、アノテーションされた情報自体を人間が参照することは少ない。   In the text summarization technique, words are extracted from target sentences, and sentences containing these words are connected to generate a summary sentence. Recently, there are some which summarize a plurality of target sentences, but in any case, they are generally reconstructed as logical sentences (see, for example, Non-Patent Document 1). In addition, there is a technique for adding various features to sentence elements in order to generate a summary with high content coverage and readability (see, for example, Patent Document 1). On the other hand, there is also a technique for easily searching by applying various annotations to a target sentence (for example, see Non-Patent Document 2). According to this technology, various attributes are given from the word distribution and formal characteristics in the target sentence, and humans rarely refer to the annotated information itself.

人間が、原文となる対象文章を読むことなく、要約文章のみで理解するためには、要約文章には、ある程度の文章の長さが必要であり、原文の大意を反映することが必要である。しかし、その要求レベルに応じることは一般に非常に難度が高い。これに対して、検索結果の一覧等で表示される表題や目次的な情報を提示する技術もあるが、この技術によれば、そのリンク先を示すための中間段階の手掛り情報に過ぎない。   In order for humans to understand only the summary text without reading the target text that is the original text, the summary text needs to have a certain length of text, and it is necessary to reflect the intention of the original text . However, it is generally very difficult to meet the required level. On the other hand, there is a technique for presenting titles and table-of-contents information displayed in a search result list or the like, but according to this technique, the information is only intermediate stage clue information for indicating the link destination.

特開2011−243166号公報JP 2011-243166 A

難波英嗣・奥村学、「ここまで来たテキスト自動要約」、情報処理 Vol43、2002 No.12、[online]、[平成26年2月11日検索]、インターネット<URL:http://www.ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf>Eiwa Namba and Manabu Okumura, “Automatic text summarization so far”, Information Processing Vol 43, 2002 No.12, [online], [Search on February 11, 2014], Internet <URL: http: // www. ls.info.hiroshima-cu.ac.jp/~nanba/pdf/IPSJ-MGN431203_2002.pdf> 冨浦洋一・石田栄美、「学術論文検索の高度化のための論文アブストラクトのアノテーション」、テキストアノテーションワークショップ・コンテスト(国立情報学研究所)、2012、[online]、[平成26年2月11日検索]、インターネット<URL:http://nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf>Yoichi Kajiura and Emi Ishida, “Annotation of Abstracts for Advanced Academic Paper Search”, Text Annotation Workshop Contest (National Institute of Informatics), 2012, [online], [February 11, 2014 Search], Internet <URL: http: //nlp.nii.ac.jp/tawc/papers/C03_tomiura.pdf> 独立行政法人・情報通信研究機構、「日本語WordNet」[online]、[平成26年2月11日検索]、インターネット<URL:http://nlpwww.nict.go.jp/wn-ja/>National Institute of Information and Communications Technology, “Japanese WordNet” [online], [Search on February 11, 2014], Internet <URL: http://nlpwww.nict.go.jp/wn-ja/>

例えば様々なニュース記事やブログ記事を、コンサイス表現としての「名言」「格言」「ことわざ」「俳句」「川柳」(以下「簡易文」という)でたとえることによって、利用者に、その内容を直感的に理解させることができる。ここで、本願の発明者らは、対象文章に、テキスト要約やアノテーションではなく、コンサイス表現としての簡易文を対応付けることはできないか?と考えた。即ち、ニュース記事やブログ文章のような対象文章から、人として共感できる「コンサイス表現」を検索することができないか?、と考えた。このようなコンサイス表現は、対象文章に出現する単語を単に組み合わせても得られるものではない。対象文章の意味的内容を凝縮した、納得性の高いコンサイス表現を明示することができなければ、利用者は、それを一見しただけで直感的に理解して共感することまではできない。   For example, various news articles and blog articles can be intuitively compared to users by comparing them with "quote", "maximum", "proverb", "haiku", "kawayanagi" (hereinafter referred to as "simplified text") as concise expressions. Can be understood. Here, can the inventors of the present application associate a simple sentence as a concise expression instead of a text summary or annotation with the target sentence? I thought. In other words, is it possible to search for “concise expression” that can be sympathized as a person from target sentences such as news articles and blog sentences? I thought. Such a concise expression cannot be obtained by simply combining words appearing in the target sentence. If the concise expression with a high degree of convincing that condenses the semantic content of the target sentence cannot be specified, the user cannot understand and sympathize intuitively at first glance.

そこで、本発明は、対象文章を象徴的に表すコンサイス表現(簡易文)を推定することができるプログラム、装置及びサーバを提供することを目的とする。   Accordingly, an object of the present invention is to provide a program, an apparatus, and a server that can estimate a concise expression (simple sentence) that symbolically represents a target sentence.

本発明によれば、対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, a program for causing a computer to function to estimate a simple sentence symbolizing a target sentence,
Simple sentence storage means for storing a plurality of simple sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
An important word extracting means for extracting a plurality of characteristic important words according to the frequency of appearance of each word in the input target sentence;
A first associative word extraction means for extracting a first associative word list that co-occurs with an important word among the associative words stored in the associative word storage means with reference to the corpus sentence storage means;
For each simple sentence stored in the simple sentence storage means, a second associative word list that co-occurs with the simple sentence among the association words stored in the associative word storage means with reference to the corpus sentence storage means Second associative word extracting means for extracting a group of
An associative word list matching means for searching for a second associative word list that is most similar to the first associative word list among a group of second associative word lists for each simple sentence;
The computer is caused to function as simple sentence estimation means for outputting a simple sentence based on the second associative word list searched by the associative word list matching means as a symbol of the target sentence.

本発明のプログラムにおける他の実施形態によれば、
簡易文は、名言、格言、ことわざ、俳句及び/又は川柳である
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
It is also preferable to make the computer function so that the simple sentences are quotes, maxims, proverbs, haikus, and / or Kawayanagi.

本発明のプログラムにおける他の実施形態によれば、
連想語リストマッチング手段は、
対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C〜Cにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い第2の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The association word list matching means is
For each associated word in the first associated word list in the target sentence X, the semantic distance of each associated word in each second associated word list in the plurality of simple sentences C 1 to C n is searched, and the distance is the shortest. The associative word pair is derived, and the average distance or cumulative distance of the semantic distance of the associative word pair is calculated.
It is also preferable to cause the computer to function so as to select a simple sentence based on the second associative word list having the shortest average distance or cumulative distance with respect to the first associative word list in the target sentence X.

本発明のプログラムにおける他の実施形態によれば、
コーパス文章記憶手段及び/又は連想語記憶手段は、複数のカテゴリに区分されており、
第1の連想語抽出手段及び/又は第2の連想語抽出手段は、入力された対象文章のカテゴリに応じて、コーパス文章記憶手段及び/又は連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
Corpus sentence storage means and / or associative word storage means are divided into a plurality of categories,
The first associative word extracting unit and / or the second associative word extracting unit selects a category to be referred to from the corpus sentence storage unit and / or the associative word storage unit according to the input category of the target sentence. It is also preferable to make the computer function.

本発明のプログラムにおける他の実施形態によれば、
簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
It is also preferable that the simple sentence estimation means causes the computer to function by selecting a predetermined number of simple sentences in ascending order of distance from the target sentence and outputting a plurality of simple sentences as estimation results.

本発明のプログラムにおける他の実施形態によれば、
重要語抽出手段は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)又はDF(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The keyword extraction means preferably causes the computer to function so as to extract a keyword using TF-IDF (Term Frequency-Inverse Document Frequency) or DF (Document Frequency). .

本発明のプログラムにおける他の実施形態によれば、
大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索し、当該対象文章を重要語抽出手段へ出力するする対象文章検索手段と
を有し、
簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
A target sentence database storing a large amount of target sentences;
A target sentence search means for searching for one or more target sentences using the target sentence database for the input query and outputting the target sentences to the keyword extraction means;
The simple sentence estimation means preferably causes the computer to function so as to output a simple sentence corresponding to each target sentence as a search result.

本発明のプログラムにおける他の実施形態によれば、
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
Simple sentence estimation means
Combine each target sentence with a simple sentence and output it as a search result,
Or
It is also preferable to cause the computer to function so that a plurality of simple sentences are output, the user selects any simple sentence, and the target sentence corresponding to the selected simple sentence is output again as a search result.

本発明によれば、簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, a program for causing a computer to function to estimate a target sentence symbolizing a simple sentence,
A target sentence storage means for storing a plurality of target sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word for each target sentence;
For each target sentence, the corpus sentence storage means is referred to, and the first association word list group appearing together with the important word is extracted from the association words stored in the association word storage means. Associative word extraction means;
A second associative word list that co-occurs with the simple sentence is extracted from the associative words stored in the associative word storage means with reference to the corpus sentence storage means for the input simple sentence. Associative word extraction means;
An associative word list matching means for searching a first associative word list most similar to the second associative word list among a group of first associative word lists for each target sentence;
The computer is made to function as target sentence estimation means for outputting the target sentence based on the first associative word list searched by the associative word list matching means as a symbol of a simple sentence.

本発明によれば、対象文章を象徴する簡易文を推定する装置であって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする。
According to the present invention, an apparatus for estimating a simple sentence symbolizing a target sentence,
Simple sentence storage means for storing a plurality of simple sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
An important word extracting means for extracting a plurality of characteristic important words according to the frequency of occurrence of each word in the target sentence;
A first associative word extraction means for extracting a first associative word list that co-occurs with an important word among the associative words stored in the associative word storage means with reference to the corpus sentence storage means;
For each simple sentence stored in the simple sentence storage means, a second associative word list that co-occurs with the simple sentence among the association words stored in the associative word storage means with reference to the corpus sentence storage means Second associative word extracting means for extracting a group of
An associative word list matching means for searching for a second associative word list that is most similar to the first associative word list among a group of second associative word lists for each simple sentence;
And a simple sentence estimation means for outputting a simple sentence based on the second associative word list searched by the associative word list matching means as a symbol of the target sentence.

本発明によれば、簡易文を象徴する対象文章を推定する装置であって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。
According to the present invention, an apparatus for estimating a target sentence symbolizing a simple sentence,
A target sentence storage means for storing a plurality of target sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word for each target sentence;
For each target sentence, the corpus sentence storage means is referred to, and the first association word list group appearing together with the important word is extracted from the association words stored in the association word storage means. Associative word extraction means;
A second associative word list that co-occurs with the simple sentence is extracted from the associative words stored in the associative word storage means with reference to the corpus sentence storage means for the input simple sentence. Associative word extraction means;
An associative word list matching means for searching a first associative word list most similar to the second associative word list among a group of first associative word lists for each target sentence;
And a target sentence estimation means for outputting the target sentence based on the first associative word list searched by the associative word list matching means as a symbol of a simple sentence.

本発明によれば、端末からクエリを受信し、該クエリに対応する1つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
クエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索する対象文章検索手段と、
検索された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
簡易文記憶手段に記憶された簡易文毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とする。
According to the present invention, a server that receives a query from a terminal, searches for one or more target sentences corresponding to the query, estimates a simple sentence that symbolizes the target sentence, and returns the simple sentence to the terminal. There,
A target sentence database storing a large amount of target sentences;
Simple sentence storage means for storing a plurality of simple sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
A target sentence search means for searching for one or more target sentences using a target sentence database in response to the query;
An important word extracting means for extracting a plurality of characteristic important words according to the appearance frequency of each word in the searched target sentence;
A first associative word extraction means for extracting a first associative word list that co-occurs with an important word among the associative words stored in the associative word storage means with reference to the corpus sentence storage means;
For each simple sentence stored in the simple sentence storage means, a second associative word list that co-occurs with the simple sentence among the association words stored in the associative word storage means with reference to the corpus sentence storage means Second associative word extracting means for extracting a group of
An associative word list matching means for searching for a second associative word list that is most similar to the first associative word list among a group of second associative word lists for each simple sentence;
Simple sentence estimation means for outputting a simple sentence based on the second associative word list searched by the associative word list matching means as a search result symbolizing the target sentence;
It is characterized by having.

本発明のサーバにおける他の実施形態によれば、
簡易文推定手段は、
各対象文章に簡易文を組み合わせて検索結果として出力するか、
又は、
複数の簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する対象文章を改めて検索結果として返信する
ことも好ましい。
According to another embodiment of the server of the present invention,
Simple sentence estimation means
Combine each target sentence with a simple sentence and output it as a search result,
Or
It is also preferable to return a plurality of simple sentences to the terminal, receive the simple sentence selected by the user, and return the target sentence corresponding to the simple sentence as a search result.

本発明によれば、端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、コーパス文章記憶手段を参照し、連想語記憶手段に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする。
According to the present invention, a server that receives a simple sentence from a terminal, estimates a target sentence that symbolizes the simple sentence, and returns the target sentence to the terminal,
A target sentence storage means for storing a plurality of target sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word for each target sentence;
For each target sentence, the corpus sentence storage means is referred to, and the first association word list group appearing together with the important word is extracted from the association words stored in the association word storage means. Associative word extraction means;
A second associative word list that co-occurs with the simple sentence is extracted from the associative words stored in the associative word storage means with reference to the corpus sentence storage means for the input simple sentence. Associative word extraction means;
An associative word list matching means for searching a first associative word list most similar to the second associative word list among a group of first associative word lists for each target sentence;
And a target sentence estimation means for outputting the target sentence based on the first associative word list searched by the associative word list matching means as a symbol of a simple sentence.

本発明のプログラム、装置及びサーバは、対象文章を象徴的に表すコンサイス表現(簡易文)を推定することができる。これによって、対象文章に接した利用者は、そのコンサイス表現を一見しただけで、その対象文章の意味的内容を直感的に理解することができる。   The program, apparatus, and server of the present invention can estimate a concise expression (simple sentence) that symbolically represents a target sentence. Thereby, the user who touched the target sentence can intuitively understand the semantic content of the target sentence only by looking at the concise expression.

本発明における簡易文推定装置の機能構成図である。It is a functional block diagram of the simple sentence estimation apparatus in this invention. 対象文章に対する処理を表す本発明のフローチャートである。It is a flowchart of this invention showing the process with respect to object text. 簡易文に対する処理を表す本発明のフローチャートである。It is a flowchart of this invention showing the process with respect to a simple sentence. 簡易文を入力することによって、対象文章を検索する対象文推定装置の機能構成図である。It is a functional block diagram of the target sentence estimation apparatus which searches a target sentence by inputting a simple sentence. 本発明における簡易文推定サーバを有するシステム構成図である。It is a system block diagram which has the simple sentence estimation server in this invention.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明における簡易文推定装置の機能構成図である。   FIG. 1 is a functional configuration diagram of a simple sentence estimation apparatus according to the present invention.

簡易文推定装置1は、対象文章を入力し、その対象文章を象徴する簡易文を推定する。対象文章は、ニュース記事やブログ記事であってもよい。簡易文は、コンサイス表現であって、例えば名言、格言、ことわざ、俳句、川柳のようなものである。   The simple sentence estimation device 1 inputs a target sentence and estimates a simple sentence that symbolizes the target sentence. The target sentence may be a news article or a blog article. Simple sentences are concise expressions, such as quotes, maxims, proverbs, haiku, and kawayanagi.

簡易文推定装置1に、対象文章として、例えば以下のように単一話題のニュース記事が入力されたとする。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 2013/5/28 16:56
映画女優、A子さん(37)の母方の叔母B子さんが2013年5月26日、埼玉県の病院で乳がんのため61歳で亡くなった。
A子は14日に乳がんのリスクを高める遺伝子異変が見つかり、両乳房の切除・再建手術を受けたことを公表。B子さんは04年に乳がんと診断された後に、A子さんと同様の遺伝子異変が見つかっていたという。」
-------------------------------------------------------------------------------
簡易文推定装置1は、入力されたこの「ニュース記事」(対象文章)を象徴する「ことわざ」(簡易文)を推定することができる。
It is assumed that a news article on a single topic is input to the simple sentence estimation device 1 as a target sentence, for example, as follows.
-------------------------------------------------- -----------------------------
Title "A child's aunt dies of breast cancer" 2013/5/28 16:56
Movie actress A child (37) 's maternal aunt B child died at age 61 on May 26, 2013 at a hospital in Saitama Prefecture due to breast cancer.
A child announced that a genetic abnormality that increased the risk of breast cancer was found on the 14th, and that both breasts were excised and reconstructed. After child B was diagnosed with breast cancer in 2004, the same genetic abnormality as A child was found. "
-------------------------------------------------- -----------------------------
The simple sentence estimation device 1 can estimate a “say” (simple sentence) that symbolizes this inputted “news article” (target sentence).

図1によれば、簡易文推定装置1は、コーパス文章記憶部101と、連想語記憶部102と、重要語抽出部111と、第1の連想語抽出部112と、簡易文記憶部121と、第2の連想語抽出部122と、連想語リストマッチング部131と、簡易文推定部132とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行させることによって実現できる。また、これら機能の処理の流れは、装置を用いた簡易文推定方法としても理解できる。   According to FIG. 1, the simple sentence estimation device 1 includes a corpus sentence storage unit 101, an associative word storage unit 102, an important word extraction unit 111, a first associative word extraction unit 112, and a simple sentence storage unit 121. The second associative word extraction unit 122, the associative word list matching unit 131, and the simple sentence estimation unit 132 are included. These functional components can be realized by executing a program that causes a computer installed in the apparatus to function. Also, the processing flow of these functions can be understood as a simple sentence estimation method using an apparatus.

図2は、対象文章に対する処理を表す本発明のフローチャートである。   FIG. 2 is a flowchart of the present invention showing processing for the target sentence.

[コーパス文章記憶部101]
コーパス文章記憶部101は、コーパス文章を記憶したものである。コーパス(corpus)とは、狭義には、自然言語の文章を構造化し大規模に集積したデータベースを意味するが、広義には、新聞ニュース記事やブログ記事のような流通する文章であってもよい。また、コーパス文章記憶部101は、簡易文推定装置1内に蓄積されたものであってもよいし、ネットワークを介して他のコーパスサーバを検索できるものであってもよい。
[Corpus sentence storage unit 101]
The corpus sentence storage unit 101 stores corpus sentences. Corpus means, in a narrow sense, a database in which natural language sentences are structured and accumulated on a large scale, but in a broad sense, it may be distributed sentences such as newspaper news articles and blog articles. . The corpus sentence storage unit 101 may be stored in the simple sentence estimation apparatus 1 or may be capable of searching for another corpus server via a network.

他の実施形態として、コーパス文章記憶部101は、大量のコーパス文章を、カテゴリに応じて区分して記憶していることも好ましい。簡易文推定装置1に入力された対象文章のカテゴリに応じて、参照すべきコーパス文章群も変更することによって、推定された簡易文における意味的内容の精度も高まる。   As another embodiment, it is also preferable that the corpus sentence storage unit 101 stores a large number of corpus sentences according to categories. By changing the corpus sentence group to be referred to according to the category of the target sentence input to the simple sentence estimation device 1, the accuracy of the semantic content in the estimated simple sentence is also increased.

コーパス文章記憶部101が記憶すべきコーパス文章は、簡易文記憶部121に記憶された1つの簡易文と、連想語記憶部102に記憶された少なくとも1つの連想語との両方を、1つの文章内に含むものである。コーパス文章記憶部101は、簡易文と連想語との共起関係からなるコーパス文章のデータベースである。   The corpus sentence to be stored by the corpus sentence storage unit 101 is a sentence that includes both one simple sentence stored in the simple sentence storage unit 121 and at least one associative word stored in the associative word storage unit 102. It is included. The corpus sentence storage unit 101 is a corpus sentence database including a co-occurrence relationship between a simple sentence and an associative word.

図2によれば、コーパス文章として、例えば以下のようなものが記憶されている。
-------------------------------------------------------------------------------
(C1)「将来、遺伝子医療が発展し、病気が無くなるかもしれません」
(C2)「転ばぬ先の杖というね。怪我して後悔する前に、予防だね」
(C3)「感謝!これぞ渡りに船。この対策が良かったのは、まさに運かも」
(C4)「乳がんは、早期に検査すれば、怖くはありません」
(C5)「あ〜失格した。これだけ価値も評価も高いのに〜。玉に瑕ということか」
(C6)「勝手な予防より、異変に気付いて直ぐに診断することが大事」
・・・・・
-------------------------------------------------------------------------------
According to FIG. 2, for example, the following are stored as corpus sentences.
-------------------------------------------------- -----------------------------
(C1) “In the future, genetic medicine will develop and the disease may disappear.”
(C2) “It ’s the cane that does n’t fall down. It ’s a prevention before you hurt and regret it.”
(C3) “Thank you! This is a ship for the crossing. This measure was good luck.
(C4) “Breast cancer is not scary if examined early”
(C5) “Oh, I was disqualified. It ’s so high in value and evaluation.
(C6) “It is more important to be aware of an incident and diagnose it immediately than to prevent it on its own.”
...
-------------------------------------------------- -----------------------------

[連想語記憶部102]
連想語記憶部102は、任意の複数の連想語を記憶したものである。連想語は、単なる単語の群に過ぎないが、この連想語を介して、対象文章と簡易文との内容的な類似度を導出する。また、連想語記憶部102は、第1の連想語抽出部112と、第2の連想語抽出部122との両方から参照されるものであって、共通して1つのものである。
尚、他の実施形態として、連想語記憶部102は、テーマに関する「テーマ連想語」と、人の感情に関する「感情連想語」とに区分して記憶しておくことも好ましい。
[Associative Word Storage Unit 102]
The associative word storage unit 102 stores arbitrary plural associative words. The associative word is merely a group of words, but the content similarity between the target sentence and the simple sentence is derived through the associative word. The associative word storage unit 102 is referred to by both the first associative word extraction unit 112 and the second associative word extraction unit 122, and is one in common.
As another embodiment, it is also preferable that the associative word storage unit 102 stores a “theme associated word” related to the theme and an “emotion associated word” related to human emotion.

図2によれば、連想語としては、例えば以下のようなものが設定されている。
-------------------------------------------------------------------------------
「検査」「手術」「後悔」「治療」「予防」「医師」「病気」「怪我」・・・
-------------------------------------------------------------------------------
According to FIG. 2, the following are set as the associative words, for example.
-------------------------------------------------- -----------------------------
"Inspection""Surgery""Remorse""Treatment""Prevention""Doctor""Illness""Injury" ...
-------------------------------------------------- -----------------------------

[重要語抽出部111]
重要語抽出部111は、対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。対象文章に陽に含まれる重要語は、その対象文章を特徴付けている。
[Important word extraction unit 111]
The important word extraction unit 111 extracts a plurality of characteristic important words according to the appearance frequency of each word in the target sentence. The important words explicitly included in the target sentence characterize the target sentence.

重要語抽出部111は、最初に、対象文章から、形態素解析によって単語を抽出する。ここで、「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位(単語を含む)を意味する。   The keyword extraction unit 111 first extracts words from the target sentence by morphological analysis. Here, “morphological analysis” refers to a technique for dividing a sentence into meaningful words and discriminating parts of speech and contents using a dictionary. The “morpheme” means the smallest meaningful unit (including a word) among sentence elements.

次に、重要語抽出部111は、単語毎の出現頻度に応じて、特徴的な複数の重要語を抽出する。最も簡単な方法としては、単なる出現頻度=出現回数であってもよい。また、重要語の所定数を、例えば上位100個として抽出するものであってもよいし、重要語の割合を、例えば上位30%として抽出するものであってもよい。   Next, the important word extracting unit 111 extracts a plurality of characteristic important words according to the appearance frequency for each word. The simplest method may be simple appearance frequency = number of appearances. Further, the predetermined number of important words may be extracted as the top 100, for example, or the ratio of important words may be extracted as the top 30%, for example.

他の実施形態として、出現頻度は、自立語に注目したTF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)値であってもよい。TF−IDFとは、文章中に出現した単語がどのくらい特徴的であるかを識別するための指標をいう。TF(term frequency)は、その文章の中でその単語が出現した回数を表し、IDF(inverse document frequency)は、コーパス全体の中でその文章を含む文章数の自然対数を表す。そして、TF値×IDF値が、その文章中におけるその単語のTF−IDF値となる。高いTF−IDF値を持つ単語ほど、話題性が高い(重要)であると認識される。   As another embodiment, the appearance frequency may be a TF-IDF (Term Frequency-Inverse Document Frequency) value focusing on independent words. TF-IDF refers to an index for identifying how characteristic a word that appears in a sentence is. TF (term frequency) represents the number of times the word appears in the sentence, and IDF (inverse document frequency) represents the natural logarithm of the number of sentences including the sentence in the entire corpus. Then, TF value × IDF value becomes the TF-IDF value of the word in the sentence. A word having a higher TF-IDF value is recognized as having a higher topicality (important).

更に、他の実施形態として、出現頻度は、当該重要語が出現する対象文章の数を表すDF(Document Frequency)値であってもよい。例えば各対象文章について、その重要語の数となる。   Furthermore, as another embodiment, the appearance frequency may be a DF (Document Frequency) value representing the number of target sentences in which the important word appears. For example, for each target sentence, it is the number of important words.

更に、他の実施形態として、対象文章が複数のパラグラフ(段落)から構成されている場合、一般に、各パラグラフの先頭文は重要であることが多い。そこで、パラグラフ先頭部分に含まれる単語は、その重みωを例えば2倍に設定した重要語候補とすることもできる。   Furthermore, as another embodiment, when the target sentence is composed of a plurality of paragraphs (paragraphs), generally, the head sentence of each paragraph is often important. Therefore, the word included in the head part of the paragraph can be an important word candidate with its weight ω set to, for example, twice.

図2によれば、前述の対象文章の例からは、例えば以下の重要語が抽出されたとする。
-------------------------------------------------------------------------------
「女優」「叔母」「病院」「乳がん」「リスク」「遺伝子」
「異変」「乳房」「切除」「手術」「診断」
-------------------------------------------------------------------------------
According to FIG. 2, it is assumed that, for example, the following important words are extracted from the above-described example of the target sentence.
-------------------------------------------------- -----------------------------
"Actress""Aunt""Hospital""Breastcancer""Risk""Gene"
"Abnormality""Breast""Resection""Surgery""Diagnosis"
-------------------------------------------------- -----------------------------

[第1の連想語抽出部112]
第1の連想語抽出部112は、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストを抽出する。連想語は、対象文章の中に陽には表れないが、その対象文章の意味的内容を表す語である。
[First associative word extraction unit 112]
The first associative word extraction unit 112 refers to the corpus sentence storage unit 101, and among the associative words stored in the associative word storage unit 102, a first associative word list that appears together with the important word is displayed. Extract. An associative word is a word that does not appear explicitly in the target sentence but represents the semantic content of the target sentence.

図2によれば、例えば前述の重要語の例から、以下のようなコーパス文章が参照される。
-------------------------------------------------------------------------------
(C1)「将来、[遺伝子]医療が発展し、[病気]が無くなるかもしれません」
(C4)「[乳がん]は、早期に[検査]すれば、怖くはありません」
(C6)「勝手な[予防]より、異変に気付いて直ぐに[診断]することが大事」
-------------------------------------------------------------------------------
C1には、重要語「遺伝子」と連想語「病気」とが共起して出現している。
C4には、重要語「乳がん」と連想語「検査」とが共起して出現している。
C6には、重要語「診断」と 連想語「予防」とが共起して出現している。
According to FIG. 2, for example, the following corpus sentences are referred to from the above-described example of important words.
-------------------------------------------------- -----------------------------
(C1) “In the future, [gene] medicine will develop and [disease] may disappear”
(C4) “[Breast cancer] is not afraid if [inspection] is done early”
(C6) “It is important to [diagnose] immediately after recognizing an abnormality rather than self-sufficient [prevention]”
-------------------------------------------------- -----------------------------
In C1, an important word “gene” and an associative word “disease” appear together.
In C4, the important word “breast cancer” and the associative word “examination” appear together.
In C6, the important word “diagnosis” and the associated word “prevention” appear together.

これによって、以下のような第1の連想語リストが抽出される。
-------------------------------------------------------------------------------
(第1の連想語リスト) 「病気」「検査」「予防」
-------------------------------------------------------------------------------
As a result, the following first associative word list is extracted.
-------------------------------------------------- -----------------------------
(First association word list) "Disease""Test""Prevention"
-------------------------------------------------- -----------------------------

図3は、簡易文に対する処理を表す本発明のフローチャートである。   FIG. 3 is a flowchart of the present invention showing processing for a simple sentence.

[簡易文記憶部121]
簡易文記憶部121は、複数の簡易文を予め記憶したものである。簡易文とは、「名言」「格言」「ことわざ」「俳句」「川柳」のような、直感的に人の感情様相を理解させる文である。コンサイス表現としての簡易文は、非常に短く、比喩的な表現が用いられることも多い。そのために、その簡易文に直接的に含まれる単語そのものを抽出しても、その簡易文の意図を特徴付けることにはならない。
[Simple sentence storage unit 121]
The simple sentence storage unit 121 stores a plurality of simple sentences in advance. A simple sentence is a sentence that intuitively understands the emotional aspect of a person, such as “Quotations”, “Maxims”, “Proverbs”, “Haiku”, and “Kawayanagi”. A simple sentence as a concise expression is very short, and a metaphorical expression is often used. Therefore, extracting the word itself directly included in the simple sentence does not characterize the intention of the simple sentence.

図3によれば、簡易文として、例えば以下のようなものが記憶されているとする。
-------------------------------------------------------------------------------
「転ばぬ先の杖」(失敗しないよう、万が一に備えて予め十分な準備をしておくこと)
「渡りに船」 (困っているときに、丁度よく助けになる人や環境に恵まれること)
「玉に瑕」 (ほとんど完全に近いものなのに、わずかな欠点があること)
「猿も木から落ちる」(その道の名人でも、時には失敗をすることがあること)
・・・・・
-------------------------------------------------------------------------------
According to FIG. 3, it is assumed that, for example, the following is stored as a simple sentence.
-------------------------------------------------- -----------------------------
"The tip of the tip that doesn't fall down" (Be prepared in advance so that it won't fail)
“Migration ship” (Blessed with people and environment that can help you when you are in trouble)
"Tama ni persimmon" (almost completely close, but has slight defects)
“Monkeys fall from trees” (even the masters of the road sometimes make mistakes)
...
-------------------------------------------------- -----------------------------

[第2の連想語抽出部122]
第2の連想語抽出部122は、簡易文記憶部121に記憶された簡易文毎に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストの群を抽出する。
[Second associative word extraction unit 122]
For each simple sentence stored in the simple sentence storage unit 121, the second associative word extraction unit 122 refers to the corpus sentence storage unit 101, and among the association words stored in the associative word storage unit 102, the simple sentence The group of the 2nd associative word list which co-occurs and is extracted.

図3によれば、コーパス文章として、例えば以下のようなものが参照される。
-------------------------------------------------------------------------------
(C2)「[転ばぬ先の杖]というね。[怪我]して[後悔]する前に、[予防]だね」
(C3)「[感謝]!これぞ[渡りに船]。この[対策]が良かったのは、まさに[運]かも」
(C5)「あ〜[失格]した。これだけ[価値]も[評価]も高いのに〜。[玉に瑕]ということか」
-------------------------------------------------------------------------------
C2には、簡易文「転ばぬ先の杖」と連想語「怪我」「後悔」「予防」が共起して出現している。
C3には、簡易文「渡りに船」と連想語「感謝」「対策」「運」とが共起して出現している。
C5には、簡易文「玉に瑕」と連想語「失格」「価値」「評価」とが共起して出現している。
According to FIG. 3, the following is referred to as a corpus sentence, for example.
-------------------------------------------------- -----------------------------
(C2) “It ’s called“ the cane that does n’t fall ”. It ’s“ prevention ”before [injury] and [regret].”
(C3) “[Thanks]! This is [Migrating to the ship]. This [Countermeasure] was good [Luck]?”
(C5) “Ah ~ I was disqualified. That's why [value] and [evaluation] are so high.
-------------------------------------------------- -----------------------------
In C2, a simple sentence “an wand that doesn't fall” and associated words “injury”, “regret”, and “prevention” appear together.
In C3, a simple sentence “Migration boat” and associated words “Thanks” “Countermeasures” “Luck” appear together.
In C5, a simple sentence “Tama ni Aoi” and associative words “disqualification”, “value”, and “evaluation” appear together.

これによって、以下のような第2の連想語リストが抽出される。
-------------------------------------------------------------------------------
(第2の連想語リスト)
「転ばぬ先の杖」:「怪我」「後悔」「予防」
「渡りに船」 :「感謝」「対策」「運」
「玉に瑕」 :「失格」「価値」「評価」
-------------------------------------------------------------------------------
As a result, the following second associative word list is extracted.
-------------------------------------------------- -----------------------------
(Second associative word list)
“A cane that never falls”: “Injury”, “Remorse”, “Prevention”
“Migration ship”: “Thanks” “Countermeasures” “Luck”
“Tama ni 瑕”: “Disqualification” “Value” “Evaluation”
-------------------------------------------------- -----------------------------

このように、大量のコーパス文章の中で、その簡易文が引用されるコーパス文章を抽出し、且つ、それらコーパス文章の中でその簡易文の出現箇所の周辺に分布する、連想語記憶部102の連想語を抽出する。   As described above, the corpus sentences in which the simple sentences are cited are extracted from a large number of corpus sentences, and the associative word storage unit 102 is distributed around the appearances of the simple sentences in the corpus sentences. Extract associative words.

他の実施形態として、コーパス文章記憶部101及び/又は連想語記憶部102は、複数のカテゴリに区分されていることも好ましい。この場合、第1の連想語抽出部112及び/又は第2の連想語抽出部122は、入力された対象文章のカテゴリに応じて、コーパス文章記憶部101及び/又は連想語記憶部位102から参照するカテゴリを選択する。対象文章(ニュース記事)のカテゴリ(ジャンル)が、例えば「病気」に関するものである場合、そのジャンルに区分されたコーパス文章及び/又は簡易文のみが抽出されることが好ましい。   As another embodiment, the corpus sentence storage unit 101 and / or the associative word storage unit 102 are preferably divided into a plurality of categories. In this case, the first associative word extraction unit 112 and / or the second associative word extraction unit 122 is referred from the corpus sentence storage unit 101 and / or the associative word storage unit 102 according to the category of the input target sentence. Select the category you want. When the category (genre) of the target sentence (news article) is related to, for example, “disease”, it is preferable that only corpus sentences and / or simple sentences classified into the genre are extracted.

[連想語リストマッチング部131]
連想語リストマッチング部131は、簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する。具体的には、以下のステップを実行する。また、第1の連想語リストに類似する複数の第2の連想語リストを順に、ランク付け(尤度順)するものであってもよい。連想語リスト間の類似度が高いほど、対象文章と簡易文との間で親和性が高いことを意味する。
[Associative Word List Matching Unit 131]
The associative word list matching unit 131 searches the second associative word list that is most similar to the first associative word list from the group of second associative word lists for each simple sentence. Specifically, the following steps are executed. Further, a plurality of second associative word lists similar to the first associative word list may be ranked in order (likelihood order). The higher the similarity between the associative word lists, the higher the affinity between the target sentence and the simple sentence.

対象文章xの第1の連想語リストX
X :(Wx1,Wx2,・・・,Wxm
簡易文C〜C毎の第2の連想語リストYの群
Y(C):(W11,W12,・・・,W1m
Y(C):(W21,W22,・・・,W2m
・・・・・
Y(C):(Wn1,Wn2,・・・,Wnm
ここで、mは、尤度の信頼性を考慮して、3〜5程度の値であることが好ましい。
First associated word list X of the target sentence x
X: (W x1 , W x2 ,..., W xm )
Group of second associative word list Y for each simple sentence C 1 to C n
Y (C 1 ): (W 11 , W 12 ,..., W 1m )
Y (C 2 ): (W 21 , W 22 ,..., W 2m )
...
Y (C n ): (W n1 , W n2 ,..., W nm )
Here, m is preferably a value of about 3 to 5 in consideration of the reliability of likelihood.

第1の連想語リストXと、各第2の連想語リストY(C)との間の類似度は、単語間の距離関係を統計的な出現頻度に基づいて導出した知識源データベースを参照することも好ましい。知識源データベースとしては、例えば日本語WordNetがある(例えば非特許文献3参照)。 For the similarity between the first associative word list X and each second associative word list Y (C n ), refer to the knowledge source database in which the distance relationship between words is derived based on the statistical appearance frequency. It is also preferable to do. An example of the knowledge source database is Japanese WordNet (see, for example, Non-Patent Document 3).

最初に、対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C〜Cにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出する。
XとY(C)との連想語間の距離Pを、以下のように算出する。
(S1)Wx1について、W11、W12、・・・、W1m毎に、以下の距離Px1を算出する。
P(Wx1,W11)、P(Wx1,W12)、・・・、P(Wx1,W1m
そして、Wx1について、最も距離Pが短いW11〜W1mを選択し、その距離Px1を記憶する。
(S2)Wx2について、W11、W12、・・・、W1m毎に、以下の距離Pを算出する。
P(Wx2,W11)、P(Wx2,W12)、・・・、P(Wx2,W1m
そして、Wx2について、最も距離Pが短いW11〜W1mを選択し、その距離Px2を記憶する。
・・・・
(Sm)Wxmについて、W11、W12、・・・、W1m毎に、以下の距離Pを算出する。
P(Wxm,W11)、P(Wxm,W12)、・・・、P(Wxm,W1m
そして、Wxnについて、最も距離Pが短いW11〜W1mを選択し、その距離Pxnを記憶する。
最後に、これら距離Px1〜Pxnの平均距離Pを、XとY(C)との間の距離とする。
次いで、Xに対して、Y(C)〜Y(C)とのそれぞれについて連想語間の平均距離を算出する。
First, for each associative word in the first associative word list in the target sentence X, the semantic distance of each associative word in each second associative word list in the plurality of simple sentences C 1 to C n is searched, and the distance The associative word pair with the shortest is derived, and the average distance or cumulative distance of the semantic distance of the associative word pair is calculated.
The distance P between associative words of X and Y (C 1 ) is calculated as follows.
(S1) For W x1 , the following distance P x1 is calculated for each W 11 , W 12 ,..., W 1 m .
P (W x1 , W 11 ), P (W x1 , W 12 ), ..., P (W x1 , W 1m )
Then, the W x1, select the most distance P is short W 11 to W-1 m, and stores the distance P x1.
(S2) For W x2 , the following distance P is calculated for each W 11 , W 12 ,..., W 1 m .
P (W x2 , W 11 ), P (W x2 , W 12 ), ..., P (W x2 , W 1m )
Then, the W x2, select the most distance P is short W 11 to W-1 m, and stores the distance P x2.
...
(Sm) For W xm , the following distance P is calculated for each W 11 , W 12 ,..., W 1 m .
P (W xm , W 11 ), P (W xm , W 12 ),..., P (W xm , W 1m )
Then, the W xn, select the most distance P is short W 11 to W-1 m, and stores the distance P xn.
Finally, the average distance P A of the distances P x1 to P xn, the distance between X and Y (C 1).
Next, an average distance between associative words is calculated for each of Y (C 2 ) to Y (C n ) with respect to X.

そして、最終的に、対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い(連想語間で最も類似する)第2の連想語リストY(C)を選択する。尚、上位から所定数までのY(C)をランキング(尤度順)として導出するものであってもよい。   Finally, the second associative word list Y (C) having the shortest average distance or cumulative distance (most similar among the associative words) is selected with respect to the first associative word list in the target sentence X. . Note that a predetermined number of Y (C) from the top may be derived as a ranking (in order of likelihood).

「転ばぬ先の杖」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「後悔」 0.080
「予防」 「予防」 0
「病気」 「怪我」 0.046
[平均距離]:0.042
「渡りに船」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「対策」 0.120
「予防」 「感謝」 0.925
「病気」 「運」 0.620
[平均距離]:0.555
「玉に瑕」
<対象文章:第1の連想語リスト> <簡易文:第2の連想語リスト> 最短距離
「検査」 「評価」 0.825
「予防」 「価値」 0.988
「病気」 「失格」 0.905
[平均距離]:0.906
"A cane that doesn't fall"
<Target sentence: first associative word list><Simple sentence: second associative word list> Shortest distance
"Inspection""Remorse" 0.080
"Prevention""Prevention" 0
"Illness""Injury" 0.046
[Average distance]: 0.042
"Ship to the cross"
<Target sentence: first associative word list><Simple sentence: second associative word list> Shortest distance
"Inspection""Countermeasures" 0.120
"Prevention""Thanks" 0.925
"Illness""Luck" 0.620
[Average distance]: 0.555
"Tama ni candy"
<Target sentence: first associative word list><Simple sentence: second associative word list> Shortest distance
"Inspection""Evaluation" 0.825
"Prevention""Value" 0.988
"Illness""Disqualification" 0.905
[Average distance]: 0.906

他の実施形態として、平均距離ではなく、上位数件の最短距離における累積距離を用いてもよい。   As another embodiment, instead of the average distance, the cumulative distance in the shortest distance of the top several cases may be used.

[簡易文推定部132]
簡易文推定部132は、連想語リストマッチング部131によって検索された第2の連想語リストに基づく簡易文を、対象文章を象徴するものとして出力する。また、簡易文推定部132は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力するものであってもよい。
[Simple sentence estimation unit 132]
The simple sentence estimation unit 132 outputs a simple sentence based on the second associative word list searched by the associative word list matching unit 131 as a symbol of the target sentence. Moreover, the simple sentence estimation part 132 may select a predetermined number of simple sentences in order with a short distance with respect to an object sentence, and may output several simple sentences as an estimation result.

図2及び図3によれば、平均距離が最も短い(最も類似する)簡易文「転ばぬ先の杖」が推定されて表示される。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 2013/5/28 16:56
コンサイス表現:「転ばぬ先の杖」
-------------------------------------------------------------------------------
According to FIGS. 2 and 3, the simple sentence “the tip of the tip that does not fall” with the shortest (most similar) average distance is estimated and displayed.
-------------------------------------------------- -----------------------------
Title "A child's aunt dies of breast cancer" 2013/5/28 16:56
Concise expression: "The cane that never falls"
-------------------------------------------------- -----------------------------

利用者は、タイトル及びコンサイス表現を一見しただけで、その記事に目を通す優先度を判断することができる。コンサイス表現を、サブタイトルのように表示される。複数の簡易文をランキングとして抽出できた場合、例えばユーザがカーソルをコンサイス表現「転ばぬ先の杖」の上に持ってきた際に、他のコンサイス表現も、平均距離の短い順のリスト状に表示されるものであってもよい。   The user can determine the priority of reading the article by looking at the title and concise expression. The concise expression is displayed like a subtitle. When multiple simple sentences can be extracted as rankings, for example, when the user brings the cursor over the concise expression “the wand that does not fall”, the other concise expressions are also displayed in a list in order of decreasing average distance. It may be displayed.

他の実施形態として、検索されたコンサイス表現(簡易文)について、更に、内容の極性(ポジティブ/ネガティブ)を示すアイコンのような副次的な特徴部分を、ユーザに更に明示することも好ましい。ユーザは、コンサイス表現に加えて、ポジティブ/ネガティブの感覚を直感的に理解することができる。   As another embodiment, it is also preferable to further indicate to the user a secondary feature such as an icon indicating the polarity (positive / negative) of the content of the retrieved concise expression (simple sentence). The user can intuitively understand the positive / negative sense in addition to the concise expression.

図4は、簡易文を入力することによって、対象文章を検索する対象文推定装置の機能構成図である。   FIG. 4 is a functional configuration diagram of a target sentence estimation device that searches for a target sentence by inputting a simple sentence.

図4によれば、図1と比較して、複数の対象文章を予め蓄積する対象文章蓄積部110を有する一方で、簡易文記憶部121を備えていない。ユーザに簡易文(コンサイス表現)のリストを明示し、ユーザの選択によって、1つの簡易文が入力されるものであってもよい。その他の機能構成部は、図1と基本的に同じ処理を実行する。但し、図1と比較して、複数の対象文章と1つの簡易文との構成になる点で、以下の構成要素の処理が異なる。   According to FIG. 4, as compared with FIG. 1, the target sentence storage unit 110 that stores a plurality of target sentences in advance is provided, but the simple sentence storage unit 121 is not provided. A list of simple sentences (concise expressions) may be clearly indicated to the user, and one simple sentence may be input by user selection. The other functional components execute basically the same processing as in FIG. However, compared with FIG. 1, the process of the following components differs in the point which becomes a structure of a some target sentence and one simple sentence.

重要語抽出部111は、対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する。
第1の連想語抽出部112は、対象文章毎に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、重要語と共起して出現する第1の連想語リストの群を抽出する。
第2の連想語抽出部122は、入力された簡易文に、コーパス文章記憶部101を参照し、連想語記憶部102に記憶された連想語の中で、簡易文と共起して出現する第2の連想語リストを抽出する。
連想語リストマッチング部131は、対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する。
対象文章推定部133は、連想語リストマッチング部131によって検索された第1の連想語リストに基づく対象文章を、簡易文を象徴するものとして出力する。
The important word extraction unit 111 extracts a plurality of characteristic important words for each target sentence according to the appearance frequency of each word.
The first associative word extraction unit 112 refers to the corpus sentence storage unit 101 for each target sentence, and appears first in association with important words among the association words stored in the associative word storage unit 102. Extract a group of associative word lists.
The second associative word extraction unit 122 refers to the corpus sentence storage unit 101 for the input simple sentence, and appears in association with the simple sentence in the associative words stored in the associative word storage unit 102. A second associative word list is extracted.
The associative word list matching unit 131 searches the first associative word list that is most similar to the second associative word list from the group of first associative word lists for each target sentence.
The target sentence estimation unit 133 outputs the target sentence based on the first associative word list searched by the associative word list matching unit 131 as a symbol of the simple sentence.

最終的に、図4によれば、例えば簡易文「転ばぬ先の杖」を入力することによって、対象文章「A子のおば、乳がんでなくなる」のニュース記事が検索されることとなる。   Finally, according to FIG. 4, for example, by inputting the simple sentence “the cane that does not fall”, the news article of the target sentence “A child's aunt, no breast cancer” is retrieved.

他の実施形態として、利用者への提示順として、対象文章を最初に表示するのではなく、簡易文のリストを一定数表示して、利用者にその中から気になる表現を選択させることも好ましい。例えば新着のニュース群に対して予め、各ニュース記事に対応するコンサイス表現(簡易文)を導出しておき、その出現頻度順にソートしたリストを表示する。これによって、ユーザは、その日の出来事で話題となっている傾向をも確かめながら、簡易文を選択することによって、ニュース記事を閲覧することができる。   As another embodiment, instead of displaying the target sentence first as the order of presentation to the user, a certain number of simple sentence lists are displayed, and the user is allowed to select an expression of interest from the list. Is also preferable. For example, a concise expression (simple sentence) corresponding to each news article is derived in advance for a new news group, and a list sorted in the appearance frequency is displayed. Thus, the user can browse the news article by selecting the simple sentence while confirming the trend that has been discussed in the event of the day.

図5は、本発明における簡易文推定サーバを有するシステム構成図である。   FIG. 5 is a system configuration diagram having a simple sentence estimation server in the present invention.

簡易文推定サーバ1は、端末2からクエリを受信し、そのクエリに対応する「対象文章及び簡易文の組」を端末2へ返信する。簡易文推定サーバ1は、図5によれば、図1と比較して、対象文章データベース140及び対象文章検索部141のみが追加されている。
対象文章データベース140は、大量の対象文章を記憶している。
対象文章検索部141は、入力されたクエリに対して、対象文章データベースを用いて、1つ以上の対象文章を検索する。検索された当該対象文章は、重要語抽出部111へ出力される。
最終的に、簡易文推定部132は、以下の2つのパターンで、端末2へ、簡易文を返信する。
(1)各対象文章に簡易文を組み合わせて検索結果として出力する。
(2)最初に、クエリの検索結果となる対象文章に対する複数の簡易文のみを、端末2へ返信する。端末2を操作するユーザに対して、いずれかの簡易文を選択させる。そして、選択された簡易文に対応する対象文章を改めて検索結果として端末2へ返信する。
The simple sentence estimation server 1 receives a query from the terminal 2, and returns a “target sentence and simple sentence set” corresponding to the query to the terminal 2. According to FIG. 5, the simple sentence estimation server 1 includes only the target sentence database 140 and the target sentence search unit 141 as compared with FIG. 1.
The target sentence database 140 stores a large amount of target sentences.
The target sentence search unit 141 searches for one or more target sentences using the target sentence database for the input query. The retrieved target sentence is output to the keyword extraction unit 111.
Finally, the simple sentence estimation unit 132 returns a simple sentence to the terminal 2 in the following two patterns.
(1) A simple sentence is combined with each target sentence and output as a search result.
(2) First, only a plurality of simple sentences corresponding to the target sentence as a query search result are returned to the terminal 2. The user operating the terminal 2 is allowed to select any simple sentence. Then, the target sentence corresponding to the selected simple sentence is returned to the terminal 2 as a search result.

<第1の実施形態>
このようなシステムによれば、ユーザインタフェースとして、「クエリや対象文章に対応することわざ」を検索することができる。例えば、ユーザが、ニュースやブログ等の記事の一覧を眺めながら、短時間に興味の湧きそうな記事を選択しようとしているとする。このとき、記事タイトルと並置的に、サブタイトルとしての「ことわざ」を表示させることができる。
-------------------------------------------------------------------------------
タイトル「A子のおば、乳がんで亡くなる」 -> [転ばぬ先の杖]
-------------------------------------------------------------------------------
ユーザとしては、記事タイトルだけでなく、トピックの理解を助けるような一言(コンサイス表現)も手がかりにして、その記事に目を通す優先度を判断することができる。ユーザとしては、そのコンサイス表現が内容とよくマッチする場合には、それに印象付けて記事を記憶することに結びつく。
<First Embodiment>
According to such a system, it is possible to search for “a proverb corresponding to a query or a target sentence” as a user interface. For example, it is assumed that the user is trying to select an article that is likely to be interesting in a short time while viewing a list of articles such as news and blogs. At this time, it is possible to display a “say” as a subtitle juxtaposed with the article title.
-------------------------------------------------- -----------------------------
Title "A child's aunt, dies of breast cancer"-> [A cane that never falls]
-------------------------------------------------- -----------------------------
As a user, not only the article title but also a word (concise expression) that helps understanding the topic can be used as a clue to determine the priority of reading the article. As a user, when the concise expression matches well with the content, it is impressed and the article is stored.

<第2の実施形態>
ユーザからクエリを受信した後、直ぐに、記事リストを提示するのではなく、中間段階として、記事に対応する「コンサイス表現」リストを提示する。ユーザは、複数のコンサイス表現の中から、いずれか1つのコンサイス表現を選択することができる。そして、そのコンサイス表現に対応する記事を改めてユーザへ提示する。例えば新着ニュース群に対して予め、各記事に対応するコンサイス表現(複数候補も可)を導出しておく。その頻度順にソートした結果を表示することにより、その日の出来事で話題となっている傾向を、コンサイス表現として眺めながら記事を選択することができる。
<Second Embodiment>
Immediately after receiving the query from the user, the article list is not presented, but an “concise expression” list corresponding to the article is presented as an intermediate stage. The user can select any one concise expression from a plurality of concise expressions. Then, the article corresponding to the concise expression is presented again to the user. For example, a concise expression (a plurality of candidates is also possible) corresponding to each article is derived in advance for a new news group. By displaying the results sorted in the order of their frequency, it is possible to select articles while looking at the trend that has become a topic in the events of the day as a concise expression.

これら実施形態とも、従来技術によるテキスト内容の極性情報(ポジティブ/ネガティブ要素の判定)等と合わせて、より直観的に記事の輪郭を把握する助けとなり得る。   Both of these embodiments, together with the text information polarity information (positive / negative element determination) according to the prior art, can help to grasp the outline of the article more intuitively.

以上、詳細に説明したように、本発明のプログラム、装置及びサーバは、対象文章を象徴的に表すコンサイス表現(簡易文)を推定することができる。これによって、対象文章に接した利用者は、そのコンサイス表現を一見しただけで、その対象文章の意味的内容を直感的に理解することができる。この点で、従来技術におけるテキスト要約やアノテーションと大きく異なる。   As described above in detail, the program, apparatus, and server of the present invention can estimate a concise expression (simple sentence) that symbolically represents a target sentence. Thereby, the user who touched the target sentence can intuitively understand the semantic content of the target sentence only by looking at the concise expression. In this respect, it differs greatly from text summarization and annotation in the prior art.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。   Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.

1 簡易文推定装置、サーバ
101 コーパス文章記憶部
102 連想語記憶部
111 重要語抽出部
112 第1の連想語抽出部
121 簡易文記憶部
122 第2の連想語抽出部
131 連想語リストマッチング部
132 簡易文推定部
133 対象文章推定部
140 対象文章データベース
141 対象文章検索部
2 端末
DESCRIPTION OF SYMBOLS 1 Simple sentence estimation apparatus, server 101 Corpus sentence memory | storage part 102 Associative word memory | storage part 111 Important word extraction part 112 1st associative word extraction part 121 Simple sentence memory | storage part 122 2nd associative word extraction part 131 Associative word list matching part 132 Simple sentence estimation unit 133 Target sentence estimation part 140 Target sentence database 141 Target sentence search part 2 Terminal

Claims (14)

対象文章を象徴する簡易文を推定するようにコンピュータを機能させるプログラムであって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
入力された対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
してコンピュータを機能させることを特徴とするプログラム。
A program that causes a computer to function to estimate a simple sentence that symbolizes a target sentence,
Simple sentence storage means for storing a plurality of simple sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
An important word extracting means for extracting a plurality of characteristic important words according to the frequency of appearance of each word in the input target sentence;
First associative word extraction means for referring to the corpus sentence storage means and extracting a first associative word list that co-occurs with the important word from the associative words stored in the associative word storage means When,
For each simple sentence stored in the simple sentence storage means, refer to the corpus sentence storage means, and appear in the association word stored in the associative word storage means together with the simple sentence. Second associative word extracting means for extracting a group of associative word lists;
An associative word list matching means for searching a second associative word list most similar to the first associative word list among the second associative word list group for each simple sentence;
A program for causing a computer to function as simple sentence estimation means for outputting a simple sentence based on a second associative word list searched by an associative word list matching means as a symbol of the target sentence.
前記簡易文は、名言、格言、ことわざ、俳句及び/又は川柳である
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
The program according to claim 1, wherein the computer functions so that the simple sentence is a quote, a saying, a saying, a haiku, and / or a kawayanagi.
前記連想語リストマッチング手段は、
対象文章Xにおける第1の連想語リストの連想語毎に、複数の簡易文C〜Cにおける各第2の連想語リストの連想語それぞれの意味的距離を検索し、当該距離が最短となる連想語ペアを導出し、連想語ペアの意味的距離の平均距離又は累積距離を算出し、
対象文章Xにおける第1の連想語リストに対して、平均距離又は累積距離が最も短い第2の連想語リストに基づく簡易文を選択する
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
The associative word list matching means includes:
For each associated word in the first associated word list in the target sentence X, the semantic distance of each associated word in each second associated word list in the plurality of simple sentences C 1 to C n is searched, and the distance is the shortest. The associative word pair is derived, and the average distance or cumulative distance of the semantic distance of the associative word pair is calculated.
The computer is made to function so as to select a simple sentence based on a second associative word list having the shortest average distance or cumulative distance with respect to the first associative word list in the target sentence X. 2. The program according to 2.
前記コーパス文章記憶手段及び/又は前記連想語記憶手段は、複数のカテゴリに区分されており、
第1の連想語抽出手段及び/又は第2の連想語抽出手段は、入力された対象文章のカテゴリに応じて、前記コーパス文章記憶手段及び/又は前記連想語記憶手段から参照するカテゴリを選択する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
The corpus sentence storage means and / or the associative word storage means are divided into a plurality of categories,
The first associative word extracting unit and / or the second associative word extracting unit selects a category to be referred to from the corpus sentence storage unit and / or the associative word storage unit according to the input category of the target sentence. The program according to any one of claims 1 to 3, wherein the computer functions as described above.
前記簡易文推定手段は、対象文章に対して距離が短い順に所定数の簡易文を選択し、複数の簡易文を推定結果として出力する
ようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載のプログラム。
The simple sentence estimation unit selects a predetermined number of simple sentences in order from a short distance to the target sentence, and causes the computer to function so as to output a plurality of simple sentences as estimation results. 5. The program according to any one of 4 above.
前記重要語抽出手段は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)又はDF(Document Frequency)を用いて、重要語を抽出する
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。
The important word extraction means causes the computer to function to extract an important word using TF-IDF (Term Frequency-Inverse Document Frequency) or DF (Document Frequency). The program according to any one of claims 1 to 5, characterized in that:
大量の対象文章を記憶した対象文章データベースと、
入力されたクエリに対して、前記対象文章データベースを用いて、1つ以上の対象文章を検索し、当該対象文章を前記重要語抽出手段へ出力するする対象文章検索手段と
を有し、
前記簡易文推定手段は、各対象文章に対応する簡易文を検索結果として出力する
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。
A target sentence database storing a large amount of target sentences;
For the input query, using the target sentence database, search for one or more target sentences, the target sentence search means for outputting the target sentence to the keyword extraction means,
The program according to any one of claims 1 to 6, wherein the simple sentence estimation means causes a computer to output a simple sentence corresponding to each target sentence as a search result.
前記簡易文推定手段は、
各対象文章に前記簡易文を組み合わせて検索結果として出力するか、
又は、
複数の前記簡易文を出力すると共に、いずれかの簡易文をユーザに選択させ、選択された簡易文に対応する前記対象文章を改めて検索結果として出力する
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
The simple sentence estimation means includes:
Output the search results by combining the simple sentences with each target sentence,
Or
A plurality of the simple sentences are output, and the computer is caused to function so that the user selects any one of the simple sentences and outputs the target sentence corresponding to the selected simple sentence as a search result again. The program according to claim 7.
簡易文を象徴する対象文章を推定するようにコンピュータを機能させるプログラムであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
してコンピュータを機能させることを特徴とするプログラム。
A program that causes a computer to function to estimate a target sentence symbolizing a simple sentence,
A target sentence storage means for storing a plurality of target sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word for each target sentence;
For each target sentence, reference is made to the corpus sentence storage means, and a group of first association word lists that appear together with the important word is extracted from the association words stored in the association word storage means. First associative word extraction means;
With reference to the corpus sentence storage means for the input simple sentence, a second associative word list appearing together with the simple sentence is extracted from the association words stored in the association word storage means A second associative word extraction means;
An associative word list matching means for searching a first associative word list most similar to a second associative word list among a group of first associative word lists for each target sentence;
A program that causes a computer to function as target sentence estimation means for outputting a target sentence based on a first associative word list searched by an associative word list matching means as a symbol of the simple sentence.
対象文章を象徴する簡易文を推定する装置であって、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴するものとして出力する簡易文推定手段と
を有することを特徴とする装置。
A device that estimates a simple sentence symbolizing a target sentence,
Simple sentence storage means for storing a plurality of simple sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
An important word extracting means for extracting a plurality of characteristic important words according to the frequency of appearance of each word in the target sentence;
First associative word extraction means for referring to the corpus sentence storage means and extracting a first associative word list that co-occurs with the important word from the associative words stored in the associative word storage means When,
For each simple sentence stored in the simple sentence storage means, refer to the corpus sentence storage means, and appear in the association word stored in the associative word storage means together with the simple sentence. Second associative word extracting means for extracting a group of associative word lists;
An associative word list matching means for searching a second associative word list most similar to the first associative word list among the second associative word list group for each simple sentence;
An apparatus comprising: simple sentence estimation means for outputting a simple sentence based on the second associative word list searched by the associative word list matching means as a symbol of the target sentence.
簡易文を象徴する対象文章を推定する装置であって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とする装置。
A device for estimating a target sentence symbolizing a simple sentence,
A target sentence storage means for storing a plurality of target sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word for each target sentence;
For each target sentence, reference is made to the corpus sentence storage means, and a group of first association word lists that appear together with the important word is extracted from the association words stored in the association word storage means. First associative word extraction means;
With reference to the corpus sentence storage means for the input simple sentence, a second associative word list appearing together with the simple sentence is extracted from the association words stored in the association word storage means A second associative word extraction means;
An associative word list matching means for searching a first associative word list most similar to a second associative word list among a group of first associative word lists for each target sentence;
An apparatus comprising: target sentence estimation means for outputting a target sentence based on the first associative word list searched by the associative word list matching means as a symbol of the simple sentence.
端末からクエリを受信し、該クエリに対応する1つ以上の対象文章を検索し、該対象文章を象徴する簡易文を推定し、該簡易文を端末へ返信するサーバであって、
大量の対象文章を記憶した対象文章データベースと、
複数の簡易文を予め記憶した簡易文記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
前記クエリに対して、前記対象文章データベースを用いて、1つ以上の対象文章を検索する対象文章検索手段と、
検索された前記対象文章における各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストを抽出する第1の連想語抽出手段と、
前記簡易文記憶手段に記憶された簡易文毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストの群を抽出する第2の連想語抽出手段と、
前記簡易文毎の第2の連想語リストの群の中で、第1の連想語リストに最も類似する第2の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第2の連想語リストに基づく簡易文を、前記対象文章を象徴する検索結果として出力する簡易文推定手段と、
を有することを特徴とするサーバ。
A server that receives a query from a terminal, searches for one or more target sentences corresponding to the query, estimates a simple sentence that symbolizes the target sentence, and returns the simple sentence to the terminal;
A target sentence database storing a large amount of target sentences;
Simple sentence storage means for storing a plurality of simple sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
In response to the query, target sentence search means for searching for one or more target sentences using the target sentence database;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word in the searched target sentence;
First associative word extraction means for referring to the corpus sentence storage means and extracting a first associative word list that co-occurs with the important word from the associative words stored in the associative word storage means When,
For each simple sentence stored in the simple sentence storage means, refer to the corpus sentence storage means, and appear in the association word stored in the associative word storage means together with the simple sentence. Second associative word extracting means for extracting a group of associative word lists;
An associative word list matching means for searching a second associative word list most similar to the first associative word list among the second associative word list group for each simple sentence;
Simple sentence estimation means for outputting a simple sentence based on the second associative word list searched by the associative word list matching means as a search result symbolizing the target sentence;
The server characterized by having.
前記簡易文推定手段は、
各対象文章に前記簡易文を組み合わせて検索結果として、端末へ返信するか、
又は、
複数の前記簡易文を端末へ返信すると共に、ユーザによって選択された簡易文を受信し、該簡易文に対応する前記対象文章を改めて検索結果として返信する
ことを特徴とする請求項12に記載のサーバ。
The simple sentence estimation means includes:
Reply to the terminal as a search result by combining the simple sentence with each target sentence,
Or
The plurality of simple sentences are returned to the terminal, the simple sentences selected by the user are received, and the target sentences corresponding to the simple sentences are newly returned as search results. server.
端末から簡易文を受信し、該簡易文を象徴する対象文章を推定し、該対象文章を端末へ返信するサーバであって、
複数の対象文章を予め記憶した対象文章記憶手段と、
コーパス文章を記憶したコーパス文章記憶手段と、
任意の複数の連想語を記憶した連想語記憶手段と、
対象文章毎に、各単語の出現頻度に応じて、特徴的な複数の重要語を抽出する重要語抽出手段と、
対象文章毎に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記重要語と共起して出現する第1の連想語リストの群を抽出する第1の連想語抽出手段と、
入力された簡易文に、前記コーパス文章記憶手段を参照し、前記連想語記憶手段に記憶された連想語の中で、前記簡易文と共起して出現する第2の連想語リストを抽出する第2の連想語抽出手段と、
前記対象文章毎の第1の連想語リストの群の中で、第2の連想語リストに最も類似する第1の連想語リストを検索する連想語リストマッチング手段と、
連想語リストマッチング手段によって検索された第1の連想語リストに基づく対象文章を、前記簡易文を象徴するものとして出力する対象文章推定手段と
を有することを特徴とするサーバ。
A server that receives a simple sentence from a terminal, estimates a target sentence that symbolizes the simple sentence, and returns the target sentence to the terminal,
A target sentence storage means for storing a plurality of target sentences in advance;
Corpus sentence storage means for storing corpus sentences;
Associative word storage means for storing a plurality of associative words;
Important word extraction means for extracting a plurality of characteristic important words according to the appearance frequency of each word for each target sentence;
For each target sentence, reference is made to the corpus sentence storage means, and a group of first association word lists that appear together with the important word is extracted from the association words stored in the association word storage means. First associative word extraction means;
With reference to the corpus sentence storage means for the input simple sentence, a second associative word list appearing together with the simple sentence is extracted from the association words stored in the association word storage means A second associative word extraction means;
An associative word list matching means for searching a first associative word list most similar to a second associative word list among a group of first associative word lists for each target sentence;
And a target sentence estimating means for outputting a target sentence based on the first associative word list searched by the associative word list matching means as a symbol of the simple sentence.
JP2014044668A 2014-03-07 2014-03-07 Program, apparatus, and server for estimating simple sentence symbolizing target sentence Active JP6153262B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014044668A JP6153262B2 (en) 2014-03-07 2014-03-07 Program, apparatus, and server for estimating simple sentence symbolizing target sentence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014044668A JP6153262B2 (en) 2014-03-07 2014-03-07 Program, apparatus, and server for estimating simple sentence symbolizing target sentence

Publications (2)

Publication Number Publication Date
JP2015170145A true JP2015170145A (en) 2015-09-28
JP6153262B2 JP6153262B2 (en) 2017-06-28

Family

ID=54202830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014044668A Active JP6153262B2 (en) 2014-03-07 2014-03-07 Program, apparatus, and server for estimating simple sentence symbolizing target sentence

Country Status (1)

Country Link
JP (1) JP6153262B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857097A (en) * 2020-07-27 2020-10-30 中国南方电网有限责任公司超高压输电公司昆明局 Industrial control system abnormity diagnosis information identification method based on word frequency and inverse document frequency

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024031094A2 (en) * 2022-08-05 2024-02-08 Stefano Casadei Semiotic and compositional method for robust knowledge representations and reasoning and apparatus therefor

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218216A (en) * 2009-03-17 2010-09-30 Chugoku Electric Power Co Inc:The Similar document retrieval system, method and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218216A (en) * 2009-03-17 2010-09-30 Chugoku Electric Power Co Inc:The Similar document retrieval system, method and program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
熊本 睦,島田 茂夫,加藤 恒昭: "概念ベースの情報検索への適用 害ねベースを用いた検索の特性評価", 電子情報通信学会技術研究報告, vol. 第98巻,第498号, JPN6017019110, 11 January 1999 (1999-01-11), JP, pages 9 - 16, ISSN: 0003565595 *
牧野 晃典,梶川 裕矢: "自然言語処理を用いた格言引用システムの開発", 情報知識学会誌, vol. 第19巻,第2号, JPN6017019112, 16 May 2009 (2009-05-16), JP, pages 74 - 79, ISSN: 0003565596 *
田中 浩司,松澤 和光,笠原 要: "日記解析による格言返答システム", 第16回ことば工学研究会資料, JPN6017019108, 19 March 2004 (2004-03-19), JP, pages 35 - 40, ISSN: 0003565594 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111857097A (en) * 2020-07-27 2020-10-30 中国南方电网有限责任公司超高压输电公司昆明局 Industrial control system abnormity diagnosis information identification method based on word frequency and inverse document frequency
CN111857097B (en) * 2020-07-27 2023-10-31 中国南方电网有限责任公司超高压输电公司昆明局 Industrial control system abnormality diagnosis information identification method based on word frequency and inverse document frequency

Also Published As

Publication number Publication date
JP6153262B2 (en) 2017-06-28

Similar Documents

Publication Publication Date Title
Moussa et al. A survey on opinion summarization techniques for social media
US9552352B2 (en) Enrichment of named entities in documents via contextual attribute ranking
JP5106636B2 (en) System for extracting terms from documents with text segments
JP4962967B2 (en) Web page search server and query recommendation method
KR101723862B1 (en) Apparatus and method for classifying and analyzing documents including text
US9852188B2 (en) Contextual search on multimedia content
EP3095045A1 (en) Coherent question answering in search results
JP6529133B2 (en) Apparatus, program and method for analyzing the evaluation of topics in multiple regions
JPWO2009096523A1 (en) Information analysis apparatus, search system, information analysis method, and information analysis program
US10866992B2 (en) System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research
US20120078907A1 (en) Keyword presentation apparatus and method
Selvaretnam et al. Natural language technology and query expansion: issues, state-of-the-art and perspectives
Swapna et al. Finding thoughtful comments from social media
JP5718405B2 (en) Utterance selection apparatus, method and program, dialogue apparatus and method
JP2007264718A (en) User interest analyzing device, method, and program
Li et al. A novel methodology for retrieving infographics utilizing structure and message content
Panja Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis
Ramadhanti et al. Document similarity detection using indonesian language word2vec model
JP6153262B2 (en) Program, apparatus, and server for estimating simple sentence symbolizing target sentence
Li et al. Infographics retrieval: A new methodology
CN109902304A (en) Information processing method, information processing apparatus, storage medium, and electronic device
JP2009223372A (en) Recommendation device, recommendation system, control method for recommendation device and control method for recommendation system
Samonte et al. Emotion detection in blog posts using keyword spotting and semantic analysis
JP2016162357A (en) Analysis device and program of user&#39;s emotion to product
US10176176B2 (en) Assistance for video content searches over a communication network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170529

R150 Certificate of patent or registration of utility model

Ref document number: 6153262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150