JP6586055B2 - Deep case analysis device, deep case learning device, deep case estimation device, method, and program - Google Patents
Deep case analysis device, deep case learning device, deep case estimation device, method, and program Download PDFInfo
- Publication number
- JP6586055B2 JP6586055B2 JP2016138880A JP2016138880A JP6586055B2 JP 6586055 B2 JP6586055 B2 JP 6586055B2 JP 2016138880 A JP2016138880 A JP 2016138880A JP 2016138880 A JP2016138880 A JP 2016138880A JP 6586055 B2 JP6586055 B2 JP 6586055B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- clause
- frequency
- data
- prescriptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムに関する。 The present invention relates to a deep case analysis device, a deep case learning device, a deep case estimation device, a method, and a program.
従来の深層格解析技術としては、非特許文献1に記載されているような格フレームに基づくルールベースの手法がある。動詞ごとに、取りうる名詞の意味カテゴリと格助詞の対と、該対に対応する深層格の情報(格フレーム情報という)を、あらかじめ定めておく。例えば、動詞「食べる」に対しては、(名詞意味カテゴリ,格助詞,深層格)として、(動物,が,主格),(食物,を,対象格)といった情報を定めておく。入力となる(名詞,格助詞,動詞)が与えられると、該動詞の格フレーム情報から、該名詞の意味カテゴリと格助詞の対に対応する深層格を取得する。例えば、(ケーキ,を,食べる)が入力されると、「ケーキ」の意味カテゴリが食物であることから、「食べる」の格フレーム情報から、(食物,を)に対応する深層格である対象格を取得する。
As a conventional deep case analysis technique, there is a rule-based method based on a case frame as described in Non-Patent
格フレームに基づくルールベースの手法では、格フレーム情報の構築や新語に意味カテゴリを割り振ることなどにおいて、構築コストが大きくかかるという課題がある。また、一旦定めた意味カテゴリの体系や格フレーム情報と整合が取れない(名詞,格助詞,動詞)と深層格の組が出現し、的確な深層格を推定できず、深層格推定に必要な頑健性がないという課題がある。例えば、ある(名詞意味カテゴリX,格助詞,深層格)の組は、格フレーム情報にないが、名詞意味カテゴリがXである特定の名詞に対しては、該組を格フレーム情報に含ませる必要が出てきたり、逆に、ある(名詞意味カテゴリX,格助詞,深層格)の組が、格フレーム情報にあるが、名詞意味カテゴリがXである特定の名詞に対しては、該組の深層格は該当しないといったことが出てきたりする。また、特定の名詞に対しては、既存の意味カテゴリに当てはまらない意味カテゴリXを創設した上で、(名詞意味カテゴリX,格助詞,深層格)の組を格フレーム情報に含ませる必要が出てくることもある。 In the rule-based method based on the case frame, there is a problem that the construction cost is high in constructing the case frame information and assigning a semantic category to a new word. In addition, a set of deep cases that cannot be matched with the semantic category system and case frame information once defined (nouns, case particles, verbs) and the deep case cannot be estimated, which is necessary for deep case estimation. There is a problem of lack of robustness. For example, a certain (noun semantic category X, case particle, deep case) pair is not in the case frame information, but for a specific noun whose noun semantic category is X, the pair is included in the case frame information. There is a need, or conversely, a certain (noun semantic category X, case particle, deep case) pair is in the case frame information, but for a specific noun whose noun semantic category is X, the pair There are some cases where the deep case is not applicable. For specific nouns, it is necessary to create a semantic category X that does not fit into existing semantic categories, and to include a set of (noun semantic category X, case particle, deep case) in case frame information. Sometimes it comes.
本発明の目的は、上記課題を解決するためのものであり、頑健に深層格を推定するための深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムを提供することにある。 An object of the present invention is to solve the above problems, and to provide a deep case analysis device, a deep case learning device, a deep case estimation device, a method, and a program for robustly estimating a deep case. is there.
上記課題を解決するため、第1の発明に係る深層格解析装置は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置であって、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成する素性ベクトル生成部と、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。 In order to solve the above-described problem, the deep case analysis apparatus according to the first aspect of the present invention, for a body phrase clause and a prescriptive phrase in a dependency relationship, which deep case is used for the prescriptive phrase of the body phrase. This is a deep case analysis device that estimates whether or not the answer is a set of correct answer data, which is a set of body phrase clause and use phrase clause data in a dependency relationship and a correct deep case corresponding to the data. A correct feature-added feature vector set generation unit for generating a correct feature-added feature vector set by generating a feature vector that is a set of features and feature values from the data for each correct-attached data, and the correct answer-added feature A classification model generation unit for generating a classification model for classifying a deep case from a vector set, and a body phrase clause and a use phrase clause data A having a dependency relation are input, and a feature vector B is generated from the data A. A feature vector generating unit which, from said feature vector B and the classification model is configured to include a classification unit configured to calculate a score the data A corresponds to the deep cases, the.
第2の発明に係る深層格学習装置は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、を含んで構成されている。 The deep case learning device according to the second invention has an input of a set of correct data with a set of data of a body phrase clause and a prescriptive phrase in a dependency relationship and a correct deep case corresponding to the data, A correct feature-added feature vector set generation unit that generates a feature-added feature vector set by generating a feature vector that is a set of features and feature values from the data for each correct-attached data, and the correct-added feature vector A classification model generation unit that generates a classification model for classifying the deep case from the set.
第3の発明に係る深層格推定装置は、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成する素性ベクトル生成部と、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。 The deep case estimation apparatus according to the third aspect of the present invention receives, as input, a body phrase clause and a prescriptive phrase data A that are in a dependency relationship, and generates a feature vector B that is a set of features and feature values from the data A. For each correct answer data included in a set of correct answer data, which is a set of a feature vector generation unit, data of body phrase clauses and use phrase clauses having dependency relations, and a correct deep case corresponding to the data A score corresponding to each deep case from the classification model for classifying a deep case, which is a set of feature vectors to be generated, and is generated in advance from the feature vector set with correct answer and the feature vector B And a classifying unit for calculating.
また、第4の発明に係る深層格解析方法は、正解付素性ベクトル集合生成部、分類モデル生成部、素性ベクトル生成部、及び分類部を含み、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置における深層格解析方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成するステップと、前記分類部が、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出するステップと、を含んで構成されている。 The deep case analysis method according to the fourth invention includes a correct feature-added feature vector set generation unit, a classification model generation unit, a feature vector generation unit, and a classification unit. On the other hand, a deep case analysis method in a deep case analysis apparatus for estimating which deep case corresponds to the prescription of the prescriptive phrase, wherein the correct feature vector set generation unit includes a dependency relationship A set of correct data with a correct answer corresponding to the data of the body phrase clause and prescriptive phrase data and the correct deep case corresponding to the data is input, and for each correct answer data, a feature and a feature value are obtained from the data. Generating a correct feature-added feature vector set by generating a feature vector that is a set of sets, and the classification model generating unit for classifying a deep case from the correct answer-added feature vector set A feature model generating step, the feature vector generating unit receiving data A of a body phrase clause and a prescriptive phrase in a dependency relationship, generating a feature vector B from the data A, and the classifying unit The data A includes a step of calculating a score corresponding to each deep case from the feature vector B and the classification model.
また、第5の発明に係る深層格学習方法は、正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、を含んで構成されている。 Further, the deep case learning method according to the fifth invention is a deep case learning method in a deep case learning device including a correct answer feature vector set generation unit and a classification model generation unit, wherein the correct answer feature vector set generation unit Is a set of data with correct answers, which is a set of data of body phrase clauses and use phrase clauses in a dependency relationship and a deep case of a correct answer corresponding to the data, and for each correct answer data, A step of generating a feature vector set with correct answers by generating a feature vector that is a set of features and feature values, and the classification model generating unit for classifying a deep case from the correct feature-added feature vector set Generating a classification model.
また、第6の発明に係る深層格推定方法は、素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成するステップと、前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出するステップと、を含んで構成されている。 A deep case estimation method according to a sixth aspect of the present invention is a deep case estimation method in a deep case estimation apparatus including a feature vector generation unit and a classification unit, wherein the feature vector generation unit has a dependency relationship. A step of generating a feature vector B which is a set of features and feature values from the data A as input of clause A and phrase clause data A, and the classification unit and a body phrase clause having a dependency relationship From the correct feature-added feature vector set, which is a set of feature vectors generated for each correct-attached data included in the correct-attached data set that is a set of clause data and a correct deep case corresponding to the data The classification model for classifying the deep case generated in advance and the step of calculating a score corresponding to each deep case from the feature vector B are included in the data A.
また、本発明のプログラムは、コンピュータを、上記の深層格解析装置、上記の深層格学習装置、若しくは上記の深層格推定装置の各部として機能させるための、又はコンピュータに、上記の深層格解析方法、上記の深層格学習方法、若しくは上記の深層格推定方法の各ステップを実行させるためのプログラムである。 The program of the present invention causes a computer to function as each part of the deep case analysis device, the deep case learning device, or the deep case estimation device, or causes the computer to perform the deep case analysis method. This is a program for executing the steps of the deep case learning method or the deep case estimation method.
また、本発明の素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとるようにしてもよい。 Further, as a feature of the present invention, a notation character string, a part of speech, or a semantic category existing in data may be taken.
また、本発明の素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含む係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合をとるか、または、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとるようにしてもよい。 In addition, as a set of features and feature values according to the present invention, the body phrase clause appendices and usages taken from the body clauses and prescriptive clauses that have a dependency relationship in the corpus with respect to the body language in the corpus. Take a set of pairs of phrases or predicates and their frequency, or, for the predicates in the data, the body phrases and their frequencies that are dependent on the prescriptive phrase containing the predicates in the corpus Taking a set of pairs, or taking a set of body phrase clauses and their frequencies in the corpus for the use clauses in the data, or taking any set of the above In the set of, the meaning category of the prescriptive phrase in the prescriptive phrase and the body phrase in the prescriptive phrase is the same, and the other notation information is the same and the frequency is added. Good.
また、本発明の素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとるようにしてもよい。 Moreover, you may make it take the concept vector of each morpheme in data as a set of the set of the feature and feature value of this invention.
本発明では、大量の学習データから統計的手法により、データの大勢を反映した分類モデルを導出する。このため学習データの中に、素性値に不備がある等の多少のノイズがあったとしても、分類モデルは的確なものとなるため、頑健に深層格を推定できる。また、あらかじめ単語ごとに付与する意味カテゴリ以外にも、意味カテゴリのような単語の意味に相当し、かつ、自動的に獲得できる素性を始め、他の素性がある。このため、意味カテゴリ付与が完全でなくとも、他の素性の情報により、的確に深層格を推定でき、構築コストを従来手法よりも低減できる。 In the present invention, a classification model reflecting a large amount of data is derived from a large amount of learning data by a statistical method. For this reason, even if there is some noise in the learning data, such as an incomplete feature value, the classification model becomes accurate, so the deep case can be estimated robustly. In addition to the semantic categories assigned to each word in advance, there are other features corresponding to the meaning of a word such as a semantic category and features that can be automatically acquired. For this reason, even if the semantic category assignment is not complete, it is possible to accurately estimate the deep case based on the information of other features, and the construction cost can be reduced as compared with the conventional method.
本発明によれば、頑健に深層格を推定することができる。 According to the present invention, a deep case can be estimated robustly.
以下、図面とともに本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<本発明の実施の形態の概要>
本発明の実施の形態は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置、方法、及びプログラムに関する。
<Outline of Embodiment of the Present Invention>
An embodiment of the present invention relates to a deep case analysis apparatus and method for estimating, for a body phrase clause and a prescriptive phrase in a dependency relationship, a deep case corresponding to the prescriptive phrase of the body phrase And the program.
本発明の実施の形態でいう深層格とは、動詞を始めとする用言に対する名詞の意味役割を表している。例えば「部屋で箸で食べる」において、体言文節「部屋で」と「箸で」は、それぞれ用言文節「食べる」と係り受け関係にあり、体言文節における体言「部屋」や「箸」の表層格はデ格であるが、用言文節「食べる」の用言「食べる」にとっての深層格はそれぞれ、場所格、道具格となる。一般に深層格の種類としては、様々なものが提唱されており、例として、主格、対象格、道具格、源泉格、目標格、場所格、時間格、経験者格などがある。本発明の実施の形態は、深層格の種類を有限個、あらかじめ定めた上で、係り受け関係にある体言文節と用言文節に対し、対応する深層格を推定する深層格解析技術に関するものである。なお、本発明の実施の形態における用言文節には、「学生だ」のような「体言+だ」も含むものとする。 The deep case referred to in the embodiment of the present invention represents the semantic role of nouns for verbs and other predicates. For example, in “eating with chopsticks in the room”, the phrase phrases “in the room” and “with chopsticks” have a dependency relationship with the phrase “eating”, and the surface layer of the phrases “room” and “chopsticks” in the phrase phrase Although the case is a de-case, the deep case for the predicate “eating” in the preaching phrase “eating” is a place case and a tool case, respectively. In general, various types of deep cases have been proposed. Examples include a main case, a target case, a tool case, a source case, a target case, a place case, a time case, and an experienced case. The embodiment of the present invention relates to a deep case analysis technique for estimating a corresponding deep case for a body phrase clause and a use phrase clause having a dependency relationship, after finite types of deep case types are determined in advance. is there. Note that the phrase used in the embodiment of the present invention includes “symbol +” such as “student”.
<深層格解析装置の構成>
本発明の実施の形態に係る深層格解析装置の構成について説明する。図1は、本発明の請求項1記載の深層格解析装置の構成例である。図1に示すように、本発明の実施の形態に係る深層格解析装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この深層格解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。
<Configuration of deep case analyzer>
A configuration of the deep case analysis apparatus according to the embodiment of the present invention will be described. FIG. 1 is a configuration example of a deep case analysis apparatus according to
入力部10は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力として受け付ける。また、入力部10は、係り受け関係にある体言文節と用言文節のデータAを入力として受け付ける。正解付データの集合とデータAとについては後述する。
The
演算部20は、学習部22と、分類モデル記憶部24と、推定部26とを含んで構成されている。学習部22は、学習データである正解付データの集合を入力とし、深層格を分類するための分類モデルを生成する。学習部22の処理が終わった後、推定部26にて、係り受け関係にある体言文節と用言文節のデータAが入力部10により入力されると、分類モデルを参照して、該データAに対応する深層格を推定する。
The
学習部22は、正解付素性ベクトル集合生成部220と分類モデル生成部222とを備えている。
The
正解付素性ベクトル集合生成部220は、入力部10により受け付けた、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とする。図2は、正解付データの集合の例を示すものである。各正解付データは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部、及び深層格から成っている。体言は、最後の構成形態素のみをとるようにしてもよい。図2では用言は、終止形で示している。用言文節が「体言+だ」の場合は、該体言を用言とする。6番目のデータは、「ねずみが食べられる」からとったものであり、用言としては、用言文節「食べられる」の自立部「食べ」の終止形「食べる」をとっている。用言「食べる」にとって、体言「ねずみ」は対象格に相当する。
The correct feature-added feature vector set
この正解付データは、例えば、テキストコーパスを係り受け解析して抽出した係り受け関係にある体言文節と用言文節に対し、対応する正解の深層格を付与することにより作成する。 The correct answer-added data is created, for example, by assigning the corresponding correct deep case to the body phrase clause and the prescriptive phrase in the dependency relationship extracted by dependency analysis of the text corpus.
正解付素性ベクトル集合生成部220は、各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。図3は、正解付素性ベクトル集合の例を示すものである。素性ベクトルの次元数はNであり、各素性値は実数値をとる。
The correct feature-added feature vector set
分類モデル生成部222は、正解付素性ベクトル集合生成部220によって生成された前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する。具体的には、深層格ごとに、正解付素性ベクトル集合を、該深層格の素性ベクトル群と、該深層格でない素性ベクトル群とに分け、該深層格か否かの2値分類を解くための分類モデルをサポートベクタマシン等の機械学習手法により生成する。このようにして、各深層格に対し、対応する分類モデルが生成される。
The classification model generation unit 222 generates a classification model for classifying the deep case from the correct answer feature vector set generated by the correct answer feature vector set
分類モデル記憶部24には、分類モデル生成部222によって各深層格に対して生成された分類モデルが格納される。
The classification
推定部26は、素性ベクトル生成部260と分類部262とを備えている。
The
素性ベクトル生成部260は、入力部10により受け付けた、係り受け関係にある体言文節と用言文節のデータAを入力とする。データAの内容は、正解付素性ベクトル集合生成部220の入力である正解付データ集合のデータと同様である。図4は、データAの例を示すものであり、データAは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部から成っている。
The feature
素性ベクトル生成部260は、正解付素性ベクトル集合生成部220の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、該データAから素性ベクトルBを生成する。素性ベクトルBの内容は、正解付素性ベクトル集合生成部220の出力である正解付素性ベクトル集合の素性ベクトルと同様となる。図5は、素性ベクトルBの例を示すものであり、素性ベクトルの次元数はNであり、各素性値は実数値をとる。
The feature
分類部262は、素性ベクトル生成部260によって生成された前記素性ベクトルBと分類モデル記憶部24に格納された各深層格の分類モデルとから、該データAが各深層格に相当するスコアを算出する。具体的には、深層格ごとに、素性ベクトルBと該深層格に対応する分類モデルとから、素性ベクトルBが該深層格に相当するスコアを算出する。ある閾値以上のスコアをもつ深層格を、推定深層格として出力する。図4のデータAは、素性ベクトル生成部260により図5の素性ベクトルBとなり、分類部262にて深層格が道具格であると推定される。
The
以上、本発明の請求項1記載の深層格解析装置の構成例を述べたが、体言文節付属部を一つに固定した上で、学習と推定を行ってもよい。即ち正解付データ集合を、固定した体言文節付属部をもつデータのみに限定した上で、学習を行う。推定も、該体言文節付属部をもつデータAを入力として行う。体言文節付属部に関する素性は、全データで共通であり、分類素性として意味をなさないため、正解付素性ベクトル集合生成部220及び素性ベクトル生成部260において、体言文節付属部に関する素性は抽出しない。
As mentioned above, although the example of a structure of the deep case analysis apparatus of
例えば、体言文節付属部を「で」に固定すると、図2の正解付データ集合は、体言文節付属部が「で」のデータのみに限定した図6となる。推定は、図7のような体言文節付属部が「で」のデータAを入力として行う。体言文節付属部に関する素性は抽出しないため、図6、図7では、体言文節付属部を記載していない。 For example, if the body phrase clause attachment is fixed to “de”, the data set with the correct answer in FIG. 2 becomes FIG. 6 in which the body phrase clause attachment is limited to data with “de” only. The estimation is performed by using the data A in which the body phrase clause appendage as shown in FIG. 7 is “de”. Since the feature related to the body phrase clause attachment is not extracted, the body clause clause attachment is not described in FIGS. 6 and 7.
次に、正解付素性ベクトル集合生成部220と素性ベクトル生成部260において、データから抽出する、深層格の分類に有効な素性及び素性値について、以下、詳細に述べる。
Next, features and feature values effective for classification of deep cases extracted from data in the feature vector set
深層格が用言に対する名詞の意味役割であることから、各形態素の意味的な情報が分類に有効な素性となりうる。また、深層格決定が体言文節付属部や用言文節付属部に依存することから、これらの表記が分類に有効な素性となりうる。 Since the deep case is the semantic role of nouns for predicates, the semantic information of each morpheme can be an effective feature for classification. Moreover, since the deep case determination depends on the body phrase clause appendix and the use phrase clause appendage, these notations can be effective features for classification.
そのため、素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとることができる。これらの素性は、同一文字列であっても、抽出元の種別(体言、体言文節付属部、用言、用言文節付属部)が異なれば、別の素性として取り扱う。 Therefore, a notation character string, part of speech or semantic category existing in the data can be taken as the feature. These features are handled as different features even if they are the same character string, if the type of extraction source (a body part, a body phrase clause attachment part, a predicate, a word phrase attachment part) is different.
表記としては、体言、体言文節付属部、用言(終止形)、用言文節付属部の文字列が挙げられる。また、それぞれの各構成形態素の表記も挙げられる。この場合、体言に関しては、最後の構成形態素の表記のみを素性としてとるというようにしてもよい。図2の6番目のデータの場合、体言文節付属部が「が」で、用言文節付属部が「られる」であるが、このような素性から、データが受動態や可能表現であることが識別でき、そのことを反映した深層格の学習及び推定ができる。 Examples of the notation include a body text, a body phrase appendage part, a script (end form), and a text string of the text phrase appendage. Moreover, the notation of each constituent morpheme is also mentioned. In this case, regarding the body language, only the last constituent morpheme may be used as a feature. In the case of the sixth data in FIG. 2, the body phrase clause attachment is “ga” and the prescriptive phrase attachment is “enabled”, but from this feature, it is identified that the data is passive or possible expression It is possible to learn and estimate the deep case reflecting that.
品詞としては、体言の最後の構成形態素の品詞、用言の品詞などが挙げられる。形態素解析器によっては、品詞が、複数の細品詞から構成されていることがあり、そのような場合、品詞全体を素性としてとることもできるし、各細品詞を素性としてとることもできる。細品詞には、人名や地名等に相当することを表すものもあり、そのような情報も、深層格の分類に有効な素性となる。 The part of speech includes the part of speech of the last constituent morpheme of the body and the part of speech of the predicate. Depending on the morphological analyzer, the part of speech may be composed of a plurality of fine parts of speech. In such a case, the whole part of speech can be taken as a feature, or each fine part of speech can be taken as a feature. Some of the fine parts of speech indicate that they correspond to personal names, place names, etc., and such information is also an effective feature for the classification of deep cases.
意味カテゴリとは、類義する単語を一つのカテゴリとしてまとめ上げたものを意味している。形態素解析用の単語辞書中の各単語に意味カテゴリを付与しておくことにより、体言の最後の構成形態素の意味カテゴリや、用言の意味カテゴリを素性としてとることができる。 The semantic category means a group of similar words as one category. By assigning a semantic category to each word in the word dictionary for morphological analysis, the semantic category of the last constituent morpheme or the semantic category of the prescription can be taken as a feature.
学習データ中に存在する単語表記や品詞、意味カテゴリの異なりの全てが素性となり、対象データが該素性を含むとき該素性の素性値は1となり、含まないとき該素性の素性値は0となる。 All the differences in word notation, part of speech, and semantic category that exist in the learning data are features. When the target data includes the feature, the feature value of the feature is 1, and when it does not include the feature value of the feature is 0. .
また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含み、かつ、係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合を含むことができる。ここで体言は、最後の構成形態素とするというようにしてもよい。図8は、体言「鉛筆」に対し、コーパスにおいて、「鉛筆」を含み、かつ、係り受け関係にある体言文節と用言文節からとった(体言文節付属部,用言(終止形))とその頻度の組の集合をとったものである。これを、体言「鉛筆」から抽出した素性及び素性値の組の集合とする。 In addition, as a set of features and feature values represented by a feature vector, the body phrase included in the corpus, including the body phrase in the corpus, and from the body phrase clause and the use phrase clause that are in a dependency relationship It can include a set of pairs of parts and prescription clauses or predicates and their frequencies. Here, the word may be the last constituent morpheme. FIG. 8 shows the word “pencil” in the corpus, which includes “pencil” and is taken from the word phrases and prescriptive phrases that are in a dependency relationship (an appendix to the word phrases, the word (end form)). It is a set of pairs of the frequencies. This is a set of features and feature value sets extracted from the word “pencil”.
また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとることができる。体言文節中の体言は、最後の構成形態素とするというようにしてもよい。図9は、用言「書く」に対し、コーパスにおいて、「書く」を含む用言文節と係り受け関係にある体言文節からとった(体言,体言文節付属部)とその頻度の組の集合である。これを、用言「書く」から抽出した素性及び素性値の組の集合とする。 In addition, as a set of a set of features and feature values represented by the feature vector, a set of a set of a combination of a body phrase clause and its frequency in a dependency relationship with a prescriptive clause including the prescription in the corpus is used for the prescription in the data. Alternatively, for a prescriptive phrase in the data, it is possible to take a set of a set of body phrase clauses and their frequencies in a dependency relationship with the prescriptive phrase in the corpus. The body language in the body language clause may be the last constituent morpheme. FIG. 9 shows a set of combinations of the frequency of the phrase “writing”, which is taken from the body phrase clause that is dependent on the phrase clause including “writing” in the corpus (body language, body language phrase appendix). is there. This is a set of features and feature values extracted from the predicate “write”.
上記で挙げた素性及び素性値の組の集合を共起ベクトルと呼ぶ。共起ベクトルが近い語句は、意味的に近いという性質に基づき、共起ベクトルを採用している。 A set of the features and feature values listed above is called a co-occurrence vector. A phrase having a close co-occurrence vector adopts the co-occurrence vector based on the property that it is semantically close.
また、素性ベクトルが表す素性及び素性値の組の集合として、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとることができる。体言の意味カテゴリは、最後の構成形態素の意味カテゴリをとるというようにしてもよい。図10は、図9の共起ベクトルにおいて、(学生,が)と(先生,が)に対し、「学生」と「先生」の意味カテゴリは[人]で同一であり、他の表記情報は「が」で同一であるため、素性を同一視して([人],が)とし、頻度は加算した100としている。また、図9の共起ベクトルにおいて、(本,を)と(小説,を)に対し、「本」と「小説」の意味カテゴリは[書物]で同一であり、他の表記情報は「を」で同一であるため、素性を同一視して([書物],を)とし、頻度は加算した374としている。また、図9の共起ベクトルにおいて、(横浜,で)に対し、「横浜」の意味カテゴリは[地名]であるため、([地名],で)とその頻度27をとっている。
In addition, as a set of a set of features and feature values represented by a feature vector, in any of the set of the above-mentioned sets, the semantic category of the prescriptive phrase in the prescriptive phrase or the prescriptive phrase is the same, and other notation The same information can be regarded as the same and the frequency added. The semantic category of the body may be the semantic category of the last constituent morpheme. FIG. 10 shows that in the co-occurrence vector of FIG. 9, the meaning category of “student” and “teacher” is the same for [person] for (student, ga) and (teacher, ga), and other notation information is Since “g” is the same, the feature is identified as ([person], g), and the frequency is set to 100. In addition, in the co-occurrence vector of FIG. 9, the meaning category of “book” and “novel” is the same in [book] for (book,) and (novel,), and other notation information is “ The feature is identified as ([book],), and the frequency is set to 374. Further, in the co-occurrence vector of FIG. 9, since the semantic category of “Yokohama” is (place name) with respect to (Yokohama,), the
また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとることができる。非特許文献2の手法によって生成する単語概念ベクトルが概念ベクトルの一例であり、意味的に近い単語対の各概念ベクトルは近いという性質がある。
Moreover, the concept vector of each morpheme in data can be taken as a set of a set of features and feature values represented by the feature vector. A word concept vector generated by the method of
[非特許文献2]別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性間共起に基づくコーパス概念ベースの生成方式,”情報処理学会論文誌, Dec. 2008, Vol.49, No.12, pp.3997-4006. [Non-patent document 2] Katsuto Bessho, Toshiro Uchiyama, Kei Uchiyama, Ryoji Kataoka, Masahiro Oku, “Corpus concept-based generation method based on co-occurrence between words and semantic attributes,” IPSJ Journal, Dec. 2008, Vol.49, No.12, pp.3997-4006.
例えば、素性ベクトルが表す素性及び素性値の組の集合として、体言の最後の構成形態素の概念ベクトルや、用言の概念ベクトルをとる。また、体言の各構成形態素の概念ベクトルを加算して長さ1に正規化した概念ベクトルをとってもよい。
For example, as a set of a set of features and feature values represented by the feature vector, the concept vector of the last constituent morpheme of the body word or the concept vector of the predicate is taken. Alternatively, a concept vector normalized to
図11は、学習部22の処理フローの一例である。入力部10が、正解付データの集合を受け付けると、図11に示す学習処理ルーチンが実行される。
FIG. 11 is an example of a processing flow of the
まず、ステップS100において、正解付素性ベクトル集合生成部220は、入力部10によって受け付けた、正解付データの集合を取得する。
First, in step S <b> 100, the correct feature-added feature vector set
そして、ステップS102において、正解付素性ベクトル集合生成部220は、上記ステップS100で受け付けた正解付データの集合の各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。
In step S102, the correct feature-added feature vector set
ステップS104において、分類モデル生成部222は、正解付素性ベクトル集合生成部220によって生成された前記正解付素性ベクトル集合から、各深層格について、該深層格であるか否かを分類するための分類モデルを生成する。そして、分類モデル生成部222は、分類モデルを分類モデル記憶部24に格納し、学習処理ルーチンを終了する。
In step S <b> 104, the classification model generation unit 222 classifies each deep case from the correct case feature vector set generated by the correct feature vector set
図12は、推定部26の処理フローの一例である。入力部10が、深層格の推定対象であるデータAを受け付けると、図12に示す推定処理ルーチンが実行される。
FIG. 12 is an example of a processing flow of the
まず、ステップS200において、素性ベクトル生成部260は、入力部10によって受け付けたデータAを取得する。
First, in step S <b> 200, the feature
次に、ステップS202において、素性ベクトル生成部260は、正解付素性ベクトル集合生成部220の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、上記ステップS200で取得したデータAから素性ベクトルBを生成する。
Next, in step S202, the feature
次に、ステップS204において、分類部262は、上記ステップS202で生成された前記素性ベクトルBと分類モデル記憶部24に格納された各深層格の分類モデルとから、上記ステップS200で取得したデータAが各深層格に相当するスコアを算出する。そして、ある閾値以上のスコアをもつ深層格を推定深層格とする。
Next, in step S204, the
そして、ステップS206において、分類部262は、推定結果として、上記ステップS204で得られた推定深層格を出力し、推定処理ルーチンを終了する。
In step S206, the
以上説明したように、本実施の形態の深層格解析装置によれば、的確な深層格を推定することにより、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合(検索等)や変換(生成、要約、翻訳等)を行う処理の精度を向上させることができるという効果を奏する。 As described above, according to the deep case analysis apparatus of the present embodiment, the text is converted into a semantic structure by estimating an accurate deep case, and then matching (searching) between the texts at the semantic structure level is performed. Etc.) and conversion (generation, summarization, translation, etc.) processing accuracy can be improved.
本実施の形態の深層格解析装置は、構築コストを従来手法よりも低減でき、的確な深層格を推定するのに必要な頑健性をもつ。 The deep case analysis apparatus according to the present embodiment can reduce the construction cost as compared with the conventional method and has robustness necessary for estimating an accurate deep case.
これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。 It is possible to construct the processing described so far as a program, install the program from a communication line or a recording medium, and implement it by means such as a CPU.
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.
例えば、本実施の形態では、分類モデルの学習処理と深層格の推定処理とを1つの装置として構成する場合を例に説明したが、これに限定されるものではない。例えば、分類モデルの学習処理と深層格の推定処理とを別々の装置として構成してもよい。この場合には、学習部22を備えた深層格学習装置と、推定部26を備えた深層格推定装置として構成してもよい。
For example, in the present embodiment, the case where the classification model learning process and the deep case estimation process are configured as one apparatus has been described as an example, but the present invention is not limited to this. For example, the classification model learning process and the deep case estimation process may be configured as separate devices. In this case, you may comprise as a deep case learning apparatus provided with the learning
本発明は、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合(検索等)や変換(生成、要約、翻訳等)を行う言語処理技術に適用可能である。 The present invention can be applied to a language processing technology that performs matching (searching, etc.) and conversion (generation, summarization, translation, etc.) at a semantic structure level between texts after converting the text into a semantic structure.
10 入力部
20 演算部
22 学習部
24 分類モデル記憶部
26 推定部
30 出力部
100 深層格解析装置
220 正解付素性ベクトル集合生成部
222 分類モデル生成部
260 素性ベクトル生成部
262 分類部
DESCRIPTION OF
Claims (8)
前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、
を含み、
前記素性及び前記素性値の組の集合として、
データ中の体言文節及び用言文節に存在する表記文字列を用い、
かつ、
データ中の体言に対し、コーパスにおいて該体言を含む体言文節と係り受け関係にある用言文節からとった、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合をとるか、若しくは、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合であって、前記対の頻度を数える際に、前記対の用言文節中の用言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記対の頻度を数えたものをとるか、
データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとるか、又は、
データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとる、
ことを特徴とする深層格学習装置。 A set of correct data with a combination of body phrase clause and use phrase data in a dependency relationship and a correct deep case corresponding to the data is input, and for each correct data, A correct feature-added feature vector set generation unit that generates a correct feature-added feature vector set by generating a feature vector that is a set of feature values;
A classification model generation unit for generating a classification model for classifying a deep case from the correct feature vector set;
Only including,
As a set of sets of the features and the feature values,
Using the notation character strings that exist in the body phrase clause and prescriptive phrase in the data,
And,
A pair of the body phrase clause attachment part of the body phrase clause and the phrase clause or the phrase taken from a phrase clause having a dependency relationship with the body clause including the body language in the corpus for the body phrase in the data, A set of pairs with the frequency of a pair, or a set of pairs of a body phrase clause appendage of the body phrase clause and the prescriptive phrase or prescription, and the frequency of the pair, When counting the frequency of the pair, whether the meaning category of the prescription in the pair of prescriptive clauses is the same and the other notation information is the same, and the frequency of the pair is counted ,
For a pretext in the data, take a set of a set of a body phrase clause that is in a dependency relationship with a prescriptive phrase including the prescription in the corpus and the frequency of the body phrase clause, or A set of body phrase clauses having a dependency relationship with a phrase and the frequency of the body phrase clauses, and when counting the frequency of the body phrase clauses, the semantic categories of the body phrases in the body phrase clause are the same, and , The other notation information is the same, and the frequency of the body phrase is counted, or
For a prescriptive phrase in the data, take a set of a set of a body phrase phrase that is in a dependency relationship with the prescriptive phrase in the corpus and a frequency of the body phrase phrase, or a dependency relationship with the prescriptive phrase It is a set of a set phrase phrase and the frequency of the set phrase phrase, and when counting the frequency of the set phrase phrase, the notation semantic category in the set phrase phrase is the same and other notation information is the same Take the same frequency and count the frequency of the body phrase,
A deep case learning device characterized by that.
係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、
を含み、
前記素性及び前記素性値の組の集合として、
データ中の体言文節及び用言文節に存在する表記文字列を用い、
かつ、
データ中の体言に対し、コーパスにおいて該体言を含む体言文節と係り受け関係にある用言文節からとった、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合をとるか、若しくは、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合であって、前記対の頻度を数える際に、前記対の用言文節中の用言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記対の頻度を数えたものをとるか、
データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとるか、又は、
データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとる、
ことを特徴とする深層格推定装置。 A feature vector generation unit that receives data A of the body phrase clause and the use clause clause in a dependency relationship, and generates a feature vector B that is a set of features and feature values from the data A;
The feature vector generated for each correct answer data included in a set of correct answer data that is a set of data of the body phrase clause and the prescriptive phrase data in the dependency relation and the correct deep case corresponding to the data. A classification model for classifying a deep case, which is a set, and is generated in advance from a correct feature vector set, and a classification unit for calculating a score corresponding to each deep case from the feature vector B; ,
Only including,
As a set of sets of the features and the feature values,
Using the notation character strings that exist in the body phrase clause and prescriptive phrase in the data,
And,
A pair of the body phrase clause attachment part of the body phrase clause and the phrase clause or the phrase taken from a phrase clause having a dependency relationship with the body clause including the body language in the corpus for the body phrase in the data, A set of pairs with the frequency of a pair, or a set of pairs of a body phrase clause appendage of the body phrase clause and the prescriptive phrase or prescription, and the frequency of the pair, When counting the frequency of the pair, whether the meaning category of the prescription in the pair of prescriptive clauses is the same and the other notation information is the same, and the frequency of the pair is counted ,
For a pretext in the data, take a set of a set of a body phrase clause that is in a dependency relationship with a prescriptive phrase including the prescription in the corpus and the frequency of the body phrase clause, or A set of body phrase clauses having a dependency relationship with a phrase and the frequency of the body phrase clauses, and when counting the frequency of the body phrase clauses, the semantic categories of the body phrases in the body phrase clause are the same, and , The other notation information is the same, and the frequency of the body phrase is counted, or
For a prescriptive phrase in the data, take a set of a set of a body phrase phrase that is in a dependency relationship with the prescriptive phrase in the corpus and a frequency of the body phrase phrase, or a dependency relationship with the prescriptive phrase It is a set of a set phrase phrase and the frequency of the set phrase phrase, and when counting the frequency of the set phrase phrase, the notation semantic category in the set phrase phrase is the same and other notation information is the same Take the same frequency and count the frequency of the body phrase,
A deep case estimation apparatus characterized by that.
係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、
を含み、
前記素性及び前記素性値の組の集合として、
データ中の体言文節及び用言文節に存在する表記文字列を用い、
かつ、
データ中の体言に対し、コーパスにおいて該体言を含む体言文節と係り受け関係にある用言文節からとった、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合をとるか、若しくは、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合であって、前記対の頻度を数える際に、前記対の用言文節中の用言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記対の頻度を数えたものをとるか、
データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとるか、又は、
データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとり、
かつ、前記素性及び前記素性値の組の集合として、データ中に存在する、体言文節付属部の表記及び用言文節付属部の表記を用いる、
ことを特徴とする深層格推定装置。 A feature vector generation unit that receives data A of the body phrase clause and the use clause clause in a dependency relationship, and generates a feature vector B that is a set of features and feature values from the data A;
The feature vector generated for each correct answer data included in a set of correct answer data that is a set of data of the body phrase clause and the prescriptive phrase data in the dependency relation and the correct deep case corresponding to the data. A classification model for classifying a deep case, which is a set, and is generated in advance from a correct feature vector set, and a classification unit for calculating a score corresponding to each deep case from the feature vector B; ,
Only including,
As a set of sets of the features and the feature values,
Using the notation character strings that exist in the body phrase clause and prescriptive phrase in the data,
And,
A pair of the body phrase clause attachment part of the body phrase clause and the phrase clause or the phrase taken from a phrase clause having a dependency relationship with the body clause including the body language in the corpus for the body phrase in the data, A set of pairs with the frequency of a pair, or a set of pairs of a body phrase clause appendage of the body phrase clause and the prescriptive phrase or prescription, and the frequency of the pair, When counting the frequency of the pair, whether the meaning category of the prescription in the pair of prescriptive clauses is the same and the other notation information is the same, and the frequency of the pair is counted ,
For a pretext in the data, take a set of a set of a body phrase clause that is in a dependency relationship with a prescriptive phrase including the prescription in the corpus and the frequency of the body phrase clause, or A set of body phrase clauses having a dependency relationship with a phrase and the frequency of the body phrase clauses, and when counting the frequency of the body phrase clauses, the semantic categories of the body phrases in the body phrase clause are the same, and , The other notation information is the same, and the frequency of the body phrase is counted, or
For a prescriptive phrase in the data, take a set of a set of a body phrase phrase that is in a dependency relationship with the prescriptive phrase in the corpus and a frequency of the body phrase phrase, or a dependency relationship with the prescriptive phrase It is a set of a set phrase phrase and the frequency of the set phrase phrase, and when counting the frequency of the set phrase phrase, the notation semantic category in the set phrase phrase is the same and other notation information is the same Take the same thing and count the frequency of the body phrase,
And, as the set of the feature and the feature value set, the notation of the body phrase clause appendix and the notation of the phrase clause appendage, which are present in the data, are used.
A deep case estimation apparatus characterized by that.
係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、
を含み、
前記素性及び前記素性値の組の集合として、
データ中の体言文節及び用言文節に存在する表記文字列を用い、
かつ、
データ中の体言に対し、コーパスにおいて該体言を含む体言文節と係り受け関係にある用言文節からとった、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合をとるか、若しくは、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合であって、前記対の頻度を数える際に、前記対の用言文節中の用言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記対の頻度を数えたものをとるか、
データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとるか、又は、
データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとり、
かつ、前記素性及び前記素性値の組の集合として、データ中に存在する、体言文節付属部の表記及び用言文節付属部の表記を用い、
かつ、前記素性及び前記素性値の組の集合として、前記素性における、データ中の体言を抽出元とする素性については、体言の最後の構成形態素部の情報を用いる、
ことを特徴とする深層格推定装置。 A feature vector generation unit that receives data A of the body phrase clause and the use clause clause in a dependency relationship, and generates a feature vector B that is a set of features and feature values from the data A;
The feature vector generated for each correct answer data included in a set of correct answer data that is a set of data of the body phrase clause and the prescriptive phrase data in the dependency relation and the correct deep case corresponding to the data. A classification model for classifying a deep case, which is a set, and is generated in advance from a correct feature vector set, and a classification unit for calculating a score corresponding to each deep case from the feature vector B; ,
Only including,
As a set of sets of the features and the feature values,
Using the notation character strings that exist in the body phrase clause and prescriptive phrase in the data,
And,
A pair of the body phrase clause attachment part of the body phrase clause and the phrase clause or the phrase taken from a phrase clause having a dependency relationship with the body clause including the body language in the corpus for the body phrase in the data, A set of pairs with the frequency of a pair, or a set of pairs of a body phrase clause appendage of the body phrase clause and the prescriptive phrase or prescription, and the frequency of the pair, When counting the frequency of the pair, whether the meaning category of the prescription in the pair of prescriptive clauses is the same and the other notation information is the same, and the frequency of the pair is counted ,
For a pretext in the data, take a set of a set of a body phrase clause that is in a dependency relationship with a prescriptive phrase including the prescription in the corpus and the frequency of the body phrase clause, or A set of body phrase clauses having a dependency relationship with a phrase and the frequency of the body phrase clauses, and when counting the frequency of the body phrase clauses, the semantic categories of the body phrases in the body phrase clause are the same, and , The other notation information is the same, and the frequency of the body phrase is counted, or
For a prescriptive phrase in the data, take a set of a set of a body phrase phrase that is in a dependency relationship with the prescriptive phrase in the corpus and a frequency of the body phrase phrase, or a dependency relationship with the prescriptive phrase It is a set of a set phrase phrase and the frequency of the set phrase phrase, and when counting the frequency of the set phrase phrase, the notation semantic category in the set phrase phrase is the same and other notation information is the same Take the same thing and count the frequency of the body phrase,
And, as a set of the feature and the set of feature values, using the notation of the body phrase clause appendix and the notation of the phrase clause appendage existing in the data,
And, as a set of the feature and the feature value set, for the feature from which the feature in the data is extracted, the information of the last constituent morpheme part of the statement is used.
A deep case estimation apparatus characterized by that.
前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、
前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、
を含み、
前記素性及び前記素性値の組の集合として、
データ中の体言文節及び用言文節に存在する表記文字列を用い、
かつ、
データ中の体言に対し、コーパスにおいて該体言を含む体言文節と係り受け関係にある用言文節からとった、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合をとるか、若しくは、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合であって、前記対の頻度を数える際に、前記対の用言文節中の用言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記対の頻度を数えたものをとるか、
データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとるか、又は、
データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとる、
ことを特徴とする深層格学習方法。 A deep case learning method in a deep case learning device including a correct feature vector set generation unit and a classification model generation unit,
The correct feature-added feature vector set generation unit receives as input a set of correct answer-added data, which is a set of data of the body phrase clause and prescriptive phrase clause having a dependency relationship and a correct deep case corresponding to the data. Generating a correct feature-added feature vector set by generating a feature vector that is a set of features and feature values from the data for the attached data;
The classification model generation unit generating a classification model for classifying a deep case from the correct feature vector set;
Only including,
As a set of sets of the features and the feature values,
Using the notation character strings that exist in the body phrase clause and prescriptive phrase in the data,
And,
A pair of the body phrase clause attachment part of the body phrase clause and the phrase clause or the phrase taken from a phrase clause having a dependency relationship with the body clause including the body language in the corpus for the body phrase in the data, A set of pairs with the frequency of a pair, or a set of pairs of a body phrase clause appendage of the body phrase clause and the prescriptive phrase or prescription, and the frequency of the pair, When counting the frequency of the pair, whether the meaning category of the prescription in the pair of prescriptive clauses is the same and the other notation information is the same, and the frequency of the pair is counted ,
For a pretext in the data, take a set of a set of a body phrase clause that is in a dependency relationship with a prescriptive phrase including the prescription in the corpus and the frequency of the body phrase clause, or A set of body phrase clauses having a dependency relationship with a phrase and the frequency of the body phrase clauses, and when counting the frequency of the body phrase clauses, the semantic categories of the body phrases in the body phrase clause are the same, and , The other notation information is the same, and the frequency of the body phrase is counted, or
For a prescriptive phrase in the data, take a set of a set of a body phrase phrase that is in a dependency relationship with the prescriptive phrase in the corpus and a frequency of the body phrase phrase, or a dependency relationship with the prescriptive phrase It is a set of a set phrase phrase and the frequency of the set phrase phrase, and when counting the frequency of the set phrase phrase, the notation semantic category in the set phrase phrase is the same and other notation information is the same Take the same frequency and count the frequency of the body phrase,
A deep case learning method characterized by that.
前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成するステップと、
前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出するステップと、
を含み、
前記素性及び前記素性値の組の集合として、
データ中の体言文節及び用言文節に存在する表記文字列を用い、
かつ、
データ中の体言に対し、コーパスにおいて該体言を含む体言文節と係り受け関係にある用言文節からとった、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合をとるか、若しくは、前記体言文節の体言文節付属部と前記用言文節または用言との対と、前記対の頻度との組の集合であって、前記対の頻度を数える際に、前記対の用言文節中の用言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記対の頻度を数えたものをとるか、
データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言を含む用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとるか、又は、
データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合をとるか、若しくは、該用言文節と係り受け関係にある体言文節と、前記体言文節の頻度との組の集合であって、前記体言文節の頻度を数える際に、前記体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して前記体言文節の頻度を数えたものをとる、
ことを特徴とする深層格推定方法。 A deep case estimation method in a deep case estimation apparatus including a feature vector generation unit and a classification unit,
The feature vector generation unit receives the data A of the body phrase clause and the use phrase clause in a dependency relationship, and generates a feature vector B that is a set of features and feature values from the data A;
The classification unit generates for each correct answer data included in a set of correct answer data, which is a set of body phrase clause and prescriptive phrase data in a dependency relationship and a correct deep case corresponding to the data. From the classification model for classifying the deep case, which is generated in advance from the correct feature vector set, and the feature vector B, a score corresponding to each deep case is obtained. A calculating step;
Only including,
As a set of sets of the features and the feature values,
Using the notation character strings that exist in the body phrase clause and prescriptive phrase in the data,
And,
A pair of the body phrase clause attachment part of the body phrase clause and the phrase clause or the phrase taken from a phrase clause having a dependency relationship with the body clause including the body language in the corpus for the body phrase in the data, A set of pairs with the frequency of a pair, or a set of pairs of a body phrase clause appendage of the body phrase clause and the prescriptive phrase or prescription, and the frequency of the pair, When counting the frequency of the pair, whether the meaning category of the prescription in the pair of prescriptive clauses is the same and the other notation information is the same, and the frequency of the pair is counted ,
For a pretext in the data, take a set of a set of a body phrase clause that is in a dependency relationship with a prescriptive phrase including the prescription in the corpus and the frequency of the body phrase clause, or A set of body phrase clauses having a dependency relationship with a phrase and the frequency of the body phrase clauses, and when counting the frequency of the body phrase clauses, the semantic categories of the body phrases in the body phrase clause are the same, and , The other notation information is the same, and the frequency of the body phrase is counted, or
For a prescriptive phrase in the data, take a set of a set of a body phrase phrase that is in a dependency relationship with the prescriptive phrase in the corpus and a frequency of the body phrase phrase, or a dependency relationship with the prescriptive phrase It is a set of a set phrase phrase and the frequency of the set phrase phrase, and when counting the frequency of the set phrase phrase, the notation semantic category in the set phrase phrase is the same and other notation information is the same Take the same frequency and count the frequency of the body phrase,
A deep case estimation method characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016138880A JP6586055B2 (en) | 2016-07-13 | 2016-07-13 | Deep case analysis device, deep case learning device, deep case estimation device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016138880A JP6586055B2 (en) | 2016-07-13 | 2016-07-13 | Deep case analysis device, deep case learning device, deep case estimation device, method, and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019057331A Division JP6694987B2 (en) | 2019-03-25 | 2019-03-25 | Deep case analysis device, deep case learning device, deep case estimation device, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018010481A JP2018010481A (en) | 2018-01-18 |
JP6586055B2 true JP6586055B2 (en) | 2019-10-02 |
Family
ID=60994247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016138880A Active JP6586055B2 (en) | 2016-07-13 | 2016-07-13 | Deep case analysis device, deep case learning device, deep case estimation device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6586055B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881310B (en) * | 2019-12-07 | 2022-05-06 | 杭州华冬人工智能有限公司 | Chinese character hard-stroke writing intelligent guidance and scoring method and guidance scoring system |
CN111767715A (en) * | 2020-06-10 | 2020-10-13 | 北京奇艺世纪科技有限公司 | Method, device, equipment and storage medium for person identification |
-
2016
- 2016-07-13 JP JP2016138880A patent/JP6586055B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018010481A (en) | 2018-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
White et al. | Inference is everything: Recasting semantic resources into a unified evaluation framework | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
US9910886B2 (en) | Visual representation of question quality | |
US10671929B2 (en) | Question correction and evaluation mechanism for a question answering system | |
Zitouni | Natural language processing of semitic languages | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
US8380489B1 (en) | System, methods, and data structure for quantitative assessment of symbolic associations in natural language | |
EP2915068A2 (en) | Natural language processing system and method | |
US20220269939A1 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
Das et al. | Part of speech tagging in odia using support vector machine | |
Roth et al. | Parsing software requirements with an ontology-based semantic role labeler | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
JP6586055B2 (en) | Deep case analysis device, deep case learning device, deep case estimation device, method, and program | |
Park et al. | Automatic analysis of thematic structure in written English | |
Lee | N-Gram Language Model | |
Sangeetha et al. | Information retrieval system for laws | |
Behera | An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia. | |
Rakhimova et al. | The Task of Generating Text Based on a Semantic Approach for a Low-Resource Kazakh Language | |
Sidhu et al. | Role of machine translation and word sense disambiguation in natural language processing | |
JP6694987B2 (en) | Deep case analysis device, deep case learning device, deep case estimation device, method, and program | |
Quan et al. | Automatic Annotation of Word Emotion in Sentences Based on Ren-CECps. | |
CN116227497B (en) | Sentence structure analysis method and device based on deep neural network | |
KR102313721B1 (en) | Natural language representation method and computer program stored in the medium for performing the same | |
Alrakaf et al. | A supervised approach for word sense disambiguation based on Arabic diacritics | |
Eluri et al. | ARPIT: Ambiguity Resolver for POS Tagging of Telugu, an Indian Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190122 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6586055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |