JP5454763B2 - Device for associating words in a sentence pair and computer program therefor - Google Patents
Device for associating words in a sentence pair and computer program therefor Download PDFInfo
- Publication number
- JP5454763B2 JP5454763B2 JP2009043828A JP2009043828A JP5454763B2 JP 5454763 B2 JP5454763 B2 JP 5454763B2 JP 2009043828 A JP2009043828 A JP 2009043828A JP 2009043828 A JP2009043828 A JP 2009043828A JP 5454763 B2 JP5454763 B2 JP 5454763B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- pair
- sentence
- features
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000000605 extraction Methods 0.000 claims description 80
- 238000003860 storage Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 description 59
- 230000014616 translation Effects 0.000 description 59
- 238000004364 calculation method Methods 0.000 description 19
- 230000004044 response Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000008571 general function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は対訳の文の対での単語対応付に関し、特に、大規模な対訳の文の対でのより信頼性の高い単語の対応付けに関する。 The present invention relates to associating words in pairs of parallel translations, and more particularly to associating words with higher reliability in pairs of large-scale parallel translations.
統計的機械翻訳(statistical machine translation:SMT)システムにおいて、単語の対応付けは重要な役割を果たす。単語対応付けの出力を、新たな文のデコードに用いることができる。現在のSMTシステムのほとんどは、文単位で対応付済のパラレルコーパスから、生成モデルであるGIZA++(非特許文献3)を用いて自動的に単語を対応付けさせる。 Word mapping plays an important role in statistical machine translation (SMT) systems. The word association output can be used to decode a new sentence. Most of the current SMT systems automatically associate words from a parallel corpus that is associated with each sentence using a generation model GIZA ++ (Non-patent Document 3).
図1はGIZA++を用いた先行技術の翻訳モデル生成システム40を示す図である。図1を参照して、従来の翻訳モデル生成システム40は、文対応付済対訳コーパス50の記憶部と、GIZA++を用いて文対応付対訳コーパス50内の文の対の各々において単語の対応付けを行なう対応付モジュール52と、対応付モジュール52から受けた単語対応付済コーパス54のための記憶部と、単語対応コーパス54を学習用データセットとして用いて翻訳モデル58の学習を行なうための、これも従来入手可能な翻訳モデル生成部56と、を含む。
FIG. 1 is a diagram showing a prior art translation
GIZA++は、大規模な文対応付済対訳コーパスが用いられる場合は良好に動作する。しかし、生成モデルを用いて、コーパス中に出現しない単語及び疎なデータを扱うのは困難である。 GIZA ++ works well when a large-scale sentence-corresponding parallel corpus is used. However, it is difficult to handle words and sparse data that do not appear in the corpus using the generation model.
現在の研究によれば、SMTシステムは、特に大規模な文対応付済対訳コーパスが存在する場合には、用例ベースの方法及びルールベースの方法に比べてより良い翻訳を生成することが示されている。SMTシステムでは、言語対の如何にかかわらず、パラレルな対訳コーパスがある限り、システムを容易に学習できる。しかし、これらのコーパスは典型的には文の対応付けがされているが、翻訳モデルを構築する前には、単語をその翻訳と自動的に一致させなければならない。その後、前提となる単語の対応付けを用いて、句のテーブルを構築する。句ベースのSMTでは、句テーブルはデコードの際に必要である。 Current research shows that the SMT system produces better translations compared to example-based and rule-based methods, especially when there is a large sentence-corresponding parallel corpus. ing. In the SMT system, the system can be easily learned as long as there is a parallel translation corpus regardless of the language pair. However, these corpora are typically associated with sentences, but before building a translation model, words must automatically match the translation. Then, a phrase table is constructed using the premise word association. In phrase-based SMT, the phrase table is required for decoding.
長年にわたって、単語をより良く対応させることがより良い翻訳につながるか否かが論争の対象となってきた。最近の広範な評価によって、対応付けの正確さの向上が機械翻訳の改善につながることが示された。しかし、依然としてその間には一致の制約がある。したがって、良好な単語対応付モデルが依然として必要である。 Over the years, it has been the subject of controversy whether or not better word correspondence leads to better translation. Recent extensive evaluations have shown that improved matching accuracy leads to improved machine translation. However, there are still matching constraints between them. Therefore, there is still a need for a model with good word correspondence.
現在、IBMモデルに基づいた、GIZA++等の単語対応付生成モデル(非特許文献2)が、SMTシステムで広く用いられている。GIZA++は大規模なパラレルコーパスで学習すると良好な結果を与える。さらに、これは英語とドイツ語等の類似した言語を含む対では非常にうまく機能する。しかし、統語構造が大きく異なる言語対、例えば英語と中国語との対を対応付けする場合には、同様の性能を得ることはできない。GIZA++は文の間でほとんどの単語を対応させようとし(対応付けなし、はほとんどない。)、対応の再現率が高いが、同時にこれは偽の対応付けも生じさせる(すなわち、精度は低い)。 At present, a word correspondence generation model (non-patent document 2) such as GIZA ++ based on the IBM model is widely used in the SMT system. GIZA ++ gives good results when learning with a large parallel corpus. Furthermore, this works very well for pairs that contain similar languages such as English and German. However, when associating language pairs with greatly different syntactic structures, for example, pairs of English and Chinese, the same performance cannot be obtained. GIZA ++ tries to match most words between sentences (no association, almost no), and the recall is high, but at the same time it also produces false associations (ie low accuracy) .
再現率が高ければ、翻訳されない単語数が減るという意味で翻訳の品質が確かに向上するが、精度が低ければ翻訳の品質は低下する。したがって、再現率と精度とのトレードオフは、高品質の翻訳を生成するために非常に重要である。句ベースのSMTシステムでは、単語の対応付けの後、句テーブルが作られる。対応付けできなかった単語は、文脈に応じて何らかの句に自由に添付される。再現率が高く精度の低い対応付けでは、生成される句は少なくなり、一方で再現率が低く精度が高ければ、より多くの句が生成される。高い精度が容易に得られるのは、正確さの高いリンクが生成されたときのみである。しかしその場合、再現率は低くなりすぎるであろう。最も良いのは、再現率を改善しつつ精度を維持することである。 A high recall will certainly improve the quality of the translation in the sense that the number of untranslated words will decrease, but a lower accuracy will reduce the quality of the translation. Therefore, the trade-off between recall and accuracy is very important to produce high quality translations. In a phrase-based SMT system, a phrase table is created after word association. Words that could not be matched are freely attached to some phrase depending on the context. In associations with high recall and low accuracy, fewer phrases are generated, while more phrases are generated with low recall and high accuracy. High accuracy is easily obtained only when a highly accurate link is generated. In that case, however, the recall will be too low. The best is to maintain accuracy while improving recall.
これに関して、最近の研究によれば(非特許文献1)、対訳文コーパスの単語対応付けにおいて、条件付確率場(conditional random fields:CRF)が効果的であることがわかった。しかし、非特許文献1の教示は英語とフランス語等の類似した言語の組合せに限られており、かなり異なる統語構造を持つ言語の対については論じられていない。
In this regard, according to a recent study (Non-Patent Document 1), it has been found that conditional random fields (CRF) are effective in word matching of a bilingual corpus. However, the teachings of Non-Patent
したがって、この発明の目的は、扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付対訳コーパスの単語対応付けのための装置及び方法を提供することである。 Accordingly, an object of the present invention is to provide an apparatus and a method for word association of a sentence-corresponding bilingual corpus that can achieve high accuracy with a considerable recall, regardless of the language pair handled.
第1の局面によれば、この発明は第1の言語と第2の言語との入力文対において単語を対応付けるための装置に関する。この装置は、前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含む。前記第1の対訳コーパスでは単語が対応付けられている。装置はさらに、前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含む。前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示す。装置はさらに、前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付ラベルとを用いて、CRF単語対応付モデルの学習を行なうための学習手段と、前記CRF単語対応付モデルを用いて、前記入力された文の対の単語を対応付けるための対応付手段と、を含む。前記抽出手段は前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含む。前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹(stem)又は見出し部、単語対の対訳辞書共起尺度(Bi−dic尺度)、又は前記文の対中の単語対の相対的文位置(Relative Sentence Position:Relpos)、又はこれら素性のいずれかの組合せを含む。 According to a first aspect, the present invention relates to an apparatus for associating words in an input sentence pair of a first language and a second language. The apparatus includes a storage unit that stores the first bilingual corpus of the first and second languages. Words are associated with the first parallel corpus. The apparatus further includes extraction means for extracting a predetermined feature set and assigning a correspondence label to each possible word pair for each of the sentence pairs in the first bilingual corpus. The association label indicates whether or not the possible word is compatible. The apparatus further includes learning means for learning a CRF word association model using the feature set extracted and assigned by the extraction means for the first bilingual corpus and the association label, and the CRF Association means for associating the words of the input sentence pair with a word association model. The extraction means includes means for calculating a set of unigram features for each word pair in each of the sentence pairs. The pair of unigram features may be a word pair dice coefficient, a word pair part-of-speech tag, a word pair stem or headline, a word pair bilingual dictionary co-occurrence scale (Bi-dic scale), or a pair of sentences. Relative Sentence Position (Relpos), or any combination of these features.
好ましくは、前記第2の単語は屈折語であり、前記ユニグラム素性の組はさらに、前記単語対の各々における前記第2の言語の単語の語幹又は見出し語を含む。 Preferably, the second word is a refractive word, and the set of unigram features further includes a stem or headword of a word of the second language in each of the word pairs.
さらに好ましくは前記ユニグラム素性の組はさらに、前記文の対のいずれかの文の先行する単語又は後続の単語について抽出された前記ユニグラム素性のいずれかを含む。 More preferably, the set of unigram features further includes any of the unigram features extracted for preceding or succeeding words of any sentence of the sentence pair.
さらに好ましくは、前記素性の組はさらに、前記ユニグラム素性のマルチグラム組合せを含む、マルチグラム素性の組を含む。 More preferably, the feature set further comprises a multigram feature set comprising the multigram combination of the unigram features.
マルチグラム素性の組は前記ユニグラム素性の2つの組合せを1個又は2個以上含むバイグラム素性の組を含んでもよい。前記マルチグラム素性の組はさらに、前記ユニグラム素性の3つの組合せを1個又は2個以上含むトライグラム素性の組を含んでもよい。 The set of multigram features may include a set of bigram features including one or more of the two combinations of the unigram features. The multigram feature set may further include a trigram feature set including one or more of the three combinations of the unigram features.
好ましくは、装置はさらに前記第1及び第2の言語の第2の対訳コーパスを記憶する記憶部をさらに含む。前記第2の対訳コーパスでは単語対応付けがされていない。装置はさらに、前記学習手段によって前記第2の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第2の対訳コーパス中の文の対を対応付けるための手段を含む。 Preferably, the apparatus further includes a storage unit for storing a second bilingual corpus of the first and second languages. In the second bilingual corpus, word association is not performed. The apparatus further includes means for associating each sentence pair in the second bilingual corpus with the learning means by associating each sentence pair in the second bilingual corpus with words.
第2の局面によれば、この発明はコンピュータによって、第1の言語と第2の言語との入力文対において単語を対応付けるための装置を実現するためのコンピュータで実行可能なプログラムに関する。このプログラムは前記コンピュータを、前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部として機能させる。前記第1の対訳コーパスは単語が対応付けられている。プログラムはさらに、コンピュータを前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付ラベルを割当てるための抽出手段として機能させる。前記対応付ラベルは前記可能な単語対が対応ありか対応なしかを示す。プログラムはさらに、コンピュータを前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付ラベルとを用いて、CRF単語対応付モデルの学習を行なうための学習手段と、前記CRF単語対応付モデルを用いて、前記第2の対訳コーパス内の文の対の各々の単語を対応付けるための対応付手段と、として機能させる。前記抽出手段は前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含む。前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、Bi−dic尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む。 According to a second aspect, the present invention relates to a computer-executable program for realizing an apparatus for associating words in an input sentence pair of a first language and a second language by a computer. This program causes the computer to function as a storage unit that stores the first parallel corpus of the first and second languages. The first bilingual corpus is associated with a word. The program further causes the computer to function as an extraction means for extracting a predetermined feature set and assigning a corresponding label to each possible word pair for each of the sentence pairs in the first bilingual corpus. . The correspondence label indicates whether or not the possible word pair is compatible. The program further includes learning means for learning a CRF word correspondence model using the feature set and the correspondence label extracted and assigned by the extraction means for the first parallel corpus. The CRF word association model is used as an association means for associating each word of the sentence pair in the second bilingual corpus. The extraction means includes means for calculating a set of unigram features for each word pair in each of the sentence pairs. The set of unigram features may be a word pair dice coefficient, a word pair part-of-speech tag, a word pair stem or heading, a Bi-dic scale, or a relative sentence position of a word pair in the sentence pair, or of these features. Includes any combination.
[はじめに]
この発明の一実施の形態は、大型の、文が対応付けられた中国語と英語との対訳コーパスでの単語対応付けに関する。この実施の形態では、機械学習モデルとして、識別的モデル、CRFを適用して、単語対応付けの問題を解決する。ここでは、このモデルをスーパーアライン(Super−Align)と呼ぶ。なぜなら、これは素性の学習に有力な(効率のよい)教師ありモデルだからである。対応付けの問題は、(後述する)ダイス(Dice)、文の対における単語の相対位置(Relpos)、Bi−dic尺度、品詞(part−of−speech:POS)タグ、及び屈折語での語幹といった特徴を与えられた場合の単語対のラベル付け問題として扱われる。さらに、文脈中の単語とPOSタグとが、通常のシーケンシャルなラベル付け問題と同様に、素性として用いられる。
[Introduction]
One embodiment of the present invention relates to word association in a large-sized bilingual corpus of Chinese and English associated with sentences. In this embodiment, a discriminative model, CRF is applied as a machine learning model to solve the word association problem. Here, this model is called a super-alignment. This is because it is an effective (efficient) supervised model for learning features. The correspondence problems are: dice (discussed below), relative position of words in sentence pairs (Relpos), Bi-dic scale, part-of-speech (POS) tags, and stems in refraction words. Is given as a word pair labeling problem. In addition, contextual words and POS tags are used as features, as in the usual sequential labeling problem.
まず、文の各対に対し、単語対のリストn×mを構築し、ここで、nは文の対における中国語の単語数であり、mは英語の単語数である。ここでの課題は、単語対の各々に、「対応付けあり」又は「対応付けなし」のラベルを付けることである。 First, for each sentence pair, a word pair list nxm is constructed, where n is the number of Chinese words in the sentence pair and m is the number of English words. The task here is to label each word pair “with association” or “without association”.
6種類の素性が定義された。 Six types of features were defined.
1.ダイス係数
ダイス係数は、文対応付コーパスを用いて2つの単語の密接さを推定するのに用いられる。この係数はまた、非特許文献1でも用いられている。
1. Dice coefficient The dice coefficient is used to estimate the closeness of two words using a corpus with sentence correspondence. This coefficient is also used in
2.対訳辞書
2つの単語についての第2の尺度パラメータはBi−dic尺度であり、これは対訳辞書中の単語対の共起確率を示す。もし単語対が辞書中の同じエントリに存在すれば、これらを互いに対応付けできる確率は高い。しかし、ひとつの言語に属する多くの単語が、別の言語の単一の単語に常に翻訳できるとは限らない。ソース言語中の単語は、別の言語では複合語として翻訳されうるし、その逆もある。中国語と英語といった、統語的にかなり異なる言語間の翻訳では特にそうである。
2. Bilingual Dictionary The second scale parameter for two words is the Bi-dic scale, which indicates the co-occurrence probability of a word pair in the bilingual dictionary. If a word pair exists in the same entry in the dictionary, there is a high probability that they can be associated with each other. However, many words belonging to one language cannot always be translated into a single word in another language. Words in the source language can be translated as compound words in another language and vice versa. This is especially true for translation between syntactically different languages, such as Chinese and English.
そこで、中国語の単語cと英語の単語eとのBi−dicを以下のように計算する。 Therefore, the Bi-dic between the Chinese word c and the English word e is calculated as follows.
ここで対応付けのために考える単語対を(c,e)とする。辞書中でcの訳Tを探す。cの訳Tとしては多数の訳がありうる。上の式で与えられるTとeとを比較する。Tにおけるeiの訳の各々について、もし1対1の一致があるならば、すなわち、もしe=eiであれば、スコアは1となる。そうでなければ、スコアは1/Nとなる。ここでN=|ei|はei中に単語eが存在する場合の訳ei中の単語の数であり、存在しない場合スコアは0である。もし単語eがいくつかの訳に一致する場合は、最大値のみをとる。 Here, it is assumed that a word pair considered for association is (c, e). Look for a translation T of c in the dictionary. There are many possible translations of c for T. Compare T and e given by the above equation. For each translation of e i in T, if there is a one-to-one match, ie, if e = e i , the score is 1. Otherwise, the score is 1 / N. Here N = | e i | is the number of words in the translation e i of when the word e is present in the e i, if there is no score is zero. If the word e matches several translations, only the maximum value is taken.
3.文中の単語の相対位置(Relpos)
このパラメータは対応付行列の対角空間に近接して単語を対応付けする傾向を学習するのに用いられる。Relposは以下のように計算される。
3. Relpos of the word in the sentence
This parameter is used to learn the tendency to associate words in close proximity to the diagonal space of the association matrix. Relpos is calculated as follows.
4.POSタグ
単語のPOSラベルは、この実施の形態では、辞書的な単語のスパースネスを減じるために、両方の言語について素性のパラメータとして用いられる。中国語のテキストと英語のテキストとで用いられるPOSタグ付部は、この実施の形態では同様のPOSタグの組を共有する。異なるPOSタグの組も同じようにうまく働くであろうが、正確さはおそらく低くなるであろう。この実施の形態では、対訳コーパス中の単語にPOSタグが割当てられていると仮定する。
4). POS tag The POS label of a word is used in this embodiment as a feature parameter for both languages to reduce the sparseness of the lexical word. In this embodiment, the POS tagging unit used for the Chinese text and the English text shares the same set of POS tags. Different sets of POS tags will work just as well, but will probably be less accurate. In this embodiment, it is assumed that a POS tag is assigned to a word in the bilingual corpus.
5.ステム化
スパースネスを減じるために、屈折語の語幹又は見出し語が用いられる。この実施の形態では、英語にのみ語幹を用いる。この実施の形態では、対訳コーパス中の単語に語幹又は見出し語が割当てられていると仮定する。
5. Stemming To reduce sparseness, refraction word stems or headwords are used. In this embodiment, the stem is used only for English. In this embodiment, it is assumed that a stem or headword is assigned to a word in the bilingual corpus.
6.文脈素性
現在の単語(ソース及びターゲット)の前後の文脈を用いる。文脈は上述の素性パラメータ、POS及びステム化を含む。
6). Contextual features Use the context before and after the current word (source and target). The context includes the above mentioned feature parameters, POS and stemming.
素性は、ユニグラム、バイグラム又はトライグラムで符号化されうる。文脈素性(前後)を素性の組にさらに追加してもよい。この実施の形態で用いられる素性の組については、図8を参照してさらに説明する。 Features can be encoded in unigrams, bigrams or trigrams. Context features (before and after) may be further added to the feature set. The feature set used in this embodiment will be further described with reference to FIG.
対応付モデルは文対応付コーパス中で単語の対応付けに用いられ、これは、句ベースの機械翻訳システムにおいて翻訳モデルを作成するのに用いられる。このモデルは単語対応付けに高い精度と同程度の再現率とを生じさせる。この結果、翻訳品質もまた改善される。 Corresponding models are used for word association in a sentence corpus, which is used to create a translation model in a phrase-based machine translation system. This model gives high accuracy and similar recall to word matching. As a result, translation quality is also improved.
再現率を増加させるために、ヒューリスティックモデルもまた用いられる。文sを文tと対応させると、CRFモデルから出力される単語対応付出力は図10に示すようになる。いくつかヌルリンクがあるが、(s3s4)(t4t5t6)、これは単語がどの単語とも対応しなかったことを意味する。 Heuristic models are also used to increase recall. When the sentence s is associated with the sentence t, the word association output output from the CRF model is as shown in FIG. There are some null links, but (s3s4) (t4t5t6), this means that the word did not correspond to any word.
ここで、ヒューリスティックによれば、ソース(s3s4)中の2つの単語をターゲットの3つの単語(t4t5t6)に対応付けることができる。この結果を図11に示す。 Here, according to the heuristic, two words in the source (s3s4) can be associated with three target words (t4t5t6). The result is shown in FIG.
この種の対応付けは、各々の側で最大3単語までに制限する。この方法により、再現率を増加できるだけでなく、翻訳モデル中の句の生成を制限できるので、翻訳の品質がさらに向上する。ここで注目すべきことは、ヒューリスティックルールが最も有効なのは、単語の順序が互いにそれほど広く異ならない、中国語と英語といった特定の言語対である、ということである。例えば、日本語と英語との場合、語順が互いに大きく異なるため、このルールは有効でない。 This type of association is limited to a maximum of 3 words on each side. This method not only increases the recall but also limits the generation of phrases in the translation model, further improving the quality of the translation. It should be noted here that the heuristic rule is most effective for specific language pairs, such as Chinese and English, whose word order is not so different from each other. For example, in the case of Japanese and English, this rule is not effective because the word order is significantly different from each other.
[システム構成]
図2を参照して、この発明の一実施の形態にしたがった翻訳モデル生成システム70は、小規模の単語対応付対訳コーパス80と大規模な文対応付対訳コーパス94とから、統計的翻訳モデル76を生成する。この実施の形態では、単語対応付対訳コーパス80を用いてCRF単語対応付モデルの学習を行ない、次にこれを用いて、文対応付対訳コーパスにおいて文の対の単語を対応付ける。
[System configuration]
Referring to FIG. 2, a translation
単語対応付対訳コーパス80は人の手で対応付けされた中国語と英語の対訳コーパスである。中国語の文が前もってセグメント化され、中国語と英語の全ての単語が適切なPOSタグでラベル付されている。さらに、単語対応付対訳コーパス80において文の各対中の単語対の各々に、対応付リンクが規定されている。この実施の形態では、2種類の対応付リンクが用いられる。「対応あり」と「対応なし」である。これらの対応付けは、コンピュータ上ではそれぞれ「0」と「1」とで示されうる。別の実施の形態では、4種類の対応付リンクが規定できる。強、弱、偽、ヌル、である。強リンクは、非常に良い訳となっている単語をさす。複合語及びいくつかの対応は弱リンクで表すことができるだろう。強リンクと弱リンクとはともに、純粋なリンクと考えられる。冠詞及び前置詞等の機能的単語の対応は偽リンクを用いて示される。ヌルリンクはどの単語とも対応しない単語を示す。これらのリンクはそれぞれ「0」、「1」、「2」及び「3」で表される。
The word-corresponding
図2を参照して、翻訳モデル生成システム70は、文対応付対訳コーパス72内で出現する単語対の各々について、ダイス係数計算部74で計算可能なダイス係数を記憶するダイス係数テーブル82と、予め定められた中国語と英語との対訳辞書86を記憶する記憶部と、ダイス係数テーブル82と対訳辞書86とを参照して、単語対応付対訳コーパス80内の文の対の各々において中国語と英語の単語の組合せの各々について素性パラメータの組を抽出し、学習データセット88を出力する素性抽出モジュール84と、学習データセット88からCRF単語対応モデル92を作成するためのCRFモジュール90とを含む。素性抽出モジュール84は各素性の組に、単語対応付対訳コーパス80にしたがって、単語対が対応付けられているか否かを示す対応ラベル「0」又は「1」を割当てる。
Referring to FIG. 2, translation
CRFモデルの学習は比較的複雑な処理である。しかし、この目的のためのプログラムツールキットは広く入手可能である。例えば、オープンソースのCRF++ツールキットがhttp://crfpp.sourceforge.net/で入手可能であり、Matlab(登録商標)用CRFツールキットがhttp://www.cs.ubc.ca/~murphyk/Software/CRF/crf.htmlで入手可能である。 CRF model learning is a relatively complex process. However, program toolkits for this purpose are widely available. For example, the open source CRF ++ toolkit is available at http://crfpp.sourceforge.net/ and the Matlab® CRF toolkit is available at http://www.cs.ubc.ca/~murphyk/ Available at Software / CRF / crf.html.
翻訳モデル生成システム70はさらに、CFR単語対応モデル92、ダイス係数テーブル82及び対訳辞書86を用いて、文対応付対訳コーパス94内の文の対の各々の単語を対応付けるための対応付モジュール96と、対応付モジュール96によって単語の対応付けがなされた単語対応付対訳コーパス98を記憶する記憶部と、対訳コーパス98内で単語対応付けされた中国語と英語との可能な組合せの確率を計算することにより、翻訳モデルを生成する翻訳モデル生成部100と、を含む。
The translation
図3は各々が英語の文と中国語の文とを含む、2つの文の対120及び122を示す。図4は図3に示された文の対の単語対応付けの例を示す。ここで○の中に+の記号は強リンクを示し、○の中に点・の記号は弱リンクを示し、○の中に×の記号は偽リンクを示す。単純な点「・」はヌルリンク(対応なし)を示す。 FIG. 3 shows two sentence pairs 120 and 122, each containing an English sentence and a Chinese sentence. FIG. 4 shows an example of word association of the sentence pair shown in FIG. Here, a symbol “+” in “◯” indicates a strong link, a symbol “点” in “◯” indicates a weak link, and a symbol “×” in “◯” indicates a false link. A simple dot “·” indicates a null link (no correspondence).
中国語と英語とはかなり異なる統語構造を有する。このため、これらの間の翻訳が対角線上の行列空間で対応付けられないことがしばしばである。図4(A)では対応付けがほぼ対角線上にあるが、図4(B)の別の例では対応付けは行列にわたって分散している。図4(B)に示すような対応付けを解決するのは困難である。 Chinese and English have a very different syntactic structure. For this reason, the translation between them is often not matched in a diagonal matrix space. In FIG. 4A, the correspondence is almost diagonal, but in another example of FIG. 4B, the correspondence is distributed over the matrix. It is difficult to solve the association as shown in FIG.
翻訳モデル生成システム70において、単語対応付けはシーケンシャルなラベル付問題として扱われる。単語対の各々には素性抽出モジュール84によって何らかの素性と所望の出力が割当てられ、CRFモジュールによる識別モデルCRFを用いて学習が行なわれる。CRFはシーケンシャルなデータのラベル付に効率的であることが分かっている。さらに、これは形態素解析、構文解析、固有名詞表現認識、情報抽出及びテキストのチャンク化等の様々なNLP(Natural Language Processing:自然言語処理)で用いられている。ここでは、簡単で高速なパブリックドメインの学習ツールCRF++を用いて学習とデコードとを行なった。
In the translation
図5を参照して、素性抽出モジュール84は、単語対応付対訳コーパス80の文の各対を予め定められたシーケンスで取出すための文対抽出モジュール138と、文対抽出モジュール138によって取出された文の対中の単語対の各々を取出す単語対抽出モジュール140と、単語対抽出モジュール140によって取出された単語対について、ダイス係数テーブル82のダイス係数を検索するためのダイス係数ルックアップモジュール142と、単語対抽出モジュール140によって取出された単語対のPOSタグを抽出するPOSタグ抽出部144と、単語対抽出モジュール140によって取出された単語対の相対的文位置(Relpos)を計算するためのRelpos計算部186と、対訳辞書86を用いて単語対抽出モジュール140によって取出された単語対のBi−dic尺度を計算するBi−dic尺度計算部148と、単語対抽出モジュール140によって取出された単語対の英語部分の語幹又は見出し語を見出すためのステム化モジュール50と、を含む。
Referring to FIG. 5, the
単語対抽出モジュール140はn×mの単語対のリストを構築する。ここで、nは単語対応付対訳コーパス80における中国語単語の数であり、mは英単語の数である。素性抽出モジュール84の役目は、これら単語対の各々について、所望の出力(対応付ラベル)を含む素性の組を生成することである。
The word
素性抽出モジュール84はさらに、文対抽出モジュール138によって取出された文対の各々において、単語対抽出モジュール140によって抽出された単語対の各々を、ダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148及びステム化モジュール150により出力されるその特徴パラメータと、対応付ラベルとともに記憶する素性メモリ152と、ダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148及びステム化モジュール150の動作が完了したことに応答して、単語対抽出モジュール140によって取出された単語対のバイグラム及びトライグラム素性と文脈素性とを生成するマルチグラム/文脈素性生成部154と、を含む。
The
マルチグラム/文脈素性生成部154がバイグラム及びトライグラム素性と文脈素性との生成を完了すると、これらの素性が素性メモリ152に記憶される。マルチグラム/文脈素性生成部154は記憶部に制御信号を出力して学習データセット88(図2を参照)を記憶させるので、記憶部は素性メモリ152に記憶された単語をその素性パラメータとともに読出し、記憶する。
When the multigram / context
図6は、Bi−dic尺度計算部148がどのように単語対(c,e)のBi−dic尺度を計算するかを例示する。はじめに、中国語の単語cの翻訳を対訳辞書86から検索する。ここで、対訳辞書86においてエントリTが中国語の単語cに対応すると認められた、と仮定する。さらに、エントリTが中国語の単語cに対する3個の翻訳e1、e2及びe3を含み、翻訳e1は2つの英単語e11及びe12を含むと仮定する。
FIG. 6 illustrates how the
Bi−dic(c,e)の定義にしたがって、Sim(e,ei)(i=1,2,3)がまず計算される。e1はe11とe12とからなるので、|e1|=2となる。したがって、e=e11又はe=e12であればSim(e,ei)=1/2であり、そうでなければ0である。e2及びe3の各々が1単語からなると仮定すれば、|e2|=|e3|=1である。したがって、もしe=e2であればSim(e,e2)=1であり、そうでなければ0であり、もしe=e3ならばSim(e,e3)=1であり、そうでなければ0である。したがって、Bi−dic(c,e)=Max(Sim(e,ei)(i=1,2,3))=1である。この処理は直截的であり、コンピュータプログラムでの実現化が容易である。 Sim (e, e i ) (i = 1, 2, 3) is first calculated according to the definition of Bi-dic (c, e). Since e 1 is composed of e 11 and e 12 , | e 1 | = 2. Therefore, if e = e 11 or e = e 12 , Sim (e, e i ) = 1/2, otherwise 0. Assuming that each of e 2 and e 3 consists of one word, | e 2 | = | e 3 | = 1. Therefore, if e = e 2 , then Sim (e, e 2 ) = 1, otherwise 0, if e = e 3 then Sim (e, e 3 ) = 1, and so on Otherwise it is 0. Therefore, Bi-dic (c, e) = Max (Sim (e, e i ) (i = 1, 2, 3)) = 1. This process is straightforward and easy to implement with a computer program.
図7は中国語の文180と英語の文190とを含む文の対の、ユニグラム素性の組を示す。ここで、中国語の文180はNc個の単語C−word(0)からC−word(Nc−1)を含むと仮定し、英語の文190はNe個の単語E−word(0)からE−word(Ne−1)を含むと仮定する。したがって、ここでは図7の行列に示すようなNc×Neの単語対がある。
FIG. 7 shows a pair of unigram features of a sentence pair including a
単語対C−word(j)及びE−word(j)の各々について、特徴抽出モジュール84はDice(i,j)、Bi−dic(i,j)、及びRelpos(i,j)、POS(i)、POS(j)、stem(j)を計算し、対応付ラベル(i,j)を割当てる。
For each of the word pairs C-word (j) and E-word (j), the
図8は単語対C−word(j)及びE−word(j)の素性の組の例を示す。図8を参照して、素性の組156はユニグラム素性サブセット220と、バイグラム素性サブセット222と、トライグラム素性サブセット224と、ユニグラム文脈(前後)素性サブセット226及び228と、バイグラム文脈(前後)素性サブセット230及び232と、所望の出力234(対応付ラベル)と、を含む。
FIG. 8 shows an example of a set of features of the word pair C-word (j) and E-word (j). Referring to FIG. 8, feature set 156 includes
図9を参照して、対応付モジュール96は、文対抽出モジュール258と、単語対抽出モジュール260と、ダイス係数ルックアップモジュール262と、POSタグ抽出部264と、相対的文位置計算部266と、Bi−dic尺度計算部268と、ステム化モジュール270と、素性メモリ272と、マルチグラム/文脈素性生成部274と、を含み、これらはそれぞれ、図5に示された文対抽出モジュール138と、単語対抽出モジュール140と、ダイス係数ルックアップモジュール142と、POSタグ抽出部144と、相対的文位置計算部146と、Bi−dic尺度計算部148と、ステム化モジュール150と、素性メモリ152と、マルチグラム/文脈素性生成部154とに対応する。
Referring to FIG. 9, the
対応付モジュール96はさらに、マルチグラム/文脈素性生成部274によるマルチグラム/文脈生成の完了に応答して、文対抽出モジュール258によって取出された文の各々について素性メモリ272に記憶された各単語対に「対応あり」(「0」)又は「対応なし」(「1」)の対応付ラベルを決定するCRF単語対応付モデル92と、対応付ラベルとともに文の対を記憶する対応付メモリ276と、対応付メモリ276に記憶された文の対にヒューリスティックな対応付ルールを適用して文対のリンクのない単語にリンクを付加するためのヒューリスティックルールベース対応付モジュール278と、を含む。ヒューリスティックルールベース対応付モジュール278の出力が、文対抽出モジュール258によって取出された文対の最終的な対応付である。文対応付対訳コーパス95の文対の各々について対応付を繰返すことで、単語対応付対訳コーパス98が生成される。CRFは、学習後、適用される素性の組に応じて対応付ラベルを出力するように学習される。
The
[動作]
この実施の形態の翻訳モデル生成システム70は以下のように動作する。ダイス係数82は、文対応付対訳からダイス係数計算部74によって生成され、単語対応付対訳コーパス80内の各文対の各単語はセグメント化されかつ適切なPOSタグを付され、さらに翻訳モデル生成システム70は対訳辞書86を使用可能である、と仮定する。
[Operation]
The translation
素性抽出モジュール84内の文対抽出モジュール138は、単語対応付対訳コーパス80内の第1の文の対を取出し、取出された文の対を文対抽出モジュール140に与える。これに応じて、単語対抽出モジュール140はその文対で可能な全ての中国語と英語の単語を生成する。単語対の各々について、単語対抽出モジュール140はこれをダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148、及びステム化モジュール150に与える。単語対抽出モジュール140はまた、単語対と単語対のそれぞれの素性の組とを記憶するための素性テーブルを素性メモリ152に作成する。単語対抽出モジュール140はまた、各単語対について、素性テーブルの適切な欄に所望の出力として、「対応あり」又は「対応なし」のラベルを記憶する。
The sentence
ダイス係数ルックアップモジュール142はダイス係数テーブル82の中国語単語と英単語との間のダイス係数を探し、素性テーブルの適切な欄にそのダイス係数を記憶する。
The dice
POSタグ抽出部144は与えられた単語対からPOSタグを抽出し、POSタグを素性メモリ152の適切な欄に記憶する。
The POS
相対的文位置計算部146は与えられた単語対における中国語単語と英単語とのRelposを計算し、そのRelpos値を素性テーブルの適切な欄に記憶する。
The relative sentence
Bi−dic尺度計算部148は与えられた単語対における中国語単語と英単語との間のBi−dic尺度を計算し、そのBi−dic値を素性テーブルの適切な欄に記憶する。
The
ステム化モジュール150は与えられた単語対中の英単語の語幹又は見出し語を探し、その語幹又は見出し語を素性テーブルの適切な欄に記憶する。
The stemming
モジュール142、144、146、148及び150の各々は、単語対抽出モジュール140から与えられた単語対についてその動作を完了すると、単語対抽出モジュール140に完了信号を出力する。これに応じて、単語対抽出モジュール140は取りだした文から次の単語対を取出し、その単語対をモジュール142、144、146、148及び150に与える。この単語対に対して、上述の素性計算処理が繰返される。
When each of the
文対抽出モジュール138によって取出された文対中の単語対全てに関しユニグラム素性が計算され素性テーブルに記憶されると、単語対抽出モジュール140は文対抽出モジュール138に完了信号を出力する。これに応じて、文対抽出モジュール138は単語対応付対訳コーパス80から第2の文対を取出し、これを単語対抽出モジュール140に与える。第2の文対は第1の文対と同様に処理され、第2の文対中の単語対の各々に対しユニグラム素性の組が素性テーブルに記憶される。
When unigram features are calculated and stored in the feature table for all word pairs in the sentence pairs extracted by the sentence
この動作は単語対応付対訳コーパス80内の全ての文の対に対して繰返される。全ての文対が処理されそのそれぞれのユニグラム素性の組が素性テーブルに記憶されると、文対抽出モジュール138はマルチグラム/文脈素性生成部154に完了信号を出力する。これに応じて、マルチグラム/文脈素性生成部154は素性の組に記憶された単語対の全てについて、バイグラム、トライグラム及び文脈素性を生成する。
This operation is repeated for all sentence pairs in the word-corresponding
マルチグラム/文脈素性生成部154による動作が完了すると、これは記憶部に制御信号を出力して学習データセット88を記憶させる(図2を参照)。これに応じて、記憶部は素性メモリ152内に素性テーブルを記憶し、これはCRF単語対応付モジュール92によって学習データセットとして用いられる。
When the operation by the multigram / context
学習データセット88が利用可能になると、CRFモジュール90はCRF単語対応付モジュール92の学習を開始する。CRF単語対応付モジュール92の学習が完了すると、大型のコーパスである文対応付対訳コーパス94をCRF単語対応付モジュール92を用いて単語対応付けすることができる。
When the learning
図9を参照して、特徴抽出モジュール84の文対抽出モジュール138の場合と同様に、文対抽出モジュール258は文対応付対訳コーパス94内の第1の文対を取出す。文対抽出モジュール258はこの文対を単語対抽出モジュール260に与える。
Referring to FIG. 9, as in the case of the sentence
これに応じて、単語対抽出モジュール260はその文の対で可能な中国語単語と英単語との全ての単語対を生成する。単語対の各々について、単語対抽出モジュール260はこれをダイス係数ルックアップテーブル262、POSタグ抽出部264、相対的文位置計算部266、Bi−dic尺度計算部268及びステム化モジュール270に与える。単語対抽出モジュール260はまた、素性メモリ272内に素性テーブルを作り、単語対と、単語対のそれぞれの素性の組とを記憶する。
In response, the word
ダイス係数ルックアップモジュール262、POSタグ抽出部264、相対的文位置計算部266、Bi−dic尺度計算部268及びステム化モジュール270は、図5のダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148及びステム化モジュール150と同様に動作する。したがって、それらの動作はここでは繰返さない。計算された、又は抽出された素性は素性メモリ272の適切な欄に記憶される。
The dice
モジュール262、264、266、268及び270がそれぞれの役割を完了すると、これらは単語対抽出モジュール260に完了信号を出力する。これに応じて、単語対抽出モジュール260は次の単語対を取出し、その単語対をモジュール262、264、266、268及び270に与える。こうして上述の動作がこの単語対に対しても実行され、次のユニグラム素性の組が生成されて素性メモリ272に記憶される。
As
第1の文の対中の全ての単語対が処理されると、単語対抽出モジュール260はマルチグラム/文脈素性生成部274に制御信号を送る。これに応じて、マルチグラム/文脈素性生成部274は素性メモリ272内の単語対の素性セットの各々に対し、バイグラム、トライグラム及び文脈素性を生成する。
When all word pairs in the first sentence pair have been processed, word
バイグラム、トライグラム及び文脈素性が生成されると、関心のある文対についての素性の組が完成する。マルチグラム/文脈素性生成部274はCRF単語対応付モジュール92に制御信号を送り、これによってCRF単語対応付けのための素性の組の準備が整ったことになる。
Once the bigram, trigram, and contextual features are generated, the feature set for the sentence pair of interest is completed. The multigram / context
これに応じて、素性の組が素性メモリ272から読出され、CRF単語対応付モジュール92に与えられる。これに応じて、CRF単語対応付モジュール92は関心のある文対の単語対の各々に、単語対応付ラベルの組を出力する。文の対は、単語対応付ラベルとともに、対応メモリ276に記憶される。
In response to this, the feature set is read from the
対応メモリ276に記憶された文の対はさらに、ヒューリスティックルールベース対応付モジュール278に与えられ、ここでは単語対応付けされた文の対にヒューリスティックルールが適用され、最終的な対応付け結果が出力されて対訳コーパス98(図2)に記憶される。
The sentence pair stored in the
第1の文の単語対応付けが完了すると、ヒューリスティックルールベース対応付モジュール278は次の文の対に対する処理を開始してよいことを示す制御信号を送信する。
When the word association of the first sentence is completed, the heuristic rule
これに応じて、文対抽出モジュール258は文対応付対訳コーパス94内の第2の文対を取出し、この文の対を単語対抽出モジュール260に与える。こうして、第1の文の対に対して実行された処理が、第2の文の対に対して繰返される。
In response to this, the sentence
文対応付対訳コーパス94内の文の対の各々について上述の動作を繰返すことにより、対訳コーパス98を作成することができる。文の対には単語対応付ラベルが付されているので、翻訳モデル生成部100は対訳コーパス98内の単語対応付を処理することで翻訳モデル76を生成することができる。
By repeating the above operation for each sentence pair in the sentence-corresponding
上述の実施の形態では、「対応あり」及び「対応なし」の2つの対応付ラベルを用いた。しかし、先にも述べたように、この発明はこのような実施の形態に限定されるものではなく、3種類又はそれ以上のラベルを用いることもできる。例えば、強、弱、偽、ヌルのリンクを含む4つのリンクを用いてもよい。この場合、単語対応付対訳コーパス80(図2)内の文の対は、これら4つの対応付ラベルのそれぞれでラベル付けされることになる。 In the above-described embodiment, two labels with correspondence, “with correspondence” and “without correspondence” are used. However, as described above, the present invention is not limited to such an embodiment, and three or more types of labels can be used. For example, four links including strong, weak, false, and null links may be used. In this case, sentence pairs in the word-corresponding bilingual corpus 80 (FIG. 2) are labeled with each of these four corresponding labels.
[実験]
実験的セットアップ
上述の実施の形態は簡潔の目的のため2つの対応付けラベル(「対応あり」と「対応なし」)を用いたシステムを扱ったが、実験では4つの対応付けラベル(強、弱、偽、ヌル)を用いた。さらに、CRF対応付けのために、出願人が用意した中国語と英語との人手で対応付けした基本旅行表現コーパス(Basic Traveler Experssion Corpus:BTEC)を用いた。これは35,384個の文対と369,587個のリンクとからなる。これらのリンクのうち、54.17%が強リンク、25.34%が弱リンク、20.49%が偽リンクである。
[Experiment]
Experimental setup The above embodiments dealt with a system using two mapping labels (“matched” and “no matching”) for the sake of brevity, but in the experiment four mapping labels (strong, weak) were used. , Fake, null). Furthermore, for the CRF association, a basic travel expression corpus (BTEC) prepared by the applicant manually associated with Chinese and English was used. This consists of 35,384 sentence pairs and 369,587 links. Of these links, 54.17% are strong links, 25.34% are weak links, and 20.49% are false links.
対応付けの実験結果
単語対応付けの実験において、1000個の文対を取置データとして、また999個の文対をテスト用データとして、ランダムに選択した。最後に、33Kを学習データとして保持した。
Results of Matching Experiment In the word matching experiment, 1000 sentence pairs were randomly selected as placement data and 999 sentence pairs were selected as test data. Finally, 33K was held as learning data.
対応付誤り率(Alignment error rate:AER)は非特許文献3で提案された対応付作業のための尺度パラメータである。AERは確実なリンク及び可能なリンク(Sure and Possible links)に基づいて計算される。しかし、AERは翻訳品質(BLEUスコア)との相関がないとされている。再現率と精度とのトレードオフを変更することで計算されるF−値のほうが、良好な相関を有する。この研究では、再現率(α)と精度(1−α)とに適用される重みとして、定数αを用いた。値が0.5より低ければ再現率の方に重きが置かれ、逆もまた成り立つ。良好なαの設定を見出すことは単純でなく、言語対とコーパスのサイズに大きく依存する。このため、ここでは単純なバランスのとれたF−値であるα=0.5のみを用いて、この対応付モデルの性能を評価した。
The correspondence error rate (AER) is a scale parameter for the correspondence work proposed in
ここでは、対応付けの正確さを、以下の式で与えられるように、精度、再現率及びF−値を用いて測定した。ここで、Aは標準となる対応付けを表し、Sは得られた対応付けを表し、A∩Sは正しい対応付けを表す。この場合、異なる種類のリンクは考慮しない。 Here, the accuracy of association was measured using accuracy, recall, and F-value as given by the following equation. Here, A represents a standard association, S represents an obtained association, and A∩S represents a correct association. In this case, different types of links are not considered.
最後に、全ての素性を加えることにより、最高のF−値である84.59ポイントを得た。この素性の組では、ダイスと対訳辞書素性とは発明の学習コーパスから独立である。したがって、もしより大型の対訳文対応付済コーパスを得ることができれば、ダイスを再計算することができる。テーブル1の最終行で見られるように、160Kの文対応付コーパスを用いて計算したダイスを用いれば、F−値を84.74までさらに増加させることができる。現在、この実験のためにはより大きな対訳辞書はないが、より良い、より大型の対訳辞書があればこのモデルは確実にさらに改善されるであろう。さらに、ヒューリスティックなモデルを用いてより多くの対応を付加すれば、F−値を84.85まで改善できる。 Finally, by adding all the features, the highest F-value of 84.59 points was obtained. In this feature set, dice and bilingual dictionary features are independent of the inventive learning corpus. Therefore, if a larger corpus with a corresponding translated sentence can be obtained, the dice can be recalculated. As can be seen in the last row of Table 1, the F-value can be further increased to 84.74 using a die calculated using a 160K corpus with sentence correspondence. Currently there is no larger bilingual dictionary for this experiment, but a better, larger bilingual dictionary will surely further improve the model. Furthermore, if more correspondence is added using a heuristic model, the F-value can be improved to 84.85.
人手で対応付けた学習コーパスを得ることは容易ではない。これは資源と時間とを消費する。発明の方法は学習コーパスを必要とするので、合理的な結果を得るのに必要な学習データの量を決定しておきたい。図12は正確さに対する学習コーパスのサイズをグラフ出力したものである。学習用文が10,000を超えると正確さの増分がゆっくりになる。したがって、何らかの新たな言語対のためにCRF単語対応付モデルを学習するには、約10,000個の文の対があれば十分と結論づけることができる。 It is not easy to obtain a learning corpus that is manually associated. This consumes resources and time. Since the method of the invention requires a learning corpus, we want to determine the amount of learning data necessary to obtain a reasonable result. FIG. 12 is a graph output of the size of the learning corpus with respect to accuracy. When the learning sentence exceeds 10,000, the accuracy increment becomes slow. Thus, it can be concluded that about 10,000 sentence pairs are sufficient to learn a CRF word association model for some new language pair.
次に、グロー−ダイアゴナル(grow−diagonal)モードにより調整したGIZA++を用いて得られた精度と、この発明のCRF単語対応付モデルを用いたものとを比較したい。 Next, we would like to compare the accuracy obtained using GIZA ++ adjusted by the glow-diagonal mode with that using the CRF word association model of the present invention.
AERは翻訳の品質とは相関がないが、これは依然として、対応付作業の評価尺度として慣用されている。このため、他のモデルとの比較のため、AERも計算した。コーパスにはAERで規定されるような注釈をつけていないので、可能なのは推定のみである。ここでは、本件の強リンクと弱リンクとがその確実な(Sure:S)リンクと等しいものと仮定し、偽リンクがその可能な(Possible:P)リンクとなる。したがって、以下の式をこのAERの尺度として規定する。 AER does not correlate with translation quality, but it is still commonly used as a measure of matching. For this reason, AER was also calculated for comparison with other models. Since the corpus is not annotated as defined by the AER, only estimation is possible. Here, it is assumed that the strong link and the weak link in this case are equal to the reliable (Sure: S) link, and the false link becomes the possible (Posible: P) link. Therefore, the following equation is defined as a measure of this AER.
テーブル2は各種リンクの各々の結果と、GIZA++との比較である。スーパーアラインは強リンクのラベル付けに関するかぎり良好に動作する、なぜなら、これらは最も容易に検出できるリンクだからである。その性能は弱リンクでは良いが、偽リンクではあまり満足のいくものではない。先に説明したように、偽リンクはほとんどの場合機能的な単語であって、互いの直接の翻訳ではない。対応付けを決定するにあたって、これらは文脈に大いに依存する。言換えれば、文脈によってある単語が異なる単語とリンク付されうるので、曖昧性が高い。したがって、偽リンクの対応付けの精度は低い。 Table 2 is a comparison of each link result and GIZA ++. Superalign works well as far as strong link labeling is concerned because these are the most easily detected links. Its performance is good for weak links, but it is not very satisfactory for fake links. As explained above, fake links are mostly functional words, not direct translations of each other. These are highly context dependent in determining the mapping. In other words, since a certain word can be linked with a different word depending on the context, the ambiguity is high. Therefore, the accuracy of false link association is low.
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で動作するコンピュータプログラムとによって実現されうる。図13はこの実施の形態で用いられるコンピュータシステム330の外観を示し、図14はコンピュータシステム330のブロック図である。ここに示すコンピュータシステム330は単なる例示であって、他の構成も利用可能である。
[Realization by computer]
The above-described embodiment can be realized by a computer system and a computer program that operates on the computer system. FIG. 13 shows the external appearance of the
図13を参照して、コンピュータシステム330は、コンピュータ340と、全てコンピュータ330に接続された、モニタ342、キーボード346、マウス348、スピーカ372及びマイクロフォン370とを含む。さらに、コンピュータ340は、DVD−ROM(Digital Versatile Disc Read Only Memory:ディジタル多用途読出し専用メモリ)ドライブ350と、半導体メモリドライブ352とを含む。
Referring to FIG. 13, the
図14を参照して、コンピュータ340はさらに、DVD−ROMドライブ350と半導体メモリドライブ352とに接続されたバス366と、全てバス366に接続された、CPU(Central Processing Unit:中央処理装置)356、コンピュータ340のブートアッププログラムを記憶するROM(Read Only Memory:読出し専用メモリ)358、CPU356の作業領域を提供するとともにCPU356によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory:ランダムアクセスメモリ)360、並びに単語対応付対訳コーパス80、文対応付対訳コーパス94、対訳コーパス98、及び翻訳モデル76を記憶するハードディスクドライブ354とを含む。
Referring to FIG. 14,
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM362又は半導体メモリ364等の記憶媒体に記録されるオブジェクトコードの形で配布され、DVD−ROMドライブ350又は半導体メモリドライブ352等の読出装置によってコンピュータ340に与えられ、ハードディスクドライブ354に記憶されてもよい。CPU356がプログラムを実行するときは、プログラムはハードディスクドライブ354から読出され、RAM360に記憶される。図示しないプログラムカウンタによって指示されるアドレスから命令がフェッチされ、その命令が実行される。CPU356は処理すべきデータをハードディスクドライブ354から読出し、処理結果をまたハードディスクドライブ354に記憶する。
Software for realizing the system of the above-described embodiment is distributed in the form of an object code recorded on a storage medium such as a DVD-
コンピュータシステム330の一般的動作は周知であるので、詳細な説明はここでは行なわない。
The general operation of
ソフトウェア配布の方法については、これを記憶媒体に固定することは必ずしも必要でない。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部をハードディスクドライブ354に記憶させ、ソフトウェアの残りの部分をネットワークを介してハードディスクに取込み、実行時に統合してもよい。
As for the software distribution method, it is not always necessary to fix it to a storage medium. For example, the software may be distributed from another computer connected to the network. A part of the software may be stored in the
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的にしたがって制御されたやり方で機能を実行する。さらに、サードパーティによって提供されるコンピュータプログラムツールキット又はツールボックスは基本的なものだけでなく、翻訳モデル生成システムの構築ブロックを提供する洗練されたプログラムもある。したがって、OS又はサードパーティによって提供されうる一般的な機能を含まず、単に構築ブロック機能の実行順序の組合せを指示するのみのプログラムも、そのプログラムが全体として所望の目的を達成するのであれば、この発明の範囲に含まれる。 Typically, modern computers take advantage of the general functions provided by a computer operating system (OS) and perform functions in a controlled manner according to the desired purpose. Furthermore, computer program toolkits or toolboxes provided by third parties are not only basic, but also sophisticated programs that provide building blocks for translation model generation systems. Therefore, a program that does not include a general function that can be provided by the OS or a third party, and that simply indicates a combination of the execution order of the building block functions can be achieved as long as the program achieves a desired purpose as a whole. It is included in the scope of the present invention.
[終りに]
この実施の形態では、識別的モデルであるCRFを用いて、教師あり単語対応付けを導入した。対応付けを、シーケンシャルなラベル付問題として扱い、モデルを学習して、単語対の各々に、文中の単語間の関係を示すラベルを付与させた。すなわち、強リンク、弱リンク、偽リンク又はヌルリンクである。単語対には、ダイス係数、相対位置、対訳辞書に基づく類似度、POSタグ及び単語の語幹といった、有用な素性を与えた。さらに、文脈上の素性、すなわち現在の単語対の回りの単語及びPOSタグも規定した。
[In the end]
In this embodiment, supervised word association is introduced using CRF which is a discriminative model. The association was treated as a sequential labeled problem, the model was learned, and each word pair was given a label indicating the relationship between the words in the sentence. That is, a strong link, a weak link, a fake link, or a null link. Word pairs were given useful features such as dice coefficient, relative position, similarity based on bilingual dictionaries, POS tags and word stems. In addition, contextual features were defined, ie words around the current word pair and POS tags.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.
70 翻訳モデル生成システム
76 翻訳モデル
80 単語対応付対訳コーパス
82 ダイス係数テーブル
84 素性抽出モジュール
86 対訳辞書
88 学習データセット
90 CRFモジュール
92 CRF単語対応付モデル
94 文対応付対訳コーパス
96 対応付モジュール
98 単語対応付対訳コーパス
100 翻訳モデル生成部
138、258 文対抽出モジュール
140、260 単語対抽出モジュール
142、262 ダイス係数ルックアップモジュール
144、264 POSタグ抽出部
146、268 Bi−dic尺度計算部
150、270 ステム化モジュール
152、272 素性メモリ
154、274 マルチグラム/文脈素性生成部
70 Translation
Claims (8)
前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含み、前記第1の対訳コーパスでは単語が対応付けられており、さらに
前記第1の対訳コーパス内の前記文対の各々について、一方の文の単語と他方の文の単語との単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含み、前記対応付けラベルは前記単語対が対応ありか対応なしかを示すものであり、
前記予め定められた素性の組は、予め定められたユニグラム素性の組を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹若しくは見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含み、
前記抽出手段は、前記文対の各々における各単語対に対し前記ユニグラム素性の組を計算し、前記対応付けラベルを割当てるための手段を含み、
前記単語対応付け装置はさらに、
前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
前記入力された文対における各単語対に対し、前記素性の組を計算し、当該素性の組と、前記CRF単語対応付けモデルとを用いて、前記入力された文対の単語を対応付けるための対応付け手段と、を含む、単語対応付け装置。 A word associating device for associating a word in the input text pair between the first language and the second language,
A storage unit that stores a first bilingual corpus of the first and second languages, wherein the first bilingual corpus is associated with a word, and the sentence pair in the first bilingual corpus Each of which includes extraction means for extracting a predetermined feature set and assigning a correspondence label to each word pair of a word of one sentence and a word of the other sentence, Indicates whether the word pair is compatible or not,
The predetermined feature set includes a predetermined unigram feature set, and the unigram feature set includes a word pair dice coefficient, a word pair part-of-speech tag, a word pair stem or headline, a word pair A bilingual dictionary co-occurrence scale, or a relative sentence position of a word pair in the sentence pair, or any combination of these features,
The extraction means includes means for calculating the set of unigram features for each word pair in each of the sentence pairs and assigning the correspondence label;
The word association device further includes:
Learning means for learning a conditional random field (CRF) word association model using the feature set extracted and assigned by the extraction means for the first bilingual corpus and the association label;
For calculating the feature set for each word pair in the input sentence pair , and using the feature set and the CRF word association model to associate the words of the input sentence pair A word association apparatus, comprising : association means.
前記対応付け手段によって前記第2の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第2の対訳コーパス中の文の対を対応付けるための手段を含む、請求項1から請求項6のいずれかに記載の装置。 A storage unit that stores a second bilingual corpus of the first and second languages, wherein the second bilingual corpus is not associated with words;
Wherein by creating with the words corresponding to each pair of said sentences in the second corpus by associating means includes means for associating a pair of sentences in the second corpus, claim 1 The apparatus according to claim 6.
前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部として機能させ、前記第1の対訳コーパスは単語が対応付けられており、さらに
前記第1の対訳コーパス内の前記文対の各々について、一方の文の単語と他方の文の単語との単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段として機能させ、前記対応付けラベルは前記単語対が対応ありか対応なしかを示すものであり、
前記予め定められた素性の組は、予め定められたユニグラム素性の組を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹若しくは見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含み、
前記抽出手段は、前記文対の各々における各単語対に対し前記ユニグラム素性の組を計算し、前記対応付けラベルを割当てるための手段を含み、
前記コンピュータプログラムはさらに、前記コンピュータを、
前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
前記入力された文対における各単語対に対し、前記素性の組を計算し、当該素性の組と、前記CRF単語対応付けモデルとを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、として機能させる、コンピュータプログラム。 A computer-executable program for realizing a device for associating words in an input sentence pair of a first language and a second language by a computer, the program comprising:
The first bilingual corpus is made to function as a storage unit that stores the first bilingual corpus of the first and second languages, and the first bilingual corpus is associated with a word, and the sentence pair in the first bilingual corpus For each of the word pairs of the word of one sentence and the word of the other sentence, the pair of predetermined features is extracted and functions as an extraction unit for assigning a correspondence label, Indicates whether the word pair is supported or not,
The predetermined feature set includes a predetermined unigram feature set, and the unigram feature set includes a word pair dice coefficient, a word pair part-of-speech tag, a word pair stem or headline, a word pair A bilingual dictionary co-occurrence scale, or a relative sentence position of a word pair in the sentence pair, or any combination of these features,
The extraction means includes means for calculating the set of unigram features for each word pair in each of the sentence pairs and assigning the correspondence label;
The computer program further comprises:
Learning means for learning a conditional random field (CRF) word association model using the feature set extracted and assigned by the extraction means for the first bilingual corpus and the association label;
For calculating the feature set for each word pair in the input sentence pair , and using the feature set and the CRF word association model to associate the words of the input sentence pair A computer program that functions as an association means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009043828A JP5454763B2 (en) | 2009-02-26 | 2009-02-26 | Device for associating words in a sentence pair and computer program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009043828A JP5454763B2 (en) | 2009-02-26 | 2009-02-26 | Device for associating words in a sentence pair and computer program therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010198438A JP2010198438A (en) | 2010-09-09 |
JP5454763B2 true JP5454763B2 (en) | 2014-03-26 |
Family
ID=42823081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009043828A Active JP5454763B2 (en) | 2009-02-26 | 2009-02-26 | Device for associating words in a sentence pair and computer program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5454763B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175246A (en) * | 2019-04-09 | 2019-08-27 | 山东科技大学 | A method of extracting notional word from video caption |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6558696B2 (en) * | 2015-10-30 | 2019-08-14 | 日本電信電話株式会社 | Word association device, machine translation learning device, method, and program |
CN110889456B (en) * | 2019-12-02 | 2022-02-18 | 深圳大学 | Neural network-based co-occurrence matrix feature extraction method and device, storage medium and terminal |
-
2009
- 2009-02-26 JP JP2009043828A patent/JP5454763B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175246A (en) * | 2019-04-09 | 2019-08-27 | 山东科技大学 | A method of extracting notional word from video caption |
Also Published As
Publication number | Publication date |
---|---|
JP2010198438A (en) | 2010-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vilar et al. | Can we translate letters? | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
US20100088085A1 (en) | Statistical machine translation apparatus and method | |
Mori | Word-based partial annotation for efficient corpus construction | |
Costa-Jussá et al. | Statistical machine translation enhancements through linguistic levels: A survey | |
Zia et al. | Urdu word segmentation using conditional random fields (CRFs) | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
Huang et al. | Words without boundaries: Computational approaches to Chinese word segmentation | |
Naz et al. | Urdu part of speech tagging using transformation based error driven learning | |
Udupa et al. | “They Are Out There, If You Know Where to Look”: Mining Transliterations of OOV Query Terms for Cross-Language Information Retrieval | |
JP5454763B2 (en) | Device for associating words in a sentence pair and computer program therefor | |
Saito et al. | Multi-language named-entity recognition system based on HMM | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
Dhanalakshmi et al. | Chunker for tamil | |
Saini et al. | Relative clause based text simplification for improved english to hindi translation | |
Pretorius et al. | Setswana tokenisation and computational verb morphology: Facing the challenge of a disjunctive orthography | |
Slayden et al. | Thai sentence-breaking for large-scale SMT | |
JP2011180941A (en) | Phrase table generator and computer program therefor | |
Cing et al. | Joint word segmentation and part-of-speech (POS) tagging for Myanmar language | |
JP2006127405A (en) | Method for carrying out alignment of bilingual parallel text and executable program in computer | |
Szymanski | Morphological inference from Bitext for resource-poor languages | |
Gebre | Part of speech tagging for Amharic | |
Khemakhem et al. | The MIRACL Arabic-English statistical machine translation system for IWSLT 2010 | |
Phodong et al. | Improvement of word alignment in Thai-English statistical machine translation by grammatical attributes identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131022 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131022 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5454763 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |