JP7170984B2 - 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 - Google Patents
疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 Download PDFInfo
- Publication number
- JP7170984B2 JP7170984B2 JP2018037055A JP2018037055A JP7170984B2 JP 7170984 B2 JP7170984 B2 JP 7170984B2 JP 2018037055 A JP2018037055 A JP 2018037055A JP 2018037055 A JP2018037055 A JP 2018037055A JP 7170984 B2 JP7170984 B2 JP 7170984B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- pseudo
- parallel
- translation
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Description
第1実施形態について、図面を参照しながら、以下説明する。
図1は、第1実施形態に係る機械翻訳システム1000の概略構成図である。
以上のように構成された機械翻訳システム1000の動作について説明する。
まず、機械翻訳システム1000における疑似対訳データ生成処理について、説明する。
(1)[D1_j,D1_e[1]]
(2)[D1_j,D1_e[2]]
(3)[D1_j,D1_e[3]]
(4)[D1_j,D1_e[4]]
(5)[D1_j,D1_e[5]]
を生成する。そして、上記のN組のデータを疑似対訳データDp1_ej_N(={[D1_j,D1_e[1]],[D1_j,D1_e[2]],[D1_j,D1_e[3]],[D1_j,D1_e[4]],[D1_j,D1_e[5]])として、疑似対訳コーパス記憶部DB_pに出力する。
次に、機械翻訳システム1000における機械翻訳訓練処理について、説明する。
D2_ej={Data1(Db2_ej,η0),Data2(Db2_ej,η0),Data3(Db2_ej,η0),Data4(Dp2_ej,η1),Data5(Dp2_ej,η1),・・・,Datak(Dp2_ej,η1),・・・}
η1=η0/N
通常、疑似対訳データDp2_ejを集めて作成したミニバッチ集合データのデータ数は、ベース対訳データDb2_ejを集めて作成したミニバッチ集合データのデータ数よりも遙かに多い。その一方で、対訳データの精度は、ベース対訳データDb2_ejの方が疑似対訳データDp2_ejよりも高い。したがって、翻訳部3の学習モデルを構築するときに、疑似対訳データDp2_ejとベース対訳データDb2_ejとを同じ学習率にして学習処理を実行すると、精度の高い学習処理(訓練処理)を行うことができない。
次に、機械翻訳システム1000における機械翻訳実行処理について、説明する。
(1)尤度
逆翻訳部11で取得される尤度(翻訳文の長さで補正した尤度を含む)を基準として、疑似対訳データDp1_ej_Nに含める疑似原言語データD1_eを選択する。
(2)信頼度
例えば、下記文献(Atsushi Fujita等)に開示されている技術により取得される翻訳文の信頼度を基準として、疑似対訳データDp1_ej_Nに含める疑似原言語データD1_eを選択する。
Atsushi Fujita and Eiichiro Sumita. 2017. Japanese to English/Chinese/Korean datasets for translation quality estimation and automatic post-editing. In Proc of WAT2017, pages 79-88.
(3)ランダム選択
ランダム選択により、疑似対訳データDp1_ej_Nに含める疑似原言語データD1_eを選択する。
上記実施形態の機械翻訳システム1000において、ベース対訳コーパスDB_bから取得した対訳データの学習率(例えば、η=η0)と、疑似対訳コーパス記憶部DB_pから取得した対訳データの学習率(例えば、η=η0/N)とをそれぞれ固定の値にする場合について説明したが、これに限定されることはなく、例えば、バッチ集合データごとに、学習率を可変にしてもよい。また、ベース対訳コーパスDB_bから取得した対訳データの学習率(例えば、η=η0)と、疑似対訳コーパス記憶部DB_pから取得した対訳データの学習率(例えば、η=η0/N)とは、上記の値に限定されることはなく、他の値であってもよい。例えば、疑似対訳コーパス記憶部DB_pから取得した対訳データの学習率は、η=η0/M(M:実数)であってもよい。
1 疑似対訳データ生成部(疑似対訳データ生成装置)
11 逆翻訳部
113 第1機械翻訳処理部
1131 エンコーダ
1132 デコーダ
12 疑似対訳データ取得部
2 合成対訳データ取得部
3 翻訳部
DB_p 疑似対訳コーパス記憶部
DB_b ベースコーパス記憶部
DB_m 目的言語単言語コーパス記憶部
Claims (6)
- 目的言語単言語コーパスから取得した1つの目的言語データに対して機械逆翻訳処理を施すことで単語出力分布を取得し、当該単語出力分布に従った確率で全ての出力シンボル候補からランダムにデータを選択し、選択したデータに対応する出力シンボルを出力することで1個の疑似原言語データを取得する処理をN回(N:2以上の自然数)行うことで、前記1つの目的言語データに対するN個(N:2以上の自然数)の疑似原言語データを取得する逆翻訳部と、
前記1つの目的言語データと、前記逆翻訳部により取得された前記N個の疑似原言語データのそれぞれを組にすることでN組の疑似対訳データを取得する疑似対訳データ取得部と、
を備える疑似対訳データ生成装置。 - 前記逆翻訳部は、
入力データから入力側隠れ状態データを取得するエンコーダと、
前記エンコーダにより取得された入力側隠れ状態データから出力側隠れ状態データを取得し、取得した出力側隠れ状態データが表す出力単語分布の中からランダムにデータを選択し、選択したデータに対応する単語データを出力データとして出力するデコーダと、
を備える、
請求項1に記載の疑似対訳データ生成装置。 - 前記疑似対訳データを記憶する疑似対訳コーパス記憶部をさらに備え、
前記疑似対訳データ取得部は、
前記逆翻訳部が取得した前記疑似原言語データの尤度および信頼度の少なくとも一方に基づいて、前記N組の疑似対訳データに対してフィルタリング処理を行い、フィルタリング処理後の疑似対訳データを前記疑似対訳コーパス記憶部に記憶させる、
請求項1または2に記載の疑似対訳データ生成装置。 - ベース対訳コーパスから取得したベース対訳データと、前記ベース対訳データに対応する第1学習率とを対応付けて第1バッチ集合データを生成し、
請求項1から3のいずれかに記載の疑似対訳データ生成装置により生成された疑似対訳データと、前記疑似対訳データに対応する第2学習率とを対応付けて第2バッチ集合データを生成し、
前記第1バッチ集合データと前記第2バッチ集合データを含む合成対訳データを取得する合成対訳データ取得部と、
前記合成対訳データを用いて学習することで機械翻訳処理用の学習済みモデルを取得するとともに、前記学習済みモデルにより、原言語データを目的言語データに機械翻訳する機械翻訳処理を実行する翻訳部であって、前記第1バッチ集合データを用いた学習処理では前記第1学習率により前記学習処理を実行し、前記第2バッチ集合データを用いた学習処理では前記第2学習率により前記学習処理を実行する前記翻訳部と、
を備える機械翻訳処理装置。 - 前記第1学習率は、前記第2学習率よりも大きな値である、
請求項4に記載の機械翻訳処理装置。 - 逆翻訳部と、疑似対訳データ取得部と、を備える疑似対訳データ生成装置を用いて実行される疑似対訳データ生成方法であって、
前記逆翻訳部が、目的言語単言語コーパスから取得した1つの目的言語データに対して機械逆翻訳処理を施すことで単語出力分布を取得し、当該単語出力分布に従った確率で全ての出力シンボル候補からランダムにデータを選択し、選択したデータに対応する出力シンボルを出力することで1個の疑似原言語データを取得する処理をN回(N:2以上の自然数)行うことで、前記1つの目的言語データに対するN個(N:2以上の自然数)の疑似原言語データを取得する逆翻訳ステップと、
前記疑似対訳データ取得部が、前記1つの目的言語データと、前記逆翻訳ステップにより取得された前記N個の疑似原言語データのそれぞれを組にすることでN組の疑似対訳データを取得する疑似対訳データ取得ステップと、
を備える疑似対訳データ生成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037055A JP7170984B2 (ja) | 2018-03-02 | 2018-03-02 | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 |
US16/969,619 US11816444B2 (en) | 2018-03-02 | 2019-02-12 | Pseudo parallel translation data generation apparatus, machine translation processing apparatus, and pseudo parallel translation data generation method |
PCT/JP2019/004805 WO2019167600A1 (ja) | 2018-03-02 | 2019-02-12 | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037055A JP7170984B2 (ja) | 2018-03-02 | 2018-03-02 | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019153023A JP2019153023A (ja) | 2019-09-12 |
JP7170984B2 true JP7170984B2 (ja) | 2022-11-15 |
Family
ID=67805291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037055A Active JP7170984B2 (ja) | 2018-03-02 | 2018-03-02 | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11816444B2 (ja) |
JP (1) | JP7170984B2 (ja) |
WO (1) | WO2019167600A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941966A (zh) | 2019-12-10 | 2020-03-31 | 北京小米移动软件有限公司 | 机器翻译模型的训练方法、装置及系统 |
CN111178085B (zh) * | 2019-12-12 | 2020-11-24 | 科大讯飞(苏州)科技有限公司 | 文本翻译器训练方法、专业领域文本语义解析方法和装置 |
CN113408257A (zh) * | 2020-03-17 | 2021-09-17 | 阿里巴巴集团控股有限公司 | 一种机器翻译引擎的构建方法、装置和设备 |
CN111859995B (zh) * | 2020-06-16 | 2024-01-23 | 北京百度网讯科技有限公司 | 机器翻译模型的训练方法、装置、电子设备及存储介质 |
CN113947093B (zh) * | 2020-07-15 | 2024-10-01 | 阿里巴巴集团控股有限公司 | 数据处理方法和装置、电子设备以及计算机可读存储介质 |
CN113705251B (zh) * | 2021-04-01 | 2024-08-06 | 腾讯科技(深圳)有限公司 | 机器翻译模型的训练方法、语言翻译方法及设备 |
CN113239708B (zh) * | 2021-04-28 | 2023-06-20 | 华为技术有限公司 | 一种模型训练的方法、翻译的方法以及装置 |
CN113657122B (zh) * | 2021-09-07 | 2023-12-15 | 内蒙古工业大学 | 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 |
CN114429144B (zh) * | 2021-12-28 | 2023-07-07 | 华东师范大学 | 一种运用辅助记忆的多样性机器翻译方法 |
CN114781405B (zh) * | 2022-04-11 | 2024-10-22 | 阿里巴巴(中国)有限公司 | 文本翻译方法、文本翻译模型的训练方法和装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
BRPI0706404B1 (pt) * | 2006-02-17 | 2019-08-27 | Google Inc | acesso escalável, de codificação e adaptável de modelos distribuídos |
US7774193B2 (en) * | 2006-12-05 | 2010-08-10 | Microsoft Corporation | Proofing of word collocation errors based on a comparison with collocations in a corpus |
US8775155B2 (en) * | 2010-10-25 | 2014-07-08 | Xerox Corporation | Machine translation using overlapping biphrase alignments and sampling |
US9152622B2 (en) * | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
JP6175900B2 (ja) * | 2013-05-23 | 2017-08-09 | 富士通株式会社 | 翻訳装置、方法、及びプログラム |
JP2014235599A (ja) * | 2013-06-03 | 2014-12-15 | 独立行政法人情報通信研究機構 | 翻訳装置、学習装置、翻訳方法、およびプログラム |
US9836457B2 (en) * | 2015-05-25 | 2017-12-05 | Panasonic Intellectual Property Corporation Of America | Machine translation method for performing translation between languages |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN106484681B (zh) * | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
CN113407743B (zh) * | 2016-04-08 | 2024-11-05 | 北京三星通信技术研究有限公司 | 物体信息翻译、以及衍生信息获取方法和装置 |
US10114819B2 (en) * | 2016-06-24 | 2018-10-30 | Facebook, Inc. | Optimizing machine translations for user engagement |
US10049106B2 (en) * | 2017-01-18 | 2018-08-14 | Xerox Corporation | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge |
US10565318B2 (en) * | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
JP6846666B2 (ja) * | 2017-05-23 | 2021-03-24 | パナソニックIpマネジメント株式会社 | 翻訳文生成方法、翻訳文生成装置及び翻訳文生成プログラム |
US10679014B2 (en) * | 2017-06-08 | 2020-06-09 | Panasonic Intellectual Property Management Co., Ltd. | Method for providing translation information, non-transitory computer-readable recording medium, and translation information providing apparatus |
JP7030434B2 (ja) * | 2017-07-14 | 2022-03-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 翻訳方法、翻訳装置及び翻訳プログラム |
WO2019060353A1 (en) * | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
KR102458244B1 (ko) * | 2017-11-23 | 2022-10-24 | 삼성전자주식회사 | 기계 번역 방법 및 장치 |
JP7246027B2 (ja) * | 2017-12-18 | 2023-03-27 | パナソニックIpマネジメント株式会社 | 翻訳装置、翻訳方法、及びプログラム |
JP2019121241A (ja) * | 2018-01-09 | 2019-07-22 | パナソニックIpマネジメント株式会社 | 翻訳装置、翻訳方法、及びプログラム |
US11151334B2 (en) * | 2018-09-26 | 2021-10-19 | Huawei Technologies Co., Ltd. | Systems and methods for multilingual text generation field |
-
2018
- 2018-03-02 JP JP2018037055A patent/JP7170984B2/ja active Active
-
2019
- 2019-02-12 WO PCT/JP2019/004805 patent/WO2019167600A1/ja active Application Filing
- 2019-02-12 US US16/969,619 patent/US11816444B2/en active Active
Non-Patent Citations (2)
Title |
---|
Imankulova Aizhan 外2名,逆翻訳による高品質な大規模擬似対訳コーパスの作成,言語処理学会第23回年次大会 発表論文集 [online],日本,言語処理学会,2017年03月06日,pp.210-213 |
今村 賢治、 隅田 英一郎,疑似原文生成によるニューラル機械翻訳への単言語コーパスの導入,言語処理学会第23回年次大会 発表論文集 [online] Proceedings of the Twenty-third Annual Meeting of the Association for Natural Language Processing,日本,言語処理学会,2017年03月06日,pp.1026-1029 |
Also Published As
Publication number | Publication date |
---|---|
US11816444B2 (en) | 2023-11-14 |
US20210027026A1 (en) | 2021-01-28 |
WO2019167600A1 (ja) | 2019-09-06 |
JP2019153023A (ja) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7170984B2 (ja) | 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法 | |
US12067006B2 (en) | Machine learning system for digital assistants | |
CN106257440B (zh) | 语义信息生成方法和语义信息生成装置 | |
CN108132932B (zh) | 带有复制机制的神经机器翻译方法 | |
CN113590761B (zh) | 文本处理模型的训练方法、文本处理方法及相关设备 | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
JP7034279B2 (ja) | フィルタリングモデル訓練方法および音声認識方法 | |
CN111401037B (zh) | 自然语言的生成方法、装置、电子设备及存储介质 | |
JP2020140709A (ja) | ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体 | |
CN116151276A (zh) | 用于多模式双语预训练和语音翻译的融合声学和文本编码 | |
CN116822464A (zh) | 一种文本纠错方法、系统、设备及存储介质 | |
CN116955594A (zh) | 语义融合预训练模型构建方法及跨语言摘要生成方法和系统 | |
JP2020008836A (ja) | 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
JP2020177196A (ja) | 手話cg制作支援装置及びプログラム | |
WO2023057565A2 (en) | Step-unrolled denoising neural networks | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
Safonova et al. | Automatic speech recognition of low-resource languages based on Chukchi | |
JP2023075883A (ja) | 音声認識装置およびプログラム | |
JP2017219637A (ja) | 音声認識装置、音声認識方法、プログラム | |
CN112257461A (zh) | 一种基于注意力机制的xml文档翻译及评价方法 | |
CN111090720A (zh) | 一种热词的添加方法和装置 | |
WO2022039031A1 (ja) | 疑似対訳データ生成用機械翻訳モデルの学習方法、疑似対訳データ取得方法、および、機械翻訳モデルの学習方法 | |
CN115662392B (zh) | 一种基于音素记忆的音译方法、电子设备及存储介质 | |
CN116092479B (zh) | 一种基于对比文本-音频对的文本韵律生成方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221025 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7170984 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |