JP2008065395A - 翻訳装置、翻訳方法および翻訳プログラム - Google Patents
翻訳装置、翻訳方法および翻訳プログラム Download PDFInfo
- Publication number
- JP2008065395A JP2008065395A JP2006239612A JP2006239612A JP2008065395A JP 2008065395 A JP2008065395 A JP 2008065395A JP 2006239612 A JP2006239612 A JP 2006239612A JP 2006239612 A JP2006239612 A JP 2006239612A JP 2008065395 A JP2008065395 A JP 2008065395A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- language
- example sentence
- translation
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 翻訳メモリ装置は、第1言語の複数の例文と当該第1言語の複数の例文の対訳である第2の言語の複数の例文を記憶する例文対訳辞書部116と、第1または第2言語の入力文を入力する入力部100、200と、入力文と同一言語の例文が例文対訳辞書部に含まれているか否かを検索する例文照合部112、212と、一致する例文が検索されないとき、入力文に類似する例文候補を検索する類似例文検索部114、214と、検索された例文の対訳の例文を出力する出力部118とを有する。
【選択図】 図5
Description
さらに本発明は、例文対訳辞書を活用し、入力文の類似例文の対訳を提供することでユーザの翻訳支援を行うことができる翻訳装置、翻訳方法および翻訳プログラムを提供することを目的とする。
さらに、入力文への形態素解析の結果が不正解でも、例文対訳辞書に蓄積された例文対訳データを正確に引き出すことが可能となる。また、OCRから得られた文書データに誤認識があっても、蓄積された対訳例文データを正確に引き出すことが可能となる。
104:Nグラム生成部 104a:2グラム生成部
106:禁止用Nグラムリスト 106a:禁止用2グラムリスト
108:ハッシュインデックス部 110:Nグラムインデックス部
110a:2グラムインデックス部 112:例文照合部
114:類似例文検索部 116:例文対訳辞書
118:出力部 120:禁止用文字リスト
200:第1言語入力部 202:ハッシュ値計算部
204:Nグラム生成部 204a:2グラム生成部
206:禁止用Nグラムリスト 206a:禁止用2グラムリスト
208:ハッシュインデックス部 210:Nグラムインデックス部
210a:2グラムインデックス部 212:例文照合部
214:類似例文検索部 220:禁止用文字リスト
250:カウント領域 260、262、270:レコード
Claims (12)
- 第1言語の複数の例文と当該第1言語の複数の例文の対訳である第2言語の複数の例文を記憶する例文対訳辞書と、
第1言語の入力文を入力する入力手段と、
前記入力文が例文対訳辞書の第1言語の複数の例文のいずれかに一致するか否か検索する第1の検索手段と、
第1の検索手段により一致する例文が検索されないとき、例文対訳辞書の第1言語の複数の例文から前記入力文に類似する少なくとも1つの例文候補を検索する第2の検索手段と、
第1の検索手段により検索された例文または第2の検索手段により検索された例文候補の対訳である第2言語の例文を出力する出力手段と、
を有する翻訳装置。 - 前記入力手段から第2言語の入力文が入力されたとき、前記第1の検索手段は、第2言語の入力文が例文対訳辞書の第2言語の複数の例文のいずれかに一致するか否か検索し、前記第2の検索手段は、第1の検索手段により一致する例文が検索されないとき、例文対訳辞書の第2言語の複数の例文から第2言語の入力文に類似する少なくとも1つの例文候補を検索し、前記出力手段は、第1の検索手段により検索された例文または第2の検索手段により検索された例文候補の対訳である第1言語の例文を出力する、請求項1に記載の翻訳装置。
- 前記第1の検索手段は、前記入力文のハッシュ値を生成し、生成されたハッシュ値に基づき一致する例文を検索する、請求項1または2に記載の翻訳装置。
- 前記第2の検索手段は、前記入力文のNグラム列(Nは、自然数)を生成し、生成されたNグラム列に基づき類似する例文を検索する、請求項1または2に記載の翻訳装置。
- 前記第2の検索手段は、生成されたNグラム列が予め用意された検索禁止用Nグラムに一致するとき、生成されたNグラム列から一致した禁止用Nグラムを削除する、請求項4に記載の翻訳装置。
- 前記第2の検索手段は、第1言語および第2言語の複数の例文をNグラムトライ構造により格納するNグラムインデックス部を有する、請求項4または5に記載の翻訳装置。
- 前記第2の検索手段は、前記入力文から2グラムの文字列を生成し、前記Nグラムインデックス部は、例文を2グラムのトライ構造で格納する、請求項6に記載の翻訳装置。
- 前記第2の検索手段は、入力文から生成されたNグラムを包含する数を例文毎にカウントし、当該カウント結果に基づき入力文と例文との類似度を判定し、当該判定結果に基づき例文候補を選択する、請求項1に記載の翻訳装置。
- 第1言語の複数の例文と当該第1言語の複数の例文の対訳である第2言語の複数の例文を記憶する例文対訳辞書を用いた翻訳方法であって、
第1言語の入力文を入力するステップと、
前記入力文が例文対訳辞書の第1言語の複数の例文のいずれかに一致するか否か検索する第1の検索ステップと、
第1の検索ステップにより一致する例文が検索されないとき、例文対訳辞書の第1言語の複数の例文から前記入力文に類似する少なくとも1つの例文候補を検索する第2の検索ステップと、
第1の検索ステップにより検索された例文または第2の検索ステップにより検索された例文候補の対訳である第2言語の例文を出力するステップと、
を有する翻訳方法。 - 第2言語の入力文が入力されたとき、前記第1の検索ステップは、第2言語の入力文が例文対訳辞書の第2言語の複数の例文のいずれかに一致するか否か検索し、前記第2の検索ステップは、第1の検索ステップにより一致する例文が検索されないとき、例文対訳辞書の第2言語の複数の例文から第2言語の入力文に類似する少なくとも1つの例文候補を検索し、前記出力ステップは、第1の検索ステップにより検索された例文または第2の検索ステップにより検索された例文候補の対訳である第1言語の例文を抽出する、請求項9に記載の翻訳方法。
- 第1言語の複数の例文と当該第1言語の複数の例文の対訳である第2言語の複数の例文を記憶する例文対訳辞書を用いた翻訳プログラムであって、
第1言語の入力文を入力するステップと、
前記入力文が例文対訳辞書の第1言語の複数の例文のいずれかに一致するか否か検索する第1の検索ステップと、
第1の検索ステップにより一致する例文が検索されないとき、例文対訳辞書の第1言語の複数の例文から前記入力文に類似する少なくとも1つの例文候補を検索する第2の検索ステップと、
第1の検索ステップにより検索された例文または第2の検索ステップにより検索された例文候補の対訳である第2言語の例文を出力するステップと、
を有する翻訳プログラム。 - 第2言語の入力文が入力されたとき、前記第1の検索ステップは、第2言語の入力文が例文対訳辞書の第2言語の複数の例文に一致するか否か検索し、前記第2の検索ステップは、第1の検索ステップにより一致する例文が検索されないとき、例文対訳辞書の第2言語の複数の例文から第2言語の入力文に類似する少なくとも1つの例文候補を検索し、前記出力ステップは、第1の検索ステップにより検索された例文または第2の検索ステップにより検索された例文候補の対訳である第1言語の例文を抽出する、請求項11に記載の翻訳プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006239612A JP2008065395A (ja) | 2006-09-04 | 2006-09-04 | 翻訳装置、翻訳方法および翻訳プログラム |
US11/692,464 US8239188B2 (en) | 2006-09-04 | 2007-03-28 | Example based translation apparatus, translation method, and translation program |
CNB2007101047541A CN100562870C (zh) | 2006-09-04 | 2007-04-26 | 翻译装置和翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006239612A JP2008065395A (ja) | 2006-09-04 | 2006-09-04 | 翻訳装置、翻訳方法および翻訳プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008065395A true JP2008065395A (ja) | 2008-03-21 |
Family
ID=39153016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006239612A Pending JP2008065395A (ja) | 2006-09-04 | 2006-09-04 | 翻訳装置、翻訳方法および翻訳プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8239188B2 (ja) |
JP (1) | JP2008065395A (ja) |
CN (1) | CN100562870C (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152420A (ja) * | 2008-12-23 | 2010-07-08 | Fuji Xerox Co Ltd | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 |
JP2011008553A (ja) * | 2009-06-26 | 2011-01-13 | Fuji Xerox Co Ltd | 翻訳装置及び翻訳プログラム |
JP2016058016A (ja) * | 2014-09-12 | 2016-04-21 | カシオ計算機株式会社 | 検索インデックス作成装置、検索インデックス作成方法及びプログラム |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4256891B2 (ja) * | 2006-10-27 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳の精度を向上させる技術 |
JP5280642B2 (ja) * | 2007-04-23 | 2013-09-04 | 株式会社船井電機新応用技術研究所 | 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法 |
JP5194920B2 (ja) * | 2008-03-24 | 2013-05-08 | 富士ゼロックス株式会社 | 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 |
JP5791861B2 (ja) * | 2008-07-25 | 2015-10-07 | シャープ株式会社 | 情報処理装置および情報処理方法 |
JP5501581B2 (ja) * | 2008-07-25 | 2014-05-21 | シャープ株式会社 | 情報処理装置および情報処理方法 |
JP5299011B2 (ja) * | 2009-03-25 | 2013-09-25 | セイコーエプソン株式会社 | テープ印刷装置、テープ印刷装置の制御方法及びプログラム |
US9189475B2 (en) * | 2009-06-22 | 2015-11-17 | Ca, Inc. | Indexing mechanism (nth phrasal index) for advanced leveraging for translation |
KR101083455B1 (ko) * | 2009-07-17 | 2011-11-16 | 엔에이치엔(주) | 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법 |
JP5747508B2 (ja) * | 2011-01-05 | 2015-07-15 | 富士ゼロックス株式会社 | 対訳情報検索装置、翻訳装置及びプログラム |
KR20130014106A (ko) * | 2011-07-29 | 2013-02-07 | 한국전자통신연구원 | 다중 번역 엔진을 사용한 번역 장치 및 방법 |
KR101449551B1 (ko) * | 2011-10-19 | 2014-10-14 | 한국전자통신연구원 | 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체 |
US8706695B1 (en) * | 2012-01-26 | 2014-04-22 | Amazon Technologies, Inc. | Reducing head and tail duplication in stored data |
WO2015063536A1 (en) * | 2013-10-28 | 2015-05-07 | Translation Management Systems Ltd. | Networked language translation system and method |
CN104951508B (zh) * | 2015-05-21 | 2017-11-21 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN106484684B (zh) * | 2016-10-11 | 2019-04-05 | 语联网(武汉)信息技术有限公司 | 一种对数据库中的数据进行术语匹配的方法 |
KR20180077689A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 자연어 생성 장치 및 방법 |
US11449495B2 (en) * | 2017-02-01 | 2022-09-20 | United Parcel Service Of America, Inc. | Indexable database profiles comprising multi-language encoding data and methods for generating the same |
CN108089900B (zh) * | 2017-12-08 | 2020-12-04 | 青岛海信移动通信技术股份有限公司 | 一种字符串处理方法及装置 |
US11188594B2 (en) * | 2018-02-07 | 2021-11-30 | Oracle International Corporation | Wildcard searches using numeric string hash |
KR20240148435A (ko) * | 2018-08-29 | 2024-10-11 | 주식회사 아이팩토리 | 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 |
CN112633015A (zh) * | 2020-12-30 | 2021-04-09 | 语联网(武汉)信息技术有限公司 | 文档翻译方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312382A (ja) * | 1997-05-13 | 1998-11-24 | Keiichi Shinoda | 類似用例翻訳システム |
JP2004192546A (ja) * | 2002-12-13 | 2004-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、プログラム、および記録媒体 |
JP2006004366A (ja) * | 2004-06-21 | 2006-01-05 | Advanced Telecommunication Research Institute International | 機械翻訳システム及びそのためのコンピュータプログラム |
WO2006090732A1 (ja) * | 2005-02-24 | 2006-08-31 | Fuji Xerox Co., Ltd. | 単語翻訳装置、翻訳方法および翻訳プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683864A (ja) | 1992-08-28 | 1994-03-25 | Nec Home Electron Ltd | 自動翻訳装置 |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
JPH08106474A (ja) | 1994-10-07 | 1996-04-23 | Hitachi Ltd | 類似例文検索結果表示方法及び装置 |
EP0834139A4 (en) * | 1995-06-07 | 1998-08-05 | Int Language Engineering Corp | COMPUTER-ASSISTED TRANSLATION TOOLS |
US5956668A (en) * | 1997-07-18 | 1999-09-21 | At&T Corp. | Method and apparatus for speech translation with unrecognized segments |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
JP4502615B2 (ja) | 2003-09-26 | 2010-07-14 | 日本電気株式会社 | 類似文検索装置、類似文検索方法、およびプログラム |
-
2006
- 2006-09-04 JP JP2006239612A patent/JP2008065395A/ja active Pending
-
2007
- 2007-03-28 US US11/692,464 patent/US8239188B2/en not_active Expired - Fee Related
- 2007-04-26 CN CNB2007101047541A patent/CN100562870C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312382A (ja) * | 1997-05-13 | 1998-11-24 | Keiichi Shinoda | 類似用例翻訳システム |
JP2004192546A (ja) * | 2002-12-13 | 2004-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、プログラム、および記録媒体 |
JP2006004366A (ja) * | 2004-06-21 | 2006-01-05 | Advanced Telecommunication Research Institute International | 機械翻訳システム及びそのためのコンピュータプログラム |
WO2006090732A1 (ja) * | 2005-02-24 | 2006-08-31 | Fuji Xerox Co., Ltd. | 単語翻訳装置、翻訳方法および翻訳プログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200800063103; 一井 崇: 'suffix treeにもとづいたn-gramのtrie構造化とその応用' 言語処理学会第12回年次大会発表論文集 , 20060313, 552-555, 言語処理学会 * |
JPN6012035235; 一井 崇: 'suffix treeにもとづいたn-gramのtrie構造化とその応用' 言語処理学会第12回年次大会発表論文集 , 20060313, 552-555, 言語処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010152420A (ja) * | 2008-12-23 | 2010-07-08 | Fuji Xerox Co Ltd | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 |
JP2011008553A (ja) * | 2009-06-26 | 2011-01-13 | Fuji Xerox Co Ltd | 翻訳装置及び翻訳プログラム |
JP2016058016A (ja) * | 2014-09-12 | 2016-04-21 | カシオ計算機株式会社 | 検索インデックス作成装置、検索インデックス作成方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20080059146A1 (en) | 2008-03-06 |
CN101140570A (zh) | 2008-03-12 |
US8239188B2 (en) | 2012-08-07 |
CN100562870C (zh) | 2009-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008065395A (ja) | 翻訳装置、翻訳方法および翻訳プログラム | |
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
US6233544B1 (en) | Method and apparatus for language translation | |
JP4911028B2 (ja) | 単語翻訳装置、翻訳方法および翻訳プログラム | |
CN102298582B (zh) | 数据搜索和匹配方法和系统 | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
CN103970798B (zh) | 数据的搜索和匹配 | |
JP4961755B2 (ja) | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム | |
US8117026B2 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
US7680646B2 (en) | Retrieval method for translation memories containing highly structured documents | |
US5895446A (en) | Pattern-based translation method and system | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
JP2009205357A (ja) | 中国語の品詞を判定する装置、方法およびプログラム | |
CN1134568A (zh) | 中文简繁体字文件转换装置 | |
JP5386855B2 (ja) | 翻訳メモリ翻訳装置および翻訳プログラム | |
JP5194920B2 (ja) | 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Oravecz et al. | Semi-automatic normalization of Old Hungarian codices | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
JP5521670B2 (ja) | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP2012048418A (ja) | 対訳情報検索装置及びプログラム | |
JP6058513B2 (ja) | 語順並び替え装置、翻訳装置、方法、及びプログラム | |
JP2006134051A (ja) | 翻訳装置、翻訳方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090818 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121002 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130219 |