JPH1011447A - パターンに基づく翻訳方法及び翻訳システム - Google Patents
パターンに基づく翻訳方法及び翻訳システムInfo
- Publication number
- JPH1011447A JPH1011447A JP8161799A JP16179996A JPH1011447A JP H1011447 A JPH1011447 A JP H1011447A JP 8161799 A JP8161799 A JP 8161799A JP 16179996 A JP16179996 A JP 16179996A JP H1011447 A JPH1011447 A JP H1011447A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- variable
- source language
- translation
- language pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】 (修正有)
【課題】効率的な翻訳を可能にするとともに、カスタマ
イズが容易とする。 【解決手段】原言語文の一部分を翻訳パターンに対応づ
けて、その部分を目的言語に訳する。各翻訳パターン1
8は、原言語パターン18A、原言語パターンに対応し
た目的言語パターン18D、原言語パターンに対応した
変数18B及び、目的言語パターンに対応した変数18
Cから構成されている。原言語文の一部分が、ある原言
語パターンと一致する場合、原言語パターン18Bを第
1の変数に置換し、対応する目的言語パターン18Dを
第2の変数18Cで表現する。第1の変数に置換された
原言語文の一部分が、第1の変数を組み込んだ入れ子構
造の他の原言語パターンと一致する場合、この原言語パ
ターンを第3の変数に置換すると共に、原言語パターン
に対応し、第2の変数を組み込んだ入れ子構造の目的言
語パターンを第4の変数で表現する。
イズが容易とする。 【解決手段】原言語文の一部分を翻訳パターンに対応づ
けて、その部分を目的言語に訳する。各翻訳パターン1
8は、原言語パターン18A、原言語パターンに対応し
た目的言語パターン18D、原言語パターンに対応した
変数18B及び、目的言語パターンに対応した変数18
Cから構成されている。原言語文の一部分が、ある原言
語パターンと一致する場合、原言語パターン18Bを第
1の変数に置換し、対応する目的言語パターン18Dを
第2の変数18Cで表現する。第1の変数に置換された
原言語文の一部分が、第1の変数を組み込んだ入れ子構
造の他の原言語パターンと一致する場合、この原言語パ
ターンを第3の変数に置換すると共に、原言語パターン
に対応し、第2の変数を組み込んだ入れ子構造の目的言
語パターンを第4の変数で表現する。
Description
【0001】
【産業上の利用分野】本発明はパターンに基づく翻訳方
法及び翻訳システムに係わり、特に翻訳パターンに基づ
いた翻訳システムに関するものである。
法及び翻訳システムに係わり、特に翻訳パターンに基づ
いた翻訳システムに関するものである。
【0002】
【従来の技術】インターネットの普及に伴い、外国語で
記述された文書にアクセスする機会がますます増加して
いる。このような文書を自国語で記述された文書に翻訳
するツールとして、機械翻訳システムが急速に普及して
いる。しかしながら、インターネットのように、多岐・
多様な分野の情報にアクセスできる環境では、1つの単
語の意味やその翻訳さえも、分野によって大きく異なっ
てくる。従って、分野に応じてシステムをカスタマイゼ
ーションすることは、ユーザやシステムの開発者にとっ
て重要である。
記述された文書にアクセスする機会がますます増加して
いる。このような文書を自国語で記述された文書に翻訳
するツールとして、機械翻訳システムが急速に普及して
いる。しかしながら、インターネットのように、多岐・
多様な分野の情報にアクセスできる環境では、1つの単
語の意味やその翻訳さえも、分野によって大きく異なっ
てくる。従って、分野に応じてシステムをカスタマイゼ
ーションすることは、ユーザやシステムの開発者にとっ
て重要である。
【0003】このようなカスタマイゼーションの一つの
方法は、システムの辞書中に用語を追加、変更、または
文法規則を修正することである。カスタマイゼーション
は、専門知識が要求されるだけでなく、用語や文法規則
の競合による曖昧性が増大する可能性が高い。従って、
翻訳精度の向上や分野毎の正しい訳し分けが可能となる
とは、一概にはいえない。
方法は、システムの辞書中に用語を追加、変更、または
文法規則を修正することである。カスタマイゼーション
は、専門知識が要求されるだけでなく、用語や文法規則
の競合による曖昧性が増大する可能性が高い。従って、
翻訳精度の向上や分野毎の正しい訳し分けが可能となる
とは、一概にはいえない。
【0004】そこで、近年、注目を浴び、実用化され始
めているのが、翻訳パターンを用いた機械翻訳システム
である。これは、単語、節、句、または文ごとに、原言
語と目的言語とを対応づけた翻訳パターンを予め多数用
意しておく。原言語で記述されたテキスト文の一部分
(文や単語)を翻訳パターンに照合していくことで、テ
キスト文を多数の翻訳パターンを用いたモザイクとして
捉えていく。そして、この翻訳パターンに基づいて目的
言語に翻訳する。このような方法は、大量の翻訳パター
ンを必要とはするものの、ユーザが翻訳パターンを容易
に定義できるため、カスタマイズが容易であるという大
きなメリットがある。
めているのが、翻訳パターンを用いた機械翻訳システム
である。これは、単語、節、句、または文ごとに、原言
語と目的言語とを対応づけた翻訳パターンを予め多数用
意しておく。原言語で記述されたテキスト文の一部分
(文や単語)を翻訳パターンに照合していくことで、テ
キスト文を多数の翻訳パターンを用いたモザイクとして
捉えていく。そして、この翻訳パターンに基づいて目的
言語に翻訳する。このような方法は、大量の翻訳パター
ンを必要とはするものの、ユーザが翻訳パターンを容易
に定義できるため、カスタマイズが容易であるという大
きなメリットがある。
【0005】特平開5−290082号公報には、原言
語で記載されたテキスト文について予め用意された複数
の翻訳パターンとの照合を行い、その結果に基づいてテ
キスト文の翻訳を行う翻訳装置が開示されている。図1
1は、従来の術で用いられてる翻訳パターンの例を示す
図である。この図のように、多数の翻訳パターンが予め
用意されており、それぞれの翻訳パターンは、原言語パ
ターン、この原言語パターンを一文字で置換した変数、
及び原言語パターンに対応する目的言語パターンで構成
されている。そして、ある翻訳パターンは、他の翻訳パ
ターンを置換した変数を組み込んだ入れ子構造で表現さ
れている。
語で記載されたテキスト文について予め用意された複数
の翻訳パターンとの照合を行い、その結果に基づいてテ
キスト文の翻訳を行う翻訳装置が開示されている。図1
1は、従来の術で用いられてる翻訳パターンの例を示す
図である。この図のように、多数の翻訳パターンが予め
用意されており、それぞれの翻訳パターンは、原言語パ
ターン、この原言語パターンを一文字で置換した変数、
及び原言語パターンに対応する目的言語パターンで構成
されている。そして、ある翻訳パターンは、他の翻訳パ
ターンを置換した変数を組み込んだ入れ子構造で表現さ
れている。
【0006】しかしながら、この技術では、一つの翻訳
パターンに対して一つの変数しか与えられていないた
め、一つの翻訳パターンでマッチできる表現の範囲が非
常に狭い。特に、原言語パターンと目的言語パターンで
品詞が異なる場合に、これは大きな問題となる。 原言語パターン :「worry about」 目的言語パターン:「心配だ」 例えば、上記のような例では、原言語パターンが動詞で
あるのに対して、目的言語パターンは形容動詞であり、
両者の品詞は異なっている。このような場合、従来の技
術では、一つの変数でこれを表現することはできない。
パターンに対して一つの変数しか与えられていないた
め、一つの翻訳パターンでマッチできる表現の範囲が非
常に狭い。特に、原言語パターンと目的言語パターンで
品詞が異なる場合に、これは大きな問題となる。 原言語パターン :「worry about」 目的言語パターン:「心配だ」 例えば、上記のような例では、原言語パターンが動詞で
あるのに対して、目的言語パターンは形容動詞であり、
両者の品詞は異なっている。このような場合、従来の技
術では、一つの変数でこれを表現することはできない。
【0007】また、従来の技術では、原言語パターンを
置換した変数自身に、そのパターンが有している情報を
持たせることができない。例えば、英語の単数形の名詞
と複数形の名詞は、類似の表現であるにも関わらず、別
のパターンを用いない限り、これらを一つの翻訳パター
ンで区別することができない。
置換した変数自身に、そのパターンが有している情報を
持たせることができない。例えば、英語の単数形の名詞
と複数形の名詞は、類似の表現であるにも関わらず、別
のパターンを用いない限り、これらを一つの翻訳パター
ンで区別することができない。
【0008】以上のような理由により、従来の技術で
は、一つの翻訳パターンがマッチできる表現が限定され
ていたため、非常に多くの翻訳パターンを用意しておか
なければ正確な翻訳文を生成できないという問題があっ
た。
は、一つの翻訳パターンがマッチできる表現が限定され
ていたため、非常に多くの翻訳パターンを用意しておか
なければ正確な翻訳文を生成できないという問題があっ
た。
【0009】
【発明が解決しようとする課題】そこで、本発明の目的
は、一つの翻訳パターンでより多くの表現にマッチでき
る翻訳パターンを用いることにより、効率的な翻訳を可
能にすることである。
は、一つの翻訳パターンでより多くの表現にマッチでき
る翻訳パターンを用いることにより、効率的な翻訳を可
能にすることである。
【0010】また本発明の別の目的は、ユーザーが簡単
に作成でき、しかも効率良く検索できる翻訳システムを
提供することにある。
に作成でき、しかも効率良く検索できる翻訳システムを
提供することにある。
【0011】
【課題を解決するための手段】上記の課題を解決するた
めに、第1の発明は、原言語で記載された文の一部分を
翻訳パターンに対応づけることで、その部分を目的言語
に訳していくことにより、原言語で記載された文を目的
言語に翻訳する翻訳方法において、原言語パターンと、
この原言語パターンに対応した目的言語パターンと、原
言語パターンを置換する変数と、目的言語パターンを置
換する変数とを有する翻訳パターンを予め複数用意して
おく。原言語で記載された文の一部分が、ある翻訳パタ
ーン中の原言語パターンと一致する場合、この原言語パ
ターンを第1の変数に置換すると共に、この原言語パタ
ーンに対応する目的言語パターンを第2の変数に置換す
るステップする。このようにして、第1の変数に置換さ
れた文の一部分が、少なくとも第1の変数を組み込んだ
入れ子構造の他の原言語パターンと一致する場合、原言
語パターンを第3の変数に置換する。そして、この原言
語パターンに対応し、第2の変数を組み込んだ入れ子構
造の目的言語パターンを第4の変数に置換するステップ
とを有している。
めに、第1の発明は、原言語で記載された文の一部分を
翻訳パターンに対応づけることで、その部分を目的言語
に訳していくことにより、原言語で記載された文を目的
言語に翻訳する翻訳方法において、原言語パターンと、
この原言語パターンに対応した目的言語パターンと、原
言語パターンを置換する変数と、目的言語パターンを置
換する変数とを有する翻訳パターンを予め複数用意して
おく。原言語で記載された文の一部分が、ある翻訳パタ
ーン中の原言語パターンと一致する場合、この原言語パ
ターンを第1の変数に置換すると共に、この原言語パタ
ーンに対応する目的言語パターンを第2の変数に置換す
るステップする。このようにして、第1の変数に置換さ
れた文の一部分が、少なくとも第1の変数を組み込んだ
入れ子構造の他の原言語パターンと一致する場合、原言
語パターンを第3の変数に置換する。そして、この原言
語パターンに対応し、第2の変数を組み込んだ入れ子構
造の目的言語パターンを第4の変数に置換するステップ
とを有している。
【0012】ここで、第3及び第4の変数に置換する条
件である、「第1の変数に置換された文の一部分が、少
なくとも第1の変数を組み込んだ入れ子構造の他の原言
語パターンと一致する場合」は、より条件を厳しくして
「第1の変数に置換された文の一部分が、第1の変数を
組み込んだ入れ子構造の他の原言語パターンと一致し、
かつこの他の原言語パターンに対応した目的言語パター
ンが、第2の変数を組み込んだ入れ子構造である場合」
とすれば、より最適な翻訳が可能となる。
件である、「第1の変数に置換された文の一部分が、少
なくとも第1の変数を組み込んだ入れ子構造の他の原言
語パターンと一致する場合」は、より条件を厳しくして
「第1の変数に置換された文の一部分が、第1の変数を
組み込んだ入れ子構造の他の原言語パターンと一致し、
かつこの他の原言語パターンに対応した目的言語パター
ンが、第2の変数を組み込んだ入れ子構造である場合」
とすれば、より最適な翻訳が可能となる。
【0013】このような構成において、原言語パターン
は及び目的言語パターンは、パターンの特徴を示す素性
情報を有しており、変数には置換しようとするパターン
の素性情報が付与されている。詳細には、変数は索引を
含んでおり、変数中の索引に基づいて、パターンの素性
情報が付与される。
は及び目的言語パターンは、パターンの特徴を示す素性
情報を有しており、変数には置換しようとするパターン
の素性情報が付与されている。詳細には、変数は索引を
含んでおり、変数中の索引に基づいて、パターンの素性
情報が付与される。
【0014】また、パターンの素性情報の内容は、言語
ごとに異なる場合が多い。例えば、日本語では、動詞の
活用形が重要なので、これに関する素性情報を素性情報
とする必要な場合が多いであろうが、英語においてはそ
のような情報は必要でない。逆に、英語では名詞の単複
形が重要であるが、日本語では必要ではない。従って、
一般に、一の翻訳パターン中の原言語パターンが有する
素性情報は、対応する目的言語パターンが有する素性情
報と異なる内容を有している。
ごとに異なる場合が多い。例えば、日本語では、動詞の
活用形が重要なので、これに関する素性情報を素性情報
とする必要な場合が多いであろうが、英語においてはそ
のような情報は必要でない。逆に、英語では名詞の単複
形が重要であるが、日本語では必要ではない。従って、
一般に、一の翻訳パターン中の原言語パターンが有する
素性情報は、対応する目的言語パターンが有する素性情
報と異なる内容を有している。
【0015】さらに、第1の変数に置換された文の一部
分が、変数を組み込んだ入れ子構造の他の原言語パター
ンと一致するかどうかは、変数に付与された素性情報を
含めて判断される。
分が、変数を組み込んだ入れ子構造の他の原言語パター
ンと一致するかどうかは、変数に付与された素性情報を
含めて判断される。
【0016】第2の発明は、原言語で記載された文の一
部分を翻訳パターンに対応づけることで、その部分を目
的言語に訳していくことにより、原言語で記載された文
を目的言語に翻訳する翻訳システムを提供する。すなわ
ち、原言語パターンと、原言語パターンに対応した目的
言語パターンと、原言語パターンを置換する変数と、目
的言語パターンを置換する変数とを有する翻訳パターン
を多数用意しておき、これらは記憶手段中に記憶されて
いる。このしすてむは、さらに原言語で記載された文の
一部分が、一の原言語パターンと一致する場合、この原
言語パターンを第1の変数に置換すると共に、当該原言
語パターンに対応する目的言語パターンを第2の変数に
置換する手段と、第1の変数に置換された文の一部分
が、少なくとも第1の変数を組み込んだ入れ子構造の他
の原言語パターンと一致する場合、この原言語パターン
を第3の変数に置換すると共に、原言語パターンに対応
し、第2の変数を組み込んだ入れ子構造の目的言語パタ
ーンを第4の変数に置換する手段とを有している。
部分を翻訳パターンに対応づけることで、その部分を目
的言語に訳していくことにより、原言語で記載された文
を目的言語に翻訳する翻訳システムを提供する。すなわ
ち、原言語パターンと、原言語パターンに対応した目的
言語パターンと、原言語パターンを置換する変数と、目
的言語パターンを置換する変数とを有する翻訳パターン
を多数用意しておき、これらは記憶手段中に記憶されて
いる。このしすてむは、さらに原言語で記載された文の
一部分が、一の原言語パターンと一致する場合、この原
言語パターンを第1の変数に置換すると共に、当該原言
語パターンに対応する目的言語パターンを第2の変数に
置換する手段と、第1の変数に置換された文の一部分
が、少なくとも第1の変数を組み込んだ入れ子構造の他
の原言語パターンと一致する場合、この原言語パターン
を第3の変数に置換すると共に、原言語パターンに対応
し、第2の変数を組み込んだ入れ子構造の目的言語パタ
ーンを第4の変数に置換する手段とを有している。
【0017】ここで、上記の第3及び第4の変数に置換
する手段は、第1の変数に置換された前記文の一部分
が、第1の変数を組み込んだ入れ子構造の他の原言語パ
ターンと一致し、かつ当該他の原言語パターンに対応し
た目的言語パターンが、第2の変数を組み込んだ入れ子
構造である場合に、置換を実行することが好ましい。
する手段は、第1の変数に置換された前記文の一部分
が、第1の変数を組み込んだ入れ子構造の他の原言語パ
ターンと一致し、かつ当該他の原言語パターンに対応し
た目的言語パターンが、第2の変数を組み込んだ入れ子
構造である場合に、置換を実行することが好ましい。
【0018】また、上記のシステムは、ユーザ自ら翻訳
パターンを作成でき、作成された翻訳パターンを記憶手
段に追加登録するパターン登録手段をさらに有していて
もよい。
パターンを作成でき、作成された翻訳パターンを記憶手
段に追加登録するパターン登録手段をさらに有していて
もよい。
【0019】第3の発明は、原言語で記載された文の一
部分を翻訳パターンに対応づけることで、その部分を目
的言語に訳していくことにより、原言語で記載された文
を目的言語に翻訳するプログラムを記憶した記憶媒体を
提供する。すなわち、このプログラムには、原言語パタ
ーンと、前記原言語パターンに対応した目的言語パター
ンと、前記原言語パターンを置換する変数と、前記目的
言語パターンを置換する変数とを有する翻訳パターンが
用意されている。このプログラムは、さらに、この翻訳
パターンを参照して、原言語で記載された文の一部分
が、一の原言語パターンと一致する場合、この原言語パ
ターンを第1の変数に置換すると共に、原言語パターン
に対応する目的言語パターンを第2の変数に置換する第
1の命令手段と、第1の変数に置換された文の一部分
が、少なくとも第1の変数を組み込んだ入れ子構造の他
の原言語パターンと一致する場合、原言語パターンを第
3の変数に置換すると共に、原言語パターンに対応し、
第2の変数を組み込んだ入れ子構造の目的言語パターン
を第4の変数に置換する第2の命令手段とを有してい
る。
部分を翻訳パターンに対応づけることで、その部分を目
的言語に訳していくことにより、原言語で記載された文
を目的言語に翻訳するプログラムを記憶した記憶媒体を
提供する。すなわち、このプログラムには、原言語パタ
ーンと、前記原言語パターンに対応した目的言語パター
ンと、前記原言語パターンを置換する変数と、前記目的
言語パターンを置換する変数とを有する翻訳パターンが
用意されている。このプログラムは、さらに、この翻訳
パターンを参照して、原言語で記載された文の一部分
が、一の原言語パターンと一致する場合、この原言語パ
ターンを第1の変数に置換すると共に、原言語パターン
に対応する目的言語パターンを第2の変数に置換する第
1の命令手段と、第1の変数に置換された文の一部分
が、少なくとも第1の変数を組み込んだ入れ子構造の他
の原言語パターンと一致する場合、原言語パターンを第
3の変数に置換すると共に、原言語パターンに対応し、
第2の変数を組み込んだ入れ子構造の目的言語パターン
を第4の変数に置換する第2の命令手段とを有してい
る。
【0020】第4の発明は、原言語で記載された文の一
部分を翻訳パターンに対応づけることで、その部分を目
的言語に訳していくことにより、原言語で記載された文
を目的言語に翻訳するシステムにおいて、ユーザやシス
テム開発者がある翻訳パターンをさらに追加する等のカ
スタマイズの方法に関するものである。この方法は、原
言語パターンを形成するステップと、この原言語パター
ンに対応した目的言語パターンを形成するステップと、
原言語パターンに、索引を含む一の変数を対応付けるス
テップと、目的言語パターンに索引を含む他の変数を対
応付けるステップとを有している。これにより、一の変
数の索引により、原言語パターンの素性情報が一の変数
に付与される。そして、他の変数の索引により、目的言
語パターンの素性情報が他の変数に付与される。
部分を翻訳パターンに対応づけることで、その部分を目
的言語に訳していくことにより、原言語で記載された文
を目的言語に翻訳するシステムにおいて、ユーザやシス
テム開発者がある翻訳パターンをさらに追加する等のカ
スタマイズの方法に関するものである。この方法は、原
言語パターンを形成するステップと、この原言語パター
ンに対応した目的言語パターンを形成するステップと、
原言語パターンに、索引を含む一の変数を対応付けるス
テップと、目的言語パターンに索引を含む他の変数を対
応付けるステップとを有している。これにより、一の変
数の索引により、原言語パターンの素性情報が一の変数
に付与される。そして、他の変数の索引により、目的言
語パターンの素性情報が他の変数に付与される。
【0021】
【作用】上記の発明によれば、原言語パターンと目的言
語パターンとを別の変数で置換しているので、一つの翻
訳パターンがマッチできる表現を拡張することができ
る。例えば、翻訳パターン中の「worry about」とそれ
に対応する「心配だ」とは、品詞(素性情報)が異なっ
ている。従って、従来の技術ように、一つの翻訳パター
ンに対して一つの変数しか与えない場合には、素性情報
の違う2つのパターンを表現できない。しかしながら、
本発明では、翻訳パターンに対して、一対の変数を与え
ているため、それぞれの言語パターンの特性を素性情報
として変数中に付与することができる。この変数の入れ
子構造で表現された他の翻訳パターンにおいても、この
変数が置換した元のパターンの素性情報を反映させるこ
とができるため、より正確な翻訳が生成されるように、
翻訳パターンを組み合わせていくことが可能となる。
語パターンとを別の変数で置換しているので、一つの翻
訳パターンがマッチできる表現を拡張することができ
る。例えば、翻訳パターン中の「worry about」とそれ
に対応する「心配だ」とは、品詞(素性情報)が異なっ
ている。従って、従来の技術ように、一つの翻訳パター
ンに対して一つの変数しか与えない場合には、素性情報
の違う2つのパターンを表現できない。しかしながら、
本発明では、翻訳パターンに対して、一対の変数を与え
ているため、それぞれの言語パターンの特性を素性情報
として変数中に付与することができる。この変数の入れ
子構造で表現された他の翻訳パターンにおいても、この
変数が置換した元のパターンの素性情報を反映させるこ
とができるため、より正確な翻訳が生成されるように、
翻訳パターンを組み合わせていくことが可能となる。
【0022】
【実施例】図1は本発明の実施例である機械翻訳システ
ムの全体構成を示すブロック図である。ここでは、和文
英訳の例について説明する。
ムの全体構成を示すブロック図である。ここでは、和文
英訳の例について説明する。
【0023】入力手段1は、キーボード2、和文テキス
ト入力ファイル3及び翻訳パターン入力ファイル18で
構成されている。テキストデータや各種の操作コマンド
などは、この入力手段1からプロセッサ4に入力され
る。
ト入力ファイル3及び翻訳パターン入力ファイル18で
構成されている。テキストデータや各種の操作コマンド
などは、この入力手段1からプロセッサ4に入力され
る。
【0024】プロセッサ4は演算装置やメモリ及び制御
部等の一般的な構成を備えており、後述する処理手順に
従って翻訳処理を実行するものである。これを本実施例
との関係で機能的にとらえると、翻訳パターン登録処理
部5、入力処理部6、比較部7、訳文生成処理部8、機
械翻訳処理部9、バッファ・メモリ10及び出力処理部
11から構成される。
部等の一般的な構成を備えており、後述する処理手順に
従って翻訳処理を実行するものである。これを本実施例
との関係で機能的にとらえると、翻訳パターン登録処理
部5、入力処理部6、比較部7、訳文生成処理部8、機
械翻訳処理部9、バッファ・メモリ10及び出力処理部
11から構成される。
【0025】翻訳パターン登録処理部5は、ユーザーが
翻訳パターンのテーブルを生成し、登録するために用い
られる。入力処理部6は、入力手段1から入力された和
文テキストを比較処理部7に送り、翻訳パターン・ファ
イル13の翻訳パターンと一致するかどうかを比較す
る。比較の結果、一致する場合には、訳文生成処理部8
で翻訳パターンを用いて英訳文を生成し、バッファ・メ
モリ10を介して出力処理部11に送る。比較の結果が
一致しない場合には、機械翻訳処理部9において文法解
析による翻訳処理がなされる。和文テキストを全て翻訳
パターンによる翻訳と機械翻訳処理の双方により翻訳
し、結果を比較し、取捨選択するようにしてもよい。
翻訳パターンのテーブルを生成し、登録するために用い
られる。入力処理部6は、入力手段1から入力された和
文テキストを比較処理部7に送り、翻訳パターン・ファ
イル13の翻訳パターンと一致するかどうかを比較す
る。比較の結果、一致する場合には、訳文生成処理部8
で翻訳パターンを用いて英訳文を生成し、バッファ・メ
モリ10を介して出力処理部11に送る。比較の結果が
一致しない場合には、機械翻訳処理部9において文法解
析による翻訳処理がなされる。和文テキストを全て翻訳
パターンによる翻訳と機械翻訳処理の双方により翻訳
し、結果を比較し、取捨選択するようにしてもよい。
【0026】外部記憶装置12は、翻訳パターンを記録
した翻訳パターン・ファイル、機械翻訳処理用の日英対
訳および英文生成規則ファイル14、日本語解析辞書及
び文法ファイル15、英文訳ファイル16を備えてい
る。また、英文訳ファイル16は、訳文生成処理部8や
機械翻訳処理部9で翻訳された英文を記録するファイル
である。翻訳処理の経過及び結果は、表示手段17に表
示される。
した翻訳パターン・ファイル、機械翻訳処理用の日英対
訳および英文生成規則ファイル14、日本語解析辞書及
び文法ファイル15、英文訳ファイル16を備えてい
る。また、英文訳ファイル16は、訳文生成処理部8や
機械翻訳処理部9で翻訳された英文を記録するファイル
である。翻訳処理の経過及び結果は、表示手段17に表
示される。
【0027】図2は翻訳パターンの内部表現を示したテ
ーブルである。翻訳パターン18は、以下のような4つ
組を単位としている。 < 原言語ハ゜ターン, 原言語ハ゜ターンの変数, 目的言語ハ゜ターンの
変数, 目的言語ハ゜ターン> この構造の特徴は、一つの翻訳パターンが2つの変数、
すなわち原言語パターンを置換した変数と目的言語パタ
ーンを置換した変数、を有している点である。
ーブルである。翻訳パターン18は、以下のような4つ
組を単位としている。 < 原言語ハ゜ターン, 原言語ハ゜ターンの変数, 目的言語ハ゜ターンの
変数, 目的言語ハ゜ターン> この構造の特徴は、一つの翻訳パターンが2つの変数、
すなわち原言語パターンを置換した変数と目的言語パタ
ーンを置換した変数、を有している点である。
【0028】例えば、ある翻訳パターンが、<特許:1, $
N:1, $NP:1, patent:1> という4つ組で表現されている
場合、原言語パターンの 「特許」という文字列は、目
的言語パターンである「patent」という文字列に翻訳さ
れることを示している。それと同時に、「特許」という
パターンは変数$Nに置換され、「patant」というパター
ンは変数$NPに置換される。
N:1, $NP:1, patent:1> という4つ組で表現されている
場合、原言語パターンの 「特許」という文字列は、目
的言語パターンである「patent」という文字列に翻訳さ
れることを示している。それと同時に、「特許」という
パターンは変数$Nに置換され、「patant」というパター
ンは変数$NPに置換される。
【0029】原言語パターン及び目的言語パターンは、
パターンの特性を示す素性情報を有している。素性情報
が有する具体的なパラーメータは、例えば、以下のよう
なものである。
パターンの特性を示す素性情報を有している。素性情報
が有する具体的なパラーメータは、例えば、以下のよう
なものである。
【0030】[日本語パターンの素性情報] ・品詞 ・活用形 ・名詞の素性(固有名詞など) ・位置の属性(文頭・文末等) ・名詞句の素性(選択的並列、合体的並列等) ・活用自立語と助動詞の素性 ・文節末の形 ・意味分類
【0031】[英語パターンの素性情報] ・品詞 ・単数形・複数形 ・位置の属性(文頭・文末等) ・句読点による区切り・引用符での囲い込み ・頭大文字 ・否定表現を要求 ・theまたはa,anの有無 ・自動詞・他動詞 ・直接または間接目的語をとる動詞 ・意味分類
【0032】翻訳するために必要な素性情報は、日本語
と英語では異なっている。従って、上記の例からもわか
る通り、それぞれの言語のパターンが有する素性情報も
異なっている。なお、ある日本語パターンの品詞が名詞
で有れば、活用形に関する情報は必要ない。このように
同じ日本語パターンであっても、素性情報が有する具体
的な内容は異なっている。
と英語では異なっている。従って、上記の例からもわか
る通り、それぞれの言語のパターンが有する素性情報も
異なっている。なお、ある日本語パターンの品詞が名詞
で有れば、活用形に関する情報は必要ない。このように
同じ日本語パターンであっても、素性情報が有する具体
的な内容は異なっている。
【0033】図2において、変数$N、$NPやパターン
「特許」、「patent」の後に付されている「:1」という
表記は索引(インデックス)19Cである。索引は、パ
ターンが有する素性情報は、変数に置換されても、変数
自身に、その素性情報を付与するために使用される。例
えば、「特許」という原言語パターンを置換した変数$N
は、同一の索引が付与されているパターン「特許」が有
する素性情報を、このパターンと共有している。
「特許」、「patent」の後に付されている「:1」という
表記は索引(インデックス)19Cである。索引は、パ
ターンが有する素性情報は、変数に置換されても、変数
自身に、その素性情報を付与するために使用される。例
えば、「特許」という原言語パターンを置換した変数$N
は、同一の索引が付与されているパターン「特許」が有
する素性情報を、このパターンと共有している。
【0034】同様に、目的言語パターンの「patent」に
ついても、それを置換する変数$NPには、同一の「:1」
という索引19Cが付されているパターン「patent」が
有する素性情報と同一の素性情報を与えられる。
ついても、それを置換する変数$NPには、同一の「:1」
という索引19Cが付されているパターン「patent」が
有する素性情報と同一の素性情報を与えられる。
【0035】パターン「特許」がより長い文字列の一部
として現れたなら、このパターン「特許」とその目的言
語パターンは、他の翻訳パターンの原言語パターン及び
目的言語パターンから、それぞれ$N及び$NPとして参照
される。この際に、$Nおよび$NPは、対であることを明
示するために、同じ索引がつけられる。
として現れたなら、このパターン「特許」とその目的言
語パターンは、他の翻訳パターンの原言語パターン及び
目的言語パターンから、それぞれ$N及び$NPとして参照
される。この際に、$Nおよび$NPは、対であることを明
示するために、同じ索引がつけられる。
【0036】このように、あるパターンを示す変数に索
引を付しておくことにより、その変数が別の翻訳パター
ン中に出現した場合でも、その変数の素性が参照され
る。例えば、原言語パターン<$N:1 を申請する:2>のよ
うに、変数$N:1を入れ子構造とする翻訳パターンでは、
変数$N:1と変数$NP:1は1という同じ索引19Cを持っ
ている。従って、上記の「特許」と「patent」という対
に置換可能である。この変数$N:1にはパターン「特許」
の素性情報が、また変数$NP:1にはパターン「patent」
の素性情報が継承される。もし、この翻訳パターン中
に、変数の素性情報に関する条件が与えられていれば、
それを満たす変数のみが入れ子構造の入れ子となること
ができる。
引を付しておくことにより、その変数が別の翻訳パター
ン中に出現した場合でも、その変数の素性が参照され
る。例えば、原言語パターン<$N:1 を申請する:2>のよ
うに、変数$N:1を入れ子構造とする翻訳パターンでは、
変数$N:1と変数$NP:1は1という同じ索引19Cを持っ
ている。従って、上記の「特許」と「patent」という対
に置換可能である。この変数$N:1にはパターン「特許」
の素性情報が、また変数$NP:1にはパターン「patent」
の素性情報が継承される。もし、この翻訳パターン中
に、変数の素性情報に関する条件が与えられていれば、
それを満たす変数のみが入れ子構造の入れ子となること
ができる。
【0037】なお、上記の例は、索引を含んだ変数$N:
1、$NP:1との双方の一致を条件に、入れ子構造の入れ子
となるものである。しかしながら、原言語パターン中の
変数$N:1のみの一致を条件としてもよい。この場合、上
記の例よりも条件が緩和されているので、上記の例ほど
の最適な訳語生成ができないかもしれないが、処理速度
は向上する。これは翻訳の正確性と処理速度という相反
する事項のトレードオフの問題であり、どちらを条件と
してもよい。
1、$NP:1との双方の一致を条件に、入れ子構造の入れ子
となるものである。しかしながら、原言語パターン中の
変数$N:1のみの一致を条件としてもよい。この場合、上
記の例よりも条件が緩和されているので、上記の例ほど
の最適な訳語生成ができないかもしれないが、処理速度
は向上する。これは翻訳の正確性と処理速度という相反
する事項のトレードオフの問題であり、どちらを条件と
してもよい。
【0038】定数、変数、素性及び索引は、互いに区別
がつけばどんな表現でもよい。ここでは、変数は「$」
で始まり、索引は、変数または定数に「:」をつけ、数
字で表現している。
がつけばどんな表現でもよい。ここでは、変数は「$」
で始まり、索引は、変数または定数に「:」をつけ、数
字で表現している。
【0039】図2に示す原言語パターンが<$N:1 を申請
する:2>である翻訳パターンにおいて、原言語パターン
は変数$Sで、目的言語パターンが変数$VPで置換され
る。2という索引により、この変数$Sには、「申請す
る」という文字列の素性情報が付与され、変数$VPに
は、「file」という文字列の素性情報が付与される。こ
こで、+OBJは、変数$Sが、さらに目的語をもつという素
性情報19Bを有することを示し、+PPは、変数$VPが、
前置詞句をもつという素性情報19Bを有することを示
している。
する:2>である翻訳パターンにおいて、原言語パターン
は変数$Sで、目的言語パターンが変数$VPで置換され
る。2という索引により、この変数$Sには、「申請す
る」という文字列の素性情報が付与され、変数$VPに
は、「file」という文字列の素性情報が付与される。こ
こで、+OBJは、変数$Sが、さらに目的語をもつという素
性情報19Bを有することを示し、+PPは、変数$VPが、
前置詞句をもつという素性情報19Bを有することを示
している。
【0040】なお、目的言語パターン中の<file:2:+V?+
INF?>という表現は、 fileという表現が、「申請する」
という表現に対応するとともに、動詞(+V) かつ不定詞
(+INF)という素性を満足しなければならないという制約
条件19Dを示す。なお、素性情報は、例えば、単語に
該当する表現から、辞書引きにより名詞、単数、活用形
といった情報を対応させることで設定できる。従って、
制約条件は、ある素性が含まれるかどうかという単純な
制約から、素性条件の組み合わせた複雑な記述も可能で
ある。ただし、制約の充足を評価するためにかかる計算
時間が大きいと、翻訳に要する時間が増大する点に注意
する必要がある。
INF?>という表現は、 fileという表現が、「申請する」
という表現に対応するとともに、動詞(+V) かつ不定詞
(+INF)という素性を満足しなければならないという制約
条件19Dを示す。なお、素性情報は、例えば、単語に
該当する表現から、辞書引きにより名詞、単数、活用形
といった情報を対応させることで設定できる。従って、
制約条件は、ある素性が含まれるかどうかという単純な
制約から、素性条件の組み合わせた複雑な記述も可能で
ある。ただし、制約の充足を評価するためにかかる計算
時間が大きいと、翻訳に要する時間が増大する点に注意
する必要がある。
【0041】原言語パターン18Aは、文(sentence)、
節(clause)、句(phrase)あるいは、特定の品詞(part of
speech)、単語(word)のいずれの形でも表現してよい。
後述するように、原言語パターンには「$N:1は$N:2であ
る」のように、変数18Bを入れ子(nest)構造19Aと
する文、節、あるいは句が含まれているのが特徴であ
る。目的言語パターンにも、上記の原言語パターンの変
数と対をなす変数18Cが、原言語パターンを置換する
変数と同じ索引を有しつつ、同様に入れ子にされてい
る。
節(clause)、句(phrase)あるいは、特定の品詞(part of
speech)、単語(word)のいずれの形でも表現してよい。
後述するように、原言語パターンには「$N:1は$N:2であ
る」のように、変数18Bを入れ子(nest)構造19Aと
する文、節、あるいは句が含まれているのが特徴であ
る。目的言語パターンにも、上記の原言語パターンの変
数と対をなす変数18Cが、原言語パターンを置換する
変数と同じ索引を有しつつ、同様に入れ子にされてい
る。
【0042】このようにある翻訳パターンを変数の対で
表現することにより、原言語パターンと目的言語パター
ンの素性が異なる場合であっても、一つのパターンで表
現することが可能である。従って、一つの翻訳パターン
でカバーできる表現が広がるため、作成する翻訳パター
ンの数を削減できる。
表現することにより、原言語パターンと目的言語パター
ンの素性が異なる場合であっても、一つのパターンで表
現することが可能である。従って、一つの翻訳パターン
でカバーできる表現が広がるため、作成する翻訳パター
ンの数を削減できる。
【0043】このような変数の対を有する構造を用い
て、ある翻訳パターンを別の翻訳パターン中に入れた場
合には次のような効果がある。変数18B及び18Cを
用いた入れ子構造19Aは、非常に単純で柔軟性に富ん
でおり、深い言語学的、システム的知識のないユーザで
も容易に使いこなすことができる。ユーザーは新たな翻
訳パターンを、翻訳システムとの整合性を損なうことな
く、簡単に、翻訳パターンファイル13に登録、追加す
ることができる。
て、ある翻訳パターンを別の翻訳パターン中に入れた場
合には次のような効果がある。変数18B及び18Cを
用いた入れ子構造19Aは、非常に単純で柔軟性に富ん
でおり、深い言語学的、システム的知識のないユーザで
も容易に使いこなすことができる。ユーザーは新たな翻
訳パターンを、翻訳システムとの整合性を損なうことな
く、簡単に、翻訳パターンファイル13に登録、追加す
ることができる。
【0044】上記のような翻訳パターンは、いくつかの
変換規則のもとで、中学生の単語帳を作成するのと類似
した簡便な形式での登録が可能になる。例えば、英語か
ら日本語に翻訳するための翻訳パターンの登録は、例え
ば、以下のような規則に従うものとする。
変換規則のもとで、中学生の単語帳を作成するのと類似
した簡便な形式での登録が可能になる。例えば、英語か
ら日本語に翻訳するための翻訳パターンの登録は、例え
ば、以下のような規則に従うものとする。
【0045】(1) 翻訳パターンは、「原言語パターン =
目的言語パターン」で表現する。 (2) 英語動詞句の表現は、原言語パターンをtoで始め、
目的言語パターンは用言(動詞、形容詞、形容動詞) ま
たは、「名詞+だ」で終る。パターン全体を置換する変
数は、それぞれ、$VP,$Sとし、to直後の英語動詞、およ
び最後の日本語用言と索引により情報を共有する。前置
詞toは、取り除く。 (3) 英語形容詞句の表現は、原言語パターンをbeで始
め、目的言語パターンは用言(動詞、形容詞、形容動詞)
または、「名詞+だ」で終る。パターン全体を置換す
る変数は、それぞれ、$ADJP,$APとし、be直後の英語形
容詞、および最後の日本語用言と索引により情報を共有
する。be 動詞は、取り除く。 (4) それ以外の翻訳パターンは、すべて名詞句のパター
ンとする。パターン全体を置換する変数は、それぞれ、
$NP, $N とし、最後の単語と索引により情報を共有す
る。 (5) 変数は〜で表現し、パターンでの出現順に1,2,
3,... という索引をもつ。また、変数はすべて名詞句を
示す。
目的言語パターン」で表現する。 (2) 英語動詞句の表現は、原言語パターンをtoで始め、
目的言語パターンは用言(動詞、形容詞、形容動詞) ま
たは、「名詞+だ」で終る。パターン全体を置換する変
数は、それぞれ、$VP,$Sとし、to直後の英語動詞、およ
び最後の日本語用言と索引により情報を共有する。前置
詞toは、取り除く。 (3) 英語形容詞句の表現は、原言語パターンをbeで始
め、目的言語パターンは用言(動詞、形容詞、形容動詞)
または、「名詞+だ」で終る。パターン全体を置換す
る変数は、それぞれ、$ADJP,$APとし、be直後の英語形
容詞、および最後の日本語用言と索引により情報を共有
する。be 動詞は、取り除く。 (4) それ以外の翻訳パターンは、すべて名詞句のパター
ンとする。パターン全体を置換する変数は、それぞれ、
$NP, $N とし、最後の単語と索引により情報を共有す
る。 (5) 変数は〜で表現し、パターンでの出現順に1,2,
3,... という索引をもつ。また、変数はすべて名詞句を
示す。
【0046】この場合、「patent = 特許」、「to file
〜 = 〜を申請する」、「be subject to conditions =
条件に よる」という記述で、それぞれ、<patent:1,$
NP:1,$N:1,特許:1>, <file:1 $NP:2,$VP:1,$S:1,$NP:2
を 申請する :1>, <subject:1 to conditions, $ADJP:
1, $AP:1, 条件に よる :1> という翻訳パターンを定
義できる。このような記述は、ユーザーが逐一対話的に
入力してもよいし、テキストファイル形式で、翻訳パタ
ーン入力ファイル18をバッチ的に入力してもよい。
〜 = 〜を申請する」、「be subject to conditions =
条件に よる」という記述で、それぞれ、<patent:1,$
NP:1,$N:1,特許:1>, <file:1 $NP:2,$VP:1,$S:1,$NP:2
を 申請する :1>, <subject:1 to conditions, $ADJP:
1, $AP:1, 条件に よる :1> という翻訳パターンを定
義できる。このような記述は、ユーザーが逐一対話的に
入力してもよいし、テキストファイル形式で、翻訳パタ
ーン入力ファイル18をバッチ的に入力してもよい。
【0047】英語表現のように、名詞や動詞の性(gende
r)・数(number)情報が重要な言語では、正しい翻訳をす
るための情報を、従来の技術のような翻訳パターンで記
述することは困難であった。しかしながら、本発明で
は、索引と素性情報を利用することで、部分訳の生成の
ための特別な言語処理や、正確な文法に基づく機械翻訳
を併用しなくても、相当な範囲の表現をカバーできる。
また、従来の文法に相当する部分をほとんど翻訳パター
ンによって表現することも可能である。例えば、翻訳パ
ターン<$NP:1:+3SG? is OK, $S, $S, $N:1 は OKです>
では、、変数$NPが三人称単数現在(+3SG)の素性を有す
るときにのみ適用可能であるという制限条件を設けるこ
とで、英語表現において重要な、主語と動詞の一致(agr
eement)さえも正しく扱えうことが可能となる。
r)・数(number)情報が重要な言語では、正しい翻訳をす
るための情報を、従来の技術のような翻訳パターンで記
述することは困難であった。しかしながら、本発明で
は、索引と素性情報を利用することで、部分訳の生成の
ための特別な言語処理や、正確な文法に基づく機械翻訳
を併用しなくても、相当な範囲の表現をカバーできる。
また、従来の文法に相当する部分をほとんど翻訳パター
ンによって表現することも可能である。例えば、翻訳パ
ターン<$NP:1:+3SG? is OK, $S, $S, $N:1 は OKです>
では、、変数$NPが三人称単数現在(+3SG)の素性を有す
るときにのみ適用可能であるという制限条件を設けるこ
とで、英語表現において重要な、主語と動詞の一致(agr
eement)さえも正しく扱えうことが可能となる。
【0048】図3は本発明における翻訳処理のアルゴリ
ズムの一例を示す図である。最初に和文のテキストを入
力する(ステップ51)。このテキスト文は次に翻訳パ
ターン中の原言語パターンと比較照合される(ステップ
52)。入力の一部にマッチする原言語パターンが存在
すれば、この原言語パターンを翻訳パターンの対応する
変数に変換する(ステップ53〜54)。この処理を、
テキスト文の終りにおいて、テキスト文の終りまでを覆
う翻訳パターンが抽出されるまで繰り返す(ステップ5
5)。すなわち、テキスト文の長さと同じステップ数
で、パターンの終わりに到達できる翻訳パターンがある
かどうかを調べる。抽出された翻訳パターンが複数ある
場合には、パターンの数すなわち入れ子の数が最小の組
み合わせになるパターンを選択する。あるいは、選択の
ために予め、ユーザが各パターンにコストを付けておい
てもよい。
ズムの一例を示す図である。最初に和文のテキストを入
力する(ステップ51)。このテキスト文は次に翻訳パ
ターン中の原言語パターンと比較照合される(ステップ
52)。入力の一部にマッチする原言語パターンが存在
すれば、この原言語パターンを翻訳パターンの対応する
変数に変換する(ステップ53〜54)。この処理を、
テキスト文の終りにおいて、テキスト文の終りまでを覆
う翻訳パターンが抽出されるまで繰り返す(ステップ5
5)。すなわち、テキスト文の長さと同じステップ数
で、パターンの終わりに到達できる翻訳パターンがある
かどうかを調べる。抽出された翻訳パターンが複数ある
場合には、パターンの数すなわち入れ子の数が最小の組
み合わせになるパターンを選択する。あるいは、選択の
ために予め、ユーザが各パターンにコストを付けておい
てもよい。
【0049】最後に、抽出された原言語パターンを翻訳
パターンに従って目的言語 パターンに変換することに
より、英文を組み立てる(ステップ58)。もしステッ
プ53において、入力テキストの一部にマッチする原言
語パターンが存在しなければ、通常の文法解析に基づく
機械翻訳によって処理を行なう(ステップ59)。
パターンに従って目的言語 パターンに変換することに
より、英文を組み立てる(ステップ58)。もしステッ
プ53において、入力テキストの一部にマッチする原言
語パターンが存在しなければ、通常の文法解析に基づく
機械翻訳によって処理を行なう(ステップ59)。
【0050】原言語パターンの入れ子を構成するとき
に、目的言語パターンも同時に構成されていれば、翻訳
文の生成は即時に行なえる。また、入力テキストとのマ
ッチは、原言語パターン側のみを用いて行ない、抽出さ
れた原言語パターンから、対応する目的言語パターンを
順次抽出して英文を生成することも可能である。後者の
方法は、さらに、原言語パターンに定められた制約を無
視して、既知の文脈自由言語の解析アルゴリズムを適用
し、絞り込まれた原言語パターンの候補から、制約を満
足する原言語パターン、さらに目的言語パターンを抽出
する方法へも応用できる。以下では、この最後の方法に
ついて述べる。
に、目的言語パターンも同時に構成されていれば、翻訳
文の生成は即時に行なえる。また、入力テキストとのマ
ッチは、原言語パターン側のみを用いて行ない、抽出さ
れた原言語パターンから、対応する目的言語パターンを
順次抽出して英文を生成することも可能である。後者の
方法は、さらに、原言語パターンに定められた制約を無
視して、既知の文脈自由言語の解析アルゴリズムを適用
し、絞り込まれた原言語パターンの候補から、制約を満
足する原言語パターン、さらに目的言語パターンを抽出
する方法へも応用できる。以下では、この最後の方法に
ついて述べる。
【0051】ステップ52における、テキスト文と翻訳
パターンとの照合は、入力文を左から一文字ずつ調べて
いくことによって行なわれる。以下この処理のアルゴリ
ズムを、テキスト文として「接点を改良する」を例文に
とりながら、図4乃至図6によって詳細に説明する。ま
ず、図4に翻訳パターンの中でこのテキスト文に関連す
る翻訳パターンが示されている。また、図5には翻訳パ
ターンの内部表現を、インデックス木と呼ぶ木構造20
に展開したものが示されている。この図において、制約
部分及び索引を除いた各文字及び変数を読み込んだ直後
の状態が、その直ぐ右側の各ノード(0乃至16)に対応
している。また、原言語パターンの終りに当たるノード
に、対応する原言語パターンへのポインタが含まれてい
る。変数は必ずしも一文字で表現されるものではない
が、インデックス木では、それぞれ他のどの文字とも互
いに異なる特殊な文字として表現される。
パターンとの照合は、入力文を左から一文字ずつ調べて
いくことによって行なわれる。以下この処理のアルゴリ
ズムを、テキスト文として「接点を改良する」を例文に
とりながら、図4乃至図6によって詳細に説明する。ま
ず、図4に翻訳パターンの中でこのテキスト文に関連す
る翻訳パターンが示されている。また、図5には翻訳パ
ターンの内部表現を、インデックス木と呼ぶ木構造20
に展開したものが示されている。この図において、制約
部分及び索引を除いた各文字及び変数を読み込んだ直後
の状態が、その直ぐ右側の各ノード(0乃至16)に対応
している。また、原言語パターンの終りに当たるノード
に、対応する原言語パターンへのポインタが含まれてい
る。変数は必ずしも一文字で表現されるものではない
が、インデックス木では、それぞれ他のどの文字とも互
いに異なる特殊な文字として表現される。
【0052】図6において、まず最初に、入力文の長さ
をnとする(ステップ81)。例文の場合、n=7であ
る。各文字位置iに対して、状態集合s[i] を対応さ
せる。文の解析が始まる初期状態では、どのパターンの
照合も始まっていないので、s[0] ={<0,0>}である。
解析は、各文字位置 i=0,1,...,n に対して、 scan
(i) と complete(i) という二つのオペレーション
を実行していくことによって行なわれる(ステップ83
〜85)。状態集合の要素は、あるパターンが途中まで
の照合した状態を表す、<p,f>という2つ組であ
る。pは、インデックス木のノードを示し、fはそのパ
ターンの照合が文中のどの位置から始まったかを示す。
をnとする(ステップ81)。例文の場合、n=7であ
る。各文字位置iに対して、状態集合s[i] を対応さ
せる。文の解析が始まる初期状態では、どのパターンの
照合も始まっていないので、s[0] ={<0,0>}である。
解析は、各文字位置 i=0,1,...,n に対して、 scan
(i) と complete(i) という二つのオペレーション
を実行していくことによって行なわれる(ステップ83
〜85)。状態集合の要素は、あるパターンが途中まで
の照合した状態を表す、<p,f>という2つ組であ
る。pは、インデックス木のノードを示し、fはそのパ
ターンの照合が文中のどの位置から始まったかを示す。
【0053】入力文字xに対して、あるノードpからイン
デックス木をたどったノードp' をp'=shift(p,x)
と定義する。例えば、図7で、shift(7,す) =15 で
ある。インデックス木の各ノードからでるアークを、入
力アルファベットのサイズの配列を使ってインデクシン
グするか、ハッシュすれば、インデックス木をたどるオ
ペレーション shift(p,x) は、高速に実行すること
ができる。
デックス木をたどったノードp' をp'=shift(p,x)
と定義する。例えば、図7で、shift(7,す) =15 で
ある。インデックス木の各ノードからでるアークを、入
力アルファベットのサイズの配列を使ってインデクシン
グするか、ハッシュすれば、インデックス木をたどるオ
ペレーション shift(p,x) は、高速に実行すること
ができる。
【0054】図7にscan(i)処理の詳細を示す。すな
わち、 scan(i) は、 s[i] の個々の状態 <p,f>に
対し、入力文の i+1 文字目 xi+1 がパターンに照合す
るかをshift(p,xi+1)によって調べる(ステップ91
〜92)。照合するならば、<shift(p,xi+1),f> を
文字位置 i+1 の状態集合 s[i+1] に加える(ステップ
93〜94)。
わち、 scan(i) は、 s[i] の個々の状態 <p,f>に
対し、入力文の i+1 文字目 xi+1 がパターンに照合す
るかをshift(p,xi+1)によって調べる(ステップ91
〜92)。照合するならば、<shift(p,xi+1),f> を
文字位置 i+1 の状態集合 s[i+1] に加える(ステップ
93〜94)。
【0055】complete(i)処理の詳細を図8に示す。
complete(i) は、s[i] の個々の状態<p,f> に対
し、 p がパターンの終りに対応するならば、そのパタ
ーンの置き換え変数を y とする(ステッフ゜101〜
102)。そして、そのパターンの開始位置 f にもど
って、 y でパターン照合を試す。すなわち、s[f] の各
要素 <p',f'> に対して、 shift(p',y) を試し、も
しその照合が成功すれば、 <shift(p',y),f'> を s
[i] に加える(ステッフ゜104〜105)。
complete(i) は、s[i] の個々の状態<p,f> に対
し、 p がパターンの終りに対応するならば、そのパタ
ーンの置き換え変数を y とする(ステッフ゜101〜
102)。そして、そのパターンの開始位置 f にもど
って、 y でパターン照合を試す。すなわち、s[f] の各
要素 <p',f'> に対して、 shift(p',y) を試し、も
しその照合が成功すれば、 <shift(p',y),f'> を s
[i] に加える(ステッフ゜104〜105)。
【0056】「接点を改良する」というテキスト文に対
するアルゴリズムの実行結果を図9に示す。図では各文
字位置 i に対する s[i]の内容が示されている。
文字位置 i=1において、scan(i)処理の結果、ノー
ド0から始まりノード12で終わる部分パターン<1
2,0>、すなわち「接」が抽出されている。文字位置
i=2では、ノード0から始まりノード13で終わる部
分パターン<13,0>、すなわち「接点」が抽出され
ている。ノード13はパターンの終りに対応する(*)
を持つので、次の文字位置 i=3では、「接点」が変
数「$NP」に置き換えられた部分パターン<1,0>がs
[2]に追加された。従って、ノード0から始まりノード
2で終わる部分パターン<2,0>、すなわち「接点
を」が抽出されている。以下、同様にして最終文字位置
までパターン照合が繰り返されている。
するアルゴリズムの実行結果を図9に示す。図では各文
字位置 i に対する s[i]の内容が示されている。
文字位置 i=1において、scan(i)処理の結果、ノー
ド0から始まりノード12で終わる部分パターン<1
2,0>、すなわち「接」が抽出されている。文字位置
i=2では、ノード0から始まりノード13で終わる部
分パターン<13,0>、すなわち「接点」が抽出され
ている。ノード13はパターンの終りに対応する(*)
を持つので、次の文字位置 i=3では、「接点」が変
数「$NP」に置き換えられた部分パターン<1,0>がs
[2]に追加された。従って、ノード0から始まりノード
2で終わる部分パターン<2,0>、すなわち「接点
を」が抽出されている。以下、同様にして最終文字位置
までパターン照合が繰り返されている。
【0057】パターンの照合が成功したかどうかは、最
終文字位置n(この場合 n=7 )において、文頭から始
まり、この位置で終るパターンがあったかどうかで決ま
る。この例では、<11*, 0>と<5*, 0>がそれに当
たる。また、図の中には各状態が、どの状態からのshif
t()オペレーションで生成されたかが、矢印で示され
ている。例えば、<11*, 0>のパターンは、ノード0
−12−13−0−1−2−8−9−10−11の経路
を辿る。<5*, 0>のパターンは、ノード0−12−1
3−0−1−2−3−4−5の経路を辿ったことが分
る。アルゴリズムの中でこの情報を保持しておけば、解
析終了後に、矢印をたどってどのパターンが文中のどの
部分に照合したかを調べることができる。
終文字位置n(この場合 n=7 )において、文頭から始
まり、この位置で終るパターンがあったかどうかで決ま
る。この例では、<11*, 0>と<5*, 0>がそれに当
たる。また、図の中には各状態が、どの状態からのshif
t()オペレーションで生成されたかが、矢印で示され
ている。例えば、<11*, 0>のパターンは、ノード0
−12−13−0−1−2−8−9−10−11の経路
を辿る。<5*, 0>のパターンは、ノード0−12−1
3−0−1−2−3−4−5の経路を辿ったことが分
る。アルゴリズムの中でこの情報を保持しておけば、解
析終了後に、矢印をたどってどのパターンが文中のどの
部分に照合したかを調べることができる。
【0058】この例の場合、 (接点)を改良する (接点)を(改良)する という2つの照合が可能だったことがわかる。ただし、
()内は、そこが部分パターンにマッチしたことを示
す。
()内は、そこが部分パターンにマッチしたことを示
す。
【0059】このようにして、原言語パターンの制約
や、索引による情報の共有を除き、入力テキスト文とマ
ッチする原言語パターンの抽出が終ると、次に、照合結
果から、上記の制約や目的言語の変数の対が正しく含ま
れているものを特定する。
や、索引による情報の共有を除き、入力テキスト文とマ
ッチする原言語パターンの抽出が終ると、次に、照合結
果から、上記の制約や目的言語の変数の対が正しく含ま
れているものを特定する。
【0060】上記例では、 ( 接点 ) を改良する という照合に使われる翻訳パターン182は、$NPに、
その表現の意味するものが道具である(+DEVICE?)という
制約と、この$NPと対になる目的言語パターンの変数が$
Nであるという索引が付与されている。(接点)の部分に
マッチしている翻訳パターン185は、この制約を満足
し、求められる変数の対を与えるので、正しい解であ
る。
その表現の意味するものが道具である(+DEVICE?)という
制約と、この$NPと対になる目的言語パターンの変数が$
Nであるという索引が付与されている。(接点)の部分に
マッチしている翻訳パターン185は、この制約を満足
し、求められる変数の対を与えるので、正しい解であ
る。
【0061】一方、翻訳パターン181による ( 接点 ) を ( 改良 ) する の方は、制約の記述はないが、$NPと$N、および$VPと$V
Pという変数の対に関する条件が含まれる。これは、部
分訳に相当する翻訳パターン185および184によっ
て、それぞれ満足される。従って、両方の照合結果と
も、翻訳パターンの制約と変数の対を満足する、正しい
翻訳候補であることがわかる。
Pという変数の対に関する条件が含まれる。これは、部
分訳に相当する翻訳パターン185および184によっ
て、それぞれ満足される。従って、両方の照合結果と
も、翻訳パターンの制約と変数の対を満足する、正しい
翻訳候補であることがわかる。
【0062】このように、一般に照合結果は複数ありう
る。これらの中からどれをとるかという方策については
様々なものが考えられる。もっとも簡単には、より一致
度の大きいパターンをとるという観点から、使われたパ
ターン数が少ないものを優先すればよい。上記例では、
図5から明らかなように、「 ( 接点 ) を ( 改良 )す
る」が3個のパターン(181、183、185)を使
っているのに対して、「 ( 接点 ) を ( 改良 ) す
る」は2個のパターン(182、185)を使ってい
る。従って、後者の「 ( 接点 ) を ( 改良 ) する」
の方を優先して選択するものとする。これ以外にも、翻
訳パターンにコストを設定し、例えば、翻訳パターン1
82は、より限定的な文の翻訳パターンであるので低い
コストを付与し、翻訳パターン181は、より一般的な
翻訳パターンと考え、やや高いコストを付与し、それ以
外の単語訳を与えるパターンには一様なコストを付与す
ることで、これらの照合された翻訳パターンのコストの
総和が低いもの、すなわちより限定的な訳を優先する方
法も、非常に効果的である。
る。これらの中からどれをとるかという方策については
様々なものが考えられる。もっとも簡単には、より一致
度の大きいパターンをとるという観点から、使われたパ
ターン数が少ないものを優先すればよい。上記例では、
図5から明らかなように、「 ( 接点 ) を ( 改良 )す
る」が3個のパターン(181、183、185)を使
っているのに対して、「 ( 接点 ) を ( 改良 ) す
る」は2個のパターン(182、185)を使ってい
る。従って、後者の「 ( 接点 ) を ( 改良 ) する」
の方を優先して選択するものとする。これ以外にも、翻
訳パターンにコストを設定し、例えば、翻訳パターン1
82は、より限定的な文の翻訳パターンであるので低い
コストを付与し、翻訳パターン181は、より一般的な
翻訳パターンと考え、やや高いコストを付与し、それ以
外の単語訳を与えるパターンには一様なコストを付与す
ることで、これらの照合された翻訳パターンのコストの
総和が低いもの、すなわちより限定的な訳を優先する方
法も、非常に効果的である。
【0063】照合結果から対応する翻訳文を生成するこ
とは容易である。図5における個々の原言語パターンの
各部分を翻訳パターン(182,185)に沿って目的
言語パターンで置き換えればよい。このようにして、
「Improve point of contact in productivity.」とい
う翻訳文が得られる。本発明のパターン照合アルゴリズ
ムは、大量のパターンに対しても効率的に動くので、シ
ステム全体の応答性を損なうこともない。ただし、一般
には 1 つの入力テキスト文に対して、非常に多くの翻
訳候補が存在したり、制約の評価に多大な時間を要する
ことがあるので、全体として効率的な翻訳システムを実
現するためには、上記のような評価が容易な制約の記述
のみを許したり、部分訳を与える翻訳パターンの候補を
上位 N 個のみ保持するといった高速化も不可欠な要素
である。
とは容易である。図5における個々の原言語パターンの
各部分を翻訳パターン(182,185)に沿って目的
言語パターンで置き換えればよい。このようにして、
「Improve point of contact in productivity.」とい
う翻訳文が得られる。本発明のパターン照合アルゴリズ
ムは、大量のパターンに対しても効率的に動くので、シ
ステム全体の応答性を損なうこともない。ただし、一般
には 1 つの入力テキスト文に対して、非常に多くの翻
訳候補が存在したり、制約の評価に多大な時間を要する
ことがあるので、全体として効率的な翻訳システムを実
現するためには、上記のような評価が容易な制約の記述
のみを許したり、部分訳を与える翻訳パターンの候補を
上位 N 個のみ保持するといった高速化も不可欠な要素
である。
【0064】この発明で述べたパターンに基づく翻訳
は、既存の翻訳システムの前処理とし、パターン照合に
成功した場合はそのパターンに基づく翻訳を採用し、パ
ターン照合が失敗した時に翻訳システムを起動するよう
にしておくと有効である。すなわち、本発明の翻訳パタ
ーンを、一般の機械翻訳システムにおいてカスタマイズ
の難しい分野について用意し、機械翻訳の前処理として
用いるものである。これによって、翻訳システムで対応
しきれない特殊な表現に迅速に対応することができる。
もちろん、この発明で述べた翻訳パターンは、既存の翻
訳システムに採用されている文法の記述能力に比べても
遜色のない記述能力を有するので、すべての文を翻訳す
るような翻訳パターンを構築することも可能である。こ
の場合には、ユーザーが登録する翻訳パターンは、翻訳
パターンで書かれた文法と直接統合され、単純な辞書よ
りもはるかに大きな範囲の表現を翻訳できるので、従来
の翻訳システムでは実現できなかったような学習能力を
実現できる。
は、既存の翻訳システムの前処理とし、パターン照合に
成功した場合はそのパターンに基づく翻訳を採用し、パ
ターン照合が失敗した時に翻訳システムを起動するよう
にしておくと有効である。すなわち、本発明の翻訳パタ
ーンを、一般の機械翻訳システムにおいてカスタマイズ
の難しい分野について用意し、機械翻訳の前処理として
用いるものである。これによって、翻訳システムで対応
しきれない特殊な表現に迅速に対応することができる。
もちろん、この発明で述べた翻訳パターンは、既存の翻
訳システムに採用されている文法の記述能力に比べても
遜色のない記述能力を有するので、すべての文を翻訳す
るような翻訳パターンを構築することも可能である。こ
の場合には、ユーザーが登録する翻訳パターンは、翻訳
パターンで書かれた文法と直接統合され、単純な辞書よ
りもはるかに大きな範囲の表現を翻訳できるので、従来
の翻訳システムでは実現できなかったような学習能力を
実現できる。
【0065】この発明で述べたパターンに基づく翻訳
は、英語やドイツ語を日本語に翻訳する翻訳システムに
も使えることは、言うまでもない。また、自然言語間の
翻訳以外にも利用できる。その一例として、図10は、
自然言語風の入力からコンピュータのコマンドを作成す
るために用いる変換テーブルの例を示すものである。@
は、ファイルの名前の前に相当する8桁までの英文字名
である。例えば"WEIGHT.TXT"のようにファイル名を記述
することができる。さらに、入れ子構造のパターンと組
み合わせることにより、自然言語風の入力から"COPYFIL
E WEIGHT.TXT TOHEALTH.TXT"のようなコマンドを作成す
ることもできる。
は、英語やドイツ語を日本語に翻訳する翻訳システムに
も使えることは、言うまでもない。また、自然言語間の
翻訳以外にも利用できる。その一例として、図10は、
自然言語風の入力からコンピュータのコマンドを作成す
るために用いる変換テーブルの例を示すものである。@
は、ファイルの名前の前に相当する8桁までの英文字名
である。例えば"WEIGHT.TXT"のようにファイル名を記述
することができる。さらに、入れ子構造のパターンと組
み合わせることにより、自然言語風の入力から"COPYFIL
E WEIGHT.TXT TOHEALTH.TXT"のようなコマンドを作成す
ることもできる。
【0066】
【発明の効果】本発明では、ユーザーが用意した翻訳パ
ターンを効率良く検索し、そのパターンに基づいて翻訳
文を生成することができる。翻訳パターンは、非常に単
純で柔軟性に富んだ形をしているので、言語学的、シス
テム的知識のないユーザーでも、本体の翻訳システムの
整合性を損なうことなく新たなパターンを追加すること
ができる。また、木構造のインデックスを用いたパター
ン照合アルゴリズムは大量のパターンに対しても効率的
に動くので、システム全体の応答性を損なうこともな
い。
ターンを効率良く検索し、そのパターンに基づいて翻訳
文を生成することができる。翻訳パターンは、非常に単
純で柔軟性に富んだ形をしているので、言語学的、シス
テム的知識のないユーザーでも、本体の翻訳システムの
整合性を損なうことなく新たなパターンを追加すること
ができる。また、木構造のインデックスを用いたパター
ン照合アルゴリズムは大量のパターンに対しても効率的
に動くので、システム全体の応答性を損なうこともな
い。
【図1】実施例における機械翻訳システムの全体構成を
示すブロック図である。
示すブロック図である。
【図2】本発明の翻訳パターンの一例を示す図である。
【図3】本発明における翻訳処理のアルゴリズムの一例
を示す図である。
を示す図である。
【図4】翻訳パターンの中のテキスト文に関連する部分
を示す図である。
を示す図である。
【図5】翻訳パターンに対応する木構造を示す図であ
る。
る。
【図6】テキスト文と翻訳パターンとの照合のアルゴリ
ズムを示す図である。
ズムを示す図である。
【図7】scan(i)処理の詳細を示す図である。
【図8】complete(i)処理の詳細を示す図である。
【図9】翻訳パターンに対するアルゴリズムの実行結果
を示す図である。
を示す図である。
【図10】本発明の他の実施例になる、自然言語風の入
力からコンピュータのコマンドを作成するために用いる
変換テーブルの例を示す図である。
力からコンピュータのコマンドを作成するために用いる
変換テーブルの例を示す図である。
【図11】従来の技術で用いられている翻訳パターンを
示す図である。
示す図である。
1 入力手段 4 プロセッサ 5 翻訳パターン登録処理部 6 入力処理部 7 比較処理部 8 訳文生成処理部 9 機械翻訳処理部 12 外部記憶装置 13 翻訳パターンファイル 17 表示示手段 18 翻訳パターン入力ファイル
Claims (11)
- 【請求項1】原言語で記載された文の一部分を翻訳パタ
ーンに対応づけることで、その部分を目的言語に訳して
いくことにより、原言語で記載された文を目的言語に翻
訳する翻訳方法において、 原言語パターンと、前記原言語パターンに対応した目的
言語パターンと、前記原言語パターンに対応した変数
と、前記目的言語パターンに対応した変数とを有する翻
訳パターンを複数用意するステップと、 原言語で記載された文の一部分が、一の原言語パターン
と一致する場合、当該原言語パターンを第1の変数に置
換すると共に、当該原言語パターンに対応する目的言語
パターンを第2の変数で表現するステップと、 前記第1の変数に置換された前記文の一部分が、少なく
とも前記第1の変数を組み込んだ入れ子構造の他の原言
語パターンと一致する場合、当該原言語パターンを第3
の変数に置換すると共に、当該原言語パターンに対応
し、第2の変数を組み込んだ入れ子構造の目的言語パタ
ーンを第4の変数で表現するステップとを有することを
特徴とする翻訳方法。 - 【請求項2】原言語で記載された文の一部分を翻訳パタ
ーンに対応づけることで、その部分を目的言語に訳して
いくことにより、原言語で記載された文を目的言語に翻
訳する翻訳方法において、 原言語パターンと、前記原言語パターンに対応した目的
言語パターンと、前記原言語パターンに対応した変数
と、前記目的言語パターンに対応した変数とを有する翻
訳パターンを複数用意するステップと、 原言語で記載された文の一部分が、一の原言語パターン
と一致する場合、当該原言語パターンを第1の変数に置
換すると共に、当該原言語パターンに対応する目的言語
パターンを第2の変数で表現するステップと、 前記第1の変数に置換された前記文の一部分が、前記第
1の変数を組み込んだ入れ子構造の他の原言語パターン
と一致し、かつ当該他の原言語パターンに対応した目的
言語パターンが、前記第2の変数を組み込んだ入れ子構
造である場合、当該原言語パターンを第3の変数に置換
すると共に、当該原言語パターンに対応た目的言語パタ
ーンを第4の変数で表現するステップとを有することを
特徴とする翻訳方法。 - 【請求項3】前記原言語パターンは及び前記目的言語パ
ターンは、パターンの特徴を示す素性情報を有してお
り、前記変数は、当該置換するパターンの前記素性情報
が付与されていることを特徴とする請求項1または2に
記載の翻訳方法。 - 【請求項4】前記原言語パターンを置換した変数及び前
記目的言語パターンを表現した変数は索引を含んでお
り、前記変数は、前記索引に基づいて、当該パターンの
前記素性情報が付与されていることを特徴とする請求項
3に記載の方法。 - 【請求項5】一の翻訳パターンにおいて、前記原言語パ
ターンが有する素性情報は、前記目的言語パターンが有
する素性情報と異なる内容を有していることを特徴とす
る請求項3に記載の翻訳方法。 - 【請求項6】前記第1の変数に置換された前記文の一部
分が、前記変数を組み込んだ入れ子構造の他の原言語パ
ターンと一致するかどうかは、前記変数に付与された素
性情報を含めて判断されることを特徴とする請求項4に
記載の翻訳方法。 - 【請求項7】原言語で記載された文の一部分を翻訳パタ
ーンに対応づけることで、その部分を目的言語に訳して
いくことにより、原言語で記載された文を目的言語に翻
訳する翻訳システムにおいて、 原言語パターンと、前記原言語パターンに対応した目的
言語パターンと、前記原言語パターンに対応した変数
と、前記目的言語パターンに対応した変数とを有する翻
訳パターンを記憶する記憶手段と、 原言語で記載された文の一部分が、一の原言語パターン
と一致する場合、当該原言語パターンを第1の変数に置
換すると共に、当該原言語パターンに対応する目的言語
パターンを第2の変数で表現する第1の手段と、 前記第1の変数に置換された前記文の一部分が、少なく
とも前記第1の変数を組み込んだ入れ子構造の他の原言
語パターンと一致する場合、当該原言語パターンを第3
の変数に置換すると共に、当該原言語パターンに対応
し、第2の変数を組み込んだ入れ子構造の目的言語パタ
ーンを第4の変数で表現する第2の手段とを有すること
を特徴とする翻訳システム。 - 【請求項8】上記第2の手段は、前記第1の変数に置換
された前記文の一部分が、前記第1の変数を組み込んだ
入れ子構造の他の原言語パターンと一致し、かつ当該他
の原言語パターンに対応した目的言語パターンが、前記
第2の変数を組み込んだ入れ子構造である場合に、前記
原言語パターンを前記第3の変数に置換し、かつ前記目
的言語パターンを前記第4の変数で表現することを特徴
とする請求項7に記載の翻訳システム。 - 【請求項9】ユーザが前記翻訳パターンを作成でき、当
該翻訳パターンを上記記憶する手段に登録するパターン
登録手段をさらに有することを特徴とする請求項7に記
載の翻訳システム。 - 【請求項10】原言語で記載された文の一部分を翻訳パ
ターンに対応づけることで、その部分を目的言語に訳し
ていくことにより、原言語で記載された文を目的言語に
翻訳するプログラムを記憶した記憶媒体において、 前記プログラムには、原言語パターンと、前記原言語パ
ターンに対応した目的言語パターンと、前記原言語パタ
ーンに対応した変数と、前記目的言語パターンに対応し
た変数とを有する翻訳パターンが用意されており、、 原言語で記載された文の一部分が、一の原言語パターン
と一致する場合、当該原言語パターンを第1の変数に置
換すると共に、当該原言語パターンに対応する目的言語
パターンを第2の変数で表現する第1の命令手段と、 前記第1の変数に置換された前記文の一部分が、少なく
とも前記第1の変数を組み込んだ入れ子構造の他の原言
語パターンと一致する場合、当該原言語パターンを第3
の変数に置換すると共に、当該原言語パターンに対応
し、第2の変数を組み込んだ入れ子構造の目的言語パタ
ーンを第4の変数で表現する第2の命令手段とを有する
ことを特徴とするプログラムを記憶した記憶媒体。 - 【請求項11】原言語で記載された文の一部分を翻訳パ
ターンに対応づけることで、その部分を目的言語に訳し
ていくことにより、原言語で記載された文を目的言語に
翻訳するシステムで、ある翻訳パターンを構成する方法
において、 原言語パターンを形成するステップと、 前記原言語パターンに対応した目的言語パターンを形成
するステップと、 前記原言語パターンに、索引を含む一の変数を対応付け
るステップと、 前記目的言語パターンに索引を含む他の変数を対応付け
るステップとを有し、 前記一の変数の索引により、前記原言語パターンの素性
情報が、前記一の変数に付与されると共に、前記他の変
数の索引により、前記目的言語パターンの素性情報が、
前記他の変数に付与されることを特徴とする翻訳パター
ンの形成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8161799A JPH1011447A (ja) | 1996-06-21 | 1996-06-21 | パターンに基づく翻訳方法及び翻訳システム |
TW085115371A TW325544B (en) | 1996-06-21 | 1996-12-12 | Translation method and translation system based on pattern |
US08/879,480 US5895446A (en) | 1996-06-21 | 1997-06-20 | Pattern-based translation method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8161799A JPH1011447A (ja) | 1996-06-21 | 1996-06-21 | パターンに基づく翻訳方法及び翻訳システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1011447A true JPH1011447A (ja) | 1998-01-16 |
Family
ID=15742141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8161799A Pending JPH1011447A (ja) | 1996-06-21 | 1996-06-21 | パターンに基づく翻訳方法及び翻訳システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US5895446A (ja) |
JP (1) | JPH1011447A (ja) |
TW (1) | TW325544B (ja) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007105615A1 (ja) * | 2006-03-10 | 2007-09-20 | Nec Corporation | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7624020B2 (en) | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US7624005B2 (en) | 2002-03-28 | 2009-11-24 | University Of Southern California | Statistical machine translation |
US7698125B2 (en) | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US7711545B2 (en) | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7813918B2 (en) | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
WO2011108330A1 (ja) * | 2010-03-02 | 2011-09-09 | 有限会社サイバープロ | 自然言語文変換装置,方法,およびプログラム |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8977536B2 (en) | 2004-04-16 | 2015-03-10 | University Of Southern California | Method and system for translating information with a higher probability of a correct translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3887867B2 (ja) | 1997-02-26 | 2007-02-28 | 株式会社日立製作所 | 構造化文書の登録方法 |
EP1266313A2 (en) | 1999-03-19 | 2002-12-18 | Trados GmbH | Workflow management system |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7110938B1 (en) * | 1999-09-17 | 2006-09-19 | Trados, Inc. | E-services translation portal system |
US7346488B2 (en) * | 2000-07-10 | 2008-03-18 | Fujitsu Limited | Automatic translator and computer-readable storage medium having automatic translation program recorded thereon |
WO2002054279A1 (en) * | 2001-01-04 | 2002-07-11 | Agency For Science, Technology And Research | Improved method of text similarity measurement |
US7904595B2 (en) * | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
AUPR329501A0 (en) * | 2001-02-22 | 2001-03-22 | Worldlingo, Inc | Translation information segment |
US7113960B2 (en) | 2002-08-22 | 2006-09-26 | International Business Machines Corporation | Search on and search for functions in applications with varying data types |
US20040098250A1 (en) * | 2002-11-19 | 2004-05-20 | Gur Kimchi | Semantic search system and method |
US7524191B2 (en) * | 2003-09-02 | 2009-04-28 | Rosetta Stone Ltd. | System and method for language instruction |
KR100542755B1 (ko) * | 2003-09-15 | 2006-01-20 | 한국전자통신연구원 | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 |
US20100262621A1 (en) * | 2004-03-05 | 2010-10-14 | Russ Ross | In-context exact (ice) matching |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
JP4404211B2 (ja) * | 2005-03-14 | 2010-01-27 | 富士ゼロックス株式会社 | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
JP4256891B2 (ja) * | 2006-10-27 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳の精度を向上させる技術 |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
JP2010055235A (ja) * | 2008-08-27 | 2010-03-11 | Fujitsu Ltd | 翻訳支援プログラム、及び該システム |
US8547347B2 (en) | 2008-09-26 | 2013-10-01 | Htc Corporation | Method for generating multiple windows frames, electronic device thereof, and computer program product using the method |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
WO2011050494A1 (en) * | 2009-10-29 | 2011-05-05 | Google Inc. | Generating input suggestions |
WO2011137386A1 (en) * | 2010-04-30 | 2011-11-03 | Orbis Technologies, Inc. | Systems and methods for semantic search, content correlation and visualization |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US9430449B2 (en) | 2012-03-30 | 2016-08-30 | Sdl Plc | Systems, methods, and media for managing editable previews of webpages |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US9436681B1 (en) * | 2013-07-16 | 2016-09-06 | Amazon Technologies, Inc. | Natural language translation techniques |
CN104281649B (zh) * | 2014-09-09 | 2017-04-19 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
CN107766335A (zh) * | 2016-08-23 | 2018-03-06 | 耿诚 | 一种待翻译软件的翻译方法及装置 |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US20220335227A1 (en) * | 2021-04-20 | 2022-10-20 | Deeptranslate Limited | Machine translation guided by reference documents |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
JPS60159970A (ja) * | 1984-01-30 | 1985-08-21 | Hitachi Ltd | 情報蓄積検索方式 |
DE4135261C1 (ja) * | 1991-10-25 | 1993-03-18 | International Business Machines Corp., Armonk, N.Y., Us | |
US5267156A (en) * | 1991-12-05 | 1993-11-30 | International Business Machines Corporation | Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor |
JP2880601B2 (ja) * | 1992-01-22 | 1999-04-12 | シャープ株式会社 | 言語処理装置 |
JP3189186B2 (ja) * | 1992-03-23 | 2001-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | パターンに基づく翻訳装置 |
JP2745370B2 (ja) * | 1993-02-23 | 1998-04-28 | 日本アイ・ビー・エム株式会社 | 機械翻訳方法及び機械翻訳装置 |
-
1996
- 1996-06-21 JP JP8161799A patent/JPH1011447A/ja active Pending
- 1996-12-12 TW TW085115371A patent/TW325544B/zh active
-
1997
- 1997-06-20 US US08/879,480 patent/US5895446A/en not_active Expired - Fee Related
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7624005B2 (en) | 2002-03-28 | 2009-11-24 | University Of Southern California | Statistical machine translation |
US7711545B2 (en) | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7698125B2 (en) | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8977536B2 (en) | 2004-04-16 | 2015-03-10 | University Of Southern California | Method and system for translating information with a higher probability of a correct translation |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US7624020B2 (en) | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
JP5099367B2 (ja) * | 2006-03-10 | 2012-12-19 | 日本電気株式会社 | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム |
US8583435B2 (en) | 2006-03-10 | 2013-11-12 | Nec Corporation | Request content identification system, request content identification method using natural language, and program |
WO2007105615A1 (ja) * | 2006-03-10 | 2007-09-20 | Nec Corporation | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
WO2011108330A1 (ja) * | 2010-03-02 | 2011-09-09 | 有限会社サイバープロ | 自然言語文変換装置,方法,およびプログラム |
JP5662995B2 (ja) * | 2010-03-02 | 2015-02-04 | 有限会社サイバープロ | 自然言語文変換装置、方法、およびプログラム |
US10984429B2 (en) | 2010-03-09 | 2021-04-20 | Sdl Inc. | Systems and methods for translating textual content |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10402498B2 (en) | 2012-05-25 | 2019-09-03 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
Also Published As
Publication number | Publication date |
---|---|
US5895446A (en) | 1999-04-20 |
TW325544B (en) | 1998-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH1011447A (ja) | パターンに基づく翻訳方法及び翻訳システム | |
Khan et al. | A novel natural language processing (NLP)–based machine translation model for English to Pakistan sign language translation | |
JP3189186B2 (ja) | パターンに基づく翻訳装置 | |
Trujillo | Translation engines: techniques for machine translation | |
US4502128A (en) | Translation between natural languages | |
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
Bermel | Context and the Lexicon in the Development of Russian Aspect | |
JPS62163173A (ja) | 機械翻訳方法 | |
JPS6299865A (ja) | 自然言語の共起関係辞書保守方法 | |
JPS6140673A (ja) | 外国語作文用翻訳方法、および翻訳機 | |
JP2005507525A (ja) | 機械翻訳 | |
JP2003016061A (ja) | 自動自然言語翻訳 | |
Sawalha | Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora | |
JPH05120324A (ja) | 言語処理方式 | |
Aziz et al. | A hybrid model for spelling error detection and correction for Urdu language | |
KR950013128B1 (ko) | 기계번역장치 및 방법 | |
Ouvrard et al. | Collatinus & Eulexis: Latin & Greek Dictionaries in the Digital Ages. | |
JPH07244665A (ja) | 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置 | |
JP5632213B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
WO2024004184A1 (ja) | 生成装置、生成方法、及びプログラム | |
WO2024004183A1 (ja) | 抽出装置、生成装置、抽出方法、生成方法、及びプログラム | |
JP2003308319A (ja) | 訳語選択装置、翻訳装置、訳語選択プログラム、及び翻訳プログラム | |
JP3253311B2 (ja) | 言語処理装置および言語処理方法 | |
JP4016037B2 (ja) | 機械翻訳プログラム、機械翻訳装置 | |
Balcha et al. | Design and Development of Sentence Parser for Afan Oromo Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20060216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060316 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20060516 |