JP5807891B2

JP5807891B2 - 言語モデル学習装置及びコンピュータプログラム

Info

Publication number: JP5807891B2
Application number: JP2010224870A
Authority: JP
Inventors: デサーガステイン; イシュトヴァーンヴァルガ; 清敬大竹; 健太郎鳥澤
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2010-10-04
Filing date: 2010-10-04
Publication date: 2015-11-10
Anticipated expiration: 2030-10-04
Also published as: JP2012078647A

Description

この発明は、コーパスに含まれる自然言語文から、多数の自然言語の単語列を得て、統計的言語モデルの学習を行なう言語モデル学習装置に関し、特に、コーパスに含まれる自然言語文から、所定の目的のために好適な言語モデルを自動的に生成可能な言語モデル学習装置に関する。

音声認識技術では、統計的言語モデルが使用される。統計的言語モデルとは、大量の自然言語文からなるコーパスにおける単語（または単語列。以下単に「単語等」と呼ぶ。）の出現頻度情報をモデル化したものである。コーパス内に出現する単語等の各々に対し、その単語等を、その出現頻度とともにリストしたものが統計的言語モデルである。Ｎ個の単語が所定の順序で連結された単語列（Ｎ−グラムと呼ばれる。）についての言語モデルはＮ−グラム言語モデルと呼ばれる。通常、１−グラムから３−グラムまでの言語モデルが使用されることが多い。

音声認識技術では、音声認識した結果得られる音素列の妥当性を、言語モデルを用いて検証する。音響的な尤度が高い音素列の中で、言語モデルにより算出される尤度が高い仮説のみが音声認識結果の候補として採用される。

こうした統計的言語モデルは、音声認識技術だけではなく、機械翻訳等においても翻訳結果の妥当性を算出するために使用される。

言語モデルを作成するためには、大量の自然言語文が必要である。ただし、自然言語文が大量にあればよいというものではない。言語モデルが使用されるアプリケーション、及び言語モデルが適用される対象領域に応じた適切な自然言語文から言語モデルを構築することが望ましい。例えば音声認識技術が適用される分野が明確に分かるのであれば、その分野に関連する自然言語文から言語モデルを作成することが望ましい。

現在は、大量の機械可読文書が利用可能である。このような機械可読文書から、言語モデルを作成するために必要な自然言語文を選択する技術が開発されてきている。

しかし、実際に人間が記述した自然言語文を用いる限り、言語モデルに含めたい表現がそこに含まれているという保証はない。逆に、大量の機械可読文書から抽出した文に、対象分野または言語モデルが適用されるアプリケーションとは関係のない言語表現が含まれる可能性は高い。したがって、例えばある分野またはアプリケーションが明確に意識されていたとしても、その分野またはアプリケーションに適した言語モデルを積極的に構築することが難しいという問題がある。

結局、従来の技術では、コーパスは所与のものとして、言語モデルのモデリング技術そのものを工夫し、言語モデルの性能を確保しようとする。

例えば後掲の特許文献１には、例えば言語モデルとして単語３‐グラム、２‐グラム、及び１‐グラムの出現頻度情報を持つものにおけるスムージングを開示している。３‐グラム言語モデルでは、学習データの不足により出現頻度が０となる３‐グラムが出現する可能性が高くなる。そのような言語モデルをそのまま使用すると、音声認識結果の単語列の尤度を正しく評価することができない。スムージングはそうした問題を緩和するための技術である。

特許文献１の技術では、予めスムージングに利用可能な言語モデルの種類とその依存関係（両者をあわせて「依存関係等」と呼ぶ。）とを記憶装置に記憶させておく。例えば学習に用いるコーパスに出現する総単語数が所定のしきい値より小さい場合には、例えば３‐グラムの言語モデルにスムージングを施すために、その依存関係等から、別の言語モデルを利用できる。

特開２００９−１４５７７５号公報

しかし、上記した特許文献１に開示された技術も、もとになる学習データそのものに偏りがあったり、対象分野に関連するサンプルが不足していたりすると、言語モデルの性能を高めることはできない。すなわち、言語モデルが適用される分野またはアプリケーションに適した学習データをどのように準備するか、という問題を解決することがより本質的な解決策である。

理想的には、対象となる分野またはアプリケーションで発せられる可能性のある文章を全て含む学習データを準備し、その学習データに基づいて言語モデルを作成できればよい。現在のところ、Ｗｅｂ上のデータの総体がそうした学習データに最も近いように思われる。しかし、上記したようにＷｅｂ上のデータにしても、人間が作成している以上、その総数には限界があり、ましては対象となる分野またはアプリケーションで発せられる可能性のある文章をすべて含んでいることはあり得ない。そこで、問題は、対象となる分野またはアプリケーションで発せられる可能性のある文章をできるだけ多く含む自然言語文を効率よく収集するためにはどうしたらよいか、ということである。

それゆえに本発明の目的は、対象となる分野またはアプリケーションで発せられる可能性のある自然言語の単語列に割当てられる確率が相対的に高くなるような言語モデルを効率よく生成できる言語モデル学習装置を提供することである。

本発明の第１の局面に係る言語モデル学習装置は、複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置である。この装置は、特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンをコーパスから抽出するための単語列抽出手段と、予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された単語列変形規則に基づいて、単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含む。

予め、単語列テンプレートがテンプレート記憶手段に準備され、単語列テンプレートに合致する単語列パターンがコーパスから抽出される。それら単語列パターンに対し、予め選択された目的に沿った形式の自然言語の単語列が生成されるよう、単語列変形規則が適用される。その結果、コーパス内には存在しない表現が新たに生成される。その結果、コーパスに含まれる単語列の数の制限に関わらず、コーパスに含まれない表現まで含めて、目的に沿った多くの単語列からなる自然言語の単語列が生成できる。

好ましくは、テンプレート記憶手段は、機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、拡張テンプレート生成手段により生成された拡張テンプレートと、シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、単語列抽出手段に単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む。

シードテンプレートをテンプレート拡張規則により拡張することで、最初に準備されたシードテンプレートより多くのテンプレートを生成できる。コーパスに含まれる単語列パターンのうちから、抽出される単語列パターンの数を多くできる。その結果、目的に沿った単語列からなる自然言語の単語列をより多く生成できる。

より好ましくは、テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語列を表す１または複数の変数と、その他の単語列を表すテキストデータとの配列を含む。

所定の制約条件は、各変数により表される単語の属する単語クラスであってもよい。単語列抽出手段は、コーパスに記憶された複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、テンプレート記憶手段に記憶された単語列テンプレートの各々と、形態素解析手段により出力された形態素列とを比較し、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているものをコーパスから抽出するための手段とを含む。

好ましくは、テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す１または複数の変数と、その他の単語列と、これら変数及び単語列の間の文法的関係を示す構文情報とを含む。

より好ましくは、所定の制約条件は、各変数により表される単語の属する単語クラスである。単語列抽出手段は、コーパスに記憶された複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、形態素解析手段により出力される形態素列に対して構文解析を行ない、自然言語文の構文情報からなる単語列パターンを出力するための構文解析手段と、テンプレート記憶手段に記憶された単語列テンプレートの各々と、構文解析手段により出力された単語列パターンとを比較し、構文解析手段により出力された単語列パターン内の、変数を除いて単語列テンプレートと一致する構造を持つ部分であって、かつ当該部分の内で単語列テンプレート内の変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているものをコーパスから抽出するための手段とを含む。

さらに好ましくは、言語モデル学習装置はさらに、所定のコーパスに出現する単語列パターンの出現頻度を、当該単語列パターンごとに記憶するための頻度記憶手段と、変形手段から出力される変形後の単語列の各々に対し、当該単語列を構成する単語を生成した単語列パターンについて頻度記憶手段に記憶された出現頻度に基づいて、当該単語列の複写回数を決定して複写することにより、変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む。

言語モデル学習装置は、さらに、所定のコーパスに出現する単語の出現頻度を記憶するための頻度記憶手段と、変形手段から出力される変形後の単語列の各々に対し、当該単語列を構成する単語について頻度記憶手段に記憶された各単語の出現頻度に基づいて、当該単語列の複写回数を決定して複写することにより、変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む。

テンプレート記憶手段に記憶されたシードテンプレートの各々には予め重みが割当てられていてもよい。拡張テンプレート記憶手段に記憶された拡張テンプレートの各々には、当該拡張テンプレートのもとになったシードテンプレートの重みよりも小さな重みが割当てられている。言語モデル学習装置はさらに、変形手段から出力される変形後の単語列の各々に対し、単語列抽出手段において使用された単語列テンプレートに割当てられた重みにしたがって、当該単語列を複写することにより、変形手段から出力される変形後の単語列に含まれる単語の出現頻度を調整するための頻度調整手段を含む。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの言語モデル学習装置の各手段として機能させる。

本発明の第３の局面に係る音声認識装置は、上記した言語モデル学習装置のいずれかと、言語モデル学習装置により学習された言語モデルを記憶するための言語モデル記憶手段と、言語モデル記憶手段に記憶された言語モデルを用いることにより、入力される音声の音声認識を行なうための音声認識手段とを含む。

本発明の１実施の形態に係る言語モデル学習装置のブロック図である。シードテンプレート集合の例を示す図である。テンプレート拡張規則の例を示す図である。単語列変形規則の例を示す図である。シードテンプレートを拡張するためのプログラムの制御構造を示すフローチャートである。Ｗｅｂコーパスからテンプレートに合致する単語列パターンを抽出するためのプログラムの制御構造を示すフローチャートである。抽出された単語列パターンに変換規則を適用して所定の形の自然言語の単語列を生成して出力するためのプログラムの制御構造を示すフローチャートである。本発明の１実施の形態に係る言語モデル学習装置を実現するコンピュータシステムの外観図である。図８に示すコンピュータのハードウェア構成を示すブロック図である。

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

［構成］
図１を参照して、本発明の１実施の形態に係る言語モデル学習装置３０は、Ｗｅｂから収集した文からなるＷｅｂコーパス３２に含まれる自然言語文から、特定の分野に関する、特定の形の自然言語の単語列からなる学習コーパス３４を生成し、学習コーパス３４を学習データとして、言語モデル学習モジュール３６により言語モデルの学習を行なうためのものである。この言語モデル学習装置３０により、特定の分野に関する、特定の形の文についての音声認識に適した言語モデル３８を構築できる。本実施の形態では、後述するように、病気に対する質問文である入力音声４２の音声認識を行なって
音声認識結果４４を出力する音声認識装置４０のための言語モデルを構築する。なお、Ｗｅｂコーパス３２、学習コーパス３４、及び言語モデル３８は、本実施の形態ではいずれもハードディスク等の不揮発性記憶媒体に記憶される。

言語モデル学習装置３０は、Ｗｅｂコーパス３２から抽出すべき単語列が満たすべき単語列パターンを記述したシードテンプレートからなるシードテンプレート集合を記憶するシードテンプレート集合記憶部５０と、シードテンプレートから、シードテンプレートと異なる形の拡張テンプレートを生成するために参照されるテンプレート拡張規則を記憶するテンプレート拡張規則記憶部５４と、シードテンプレート集合記憶部５０に記憶された各シードテンプレートに対し、テンプレート拡張規則記憶部５４に記憶されたテンプレート拡張規則のうち適用可能なものを適用し、拡張テンプレート集合を出力するためのテンプレート拡張処理部５２と、テンプレート拡張処理部５２により出力される拡張テンプレート集合を記憶するための拡張テンプレート集合記憶部５６とを含む。

なお、本明細書では、単語列パターンとは、自然言語文または自然言語の単語列（以下「自然言語の単語列等」と呼ぶ。）を構成する単語の間の文法的関係を記述した構文情報のことをいう。たとえば構文解析木のようなものである。構文解析木の各リーフには、自然言語の単語列などに含まれる単語列が対応付けられる。テンプレートは、単語列パターンと同様の構造を構造を持ち、単語列パターンと比較されるもののことをいう。

図２を参照して、シードテンプレート集合記憶部５０に記憶されたシードテンプレートは、Ｗｅｂコーパス３２から抽出される単語列パターンが充足すべき基本的な構文構造を記述したものである。たとえば、シードテンプレートは、利用者が予め指定した構文解析木と、その解析木の各ノードに対応する単語列とからなる。シードテンプレートは、自然言語文から自動的に生成することも可能である。本実施の形態では、シードテンプレートは人間が手作業で準備するものとする。シードテンプレートは、本実施の形態ではいわゆる正規表現を用いて記述するものとする。正規表現としては種々のものが知られているが、ここではそれらのいずれも用いるようにしてもよい。

本実施の形態では、シードテンプレートを含む単語列テンプレートの構文解析木のリーフに相当する位置には単語が配置される。これら単語は、所定の制約条件を満たすべき単語を表す変数と、変数以外の単語列を表すテキストデータとを含む。テンプレートに変数が１つも含まれないものでもよい。テンプレートとして、ある単語が文頭または文末に来ていることを示す記号も記述可能とする。

図２に挙げたテンプレート（構文情報は除く。）はいずれも、変数（Ａ，Ｂ）を含んでいる。これら変数も上記正規表現で定義されるものである。これら変数には、その変数に相当する位置の単語の単語クラス等の属性、またはこれらの組合せが指定される。単語クラスとは、例えば病名、薬品名、症状名、物質名、地名、人名、品詞、動詞の活用形、その他、単語をその属性によって分類したときに単語が属する集合を指定するものである。１つの変数に複数の属性が指定されていてもよい。その場合には、それら複数の属性がＡＮＤ関係にあるのか、ＯＲ関係にあるのかを指定する情報も変数に付される。

図２の例では、「Ａの原因はＢ」という単語列パターンがあればその単語列パターン（またはこの単語列パターンを含む文。以下単に「単語列パターン」と呼ぶ。）が抽出される。変数Ａに「病名」という単語クラスが指定されていれば、「Ａの原因はＢ」という形の文であって、かつ「Ａ」が病名であるような単語列パターンが抽出される。「Ｂ」についても同様である。このように、特定の規則とマッチすることにより抽出された単語列パターンをここでは「インスタンス」と呼ぶ。

なお、図２に示す各シードテンプレートの右にある数値は、各シードテンプレートに割当てられた重みである。重みを用いない実施の形態もあり得るが、本実施の形態ではこの重みを用いて、最終的に得られた単語列の出現頻度（コーパスに出力する回数）を調整する。本実施の形態ではこの重みの範囲は０より大きく１以下である。

図２に示す例では、シードテンプレートは全て変数を２つ含んでいるが、シードテンプレートがこのようなものに限定されるわけではない。例えば変数を何も含まない表現、変数を１個だけ含む表現、文頭または文末を指定する表現等を用いることもできる。文頭または文末を表す場合、テンプレートにそれらを表す文字列（タグ）を付しておく。

シードテンプレートとして特定の単語のみを指定することもできるし、品詞列を指定することもできる。

図３を参照して、テンプレート拡張規則記憶部５４に記憶されたテンプレート拡張規則は、シードテンプレート集合記憶部５０に記憶されたシードテンプレートを拡張し、拡張テンプレートを生成するための規則である。テンプレート拡張規則も正規表現を用いて記述することができる。

例えばシードテンプレートとして図３の（１）に示す「Ａ＜病名＞の理由はＢ」を考える。「＜病名＞」は変数Ａに割当てられた単語タグであり、この位置の単語に「病名」というタグが割当てられていることを示す。

図３に示すテンプレート拡張規則によれば、「Ａ＜病名＞の理由はＢ」というテンプレートから、「Ａの理由はＢ」、「ＡはＢにより引き起こされる」、「ＢによりＡが発生」、「ＡはＢのせい」等というテンプレートが生成できる。なお、ここでは変数に割当てられる単語クラスの記載は繰返していない。

このように、予めテンプレート拡張規則を多数準備しておき、シードテンプレートにこれらテンプレート拡張規則を適用することにより新たなテンプレート（これらを「拡張テンプレート」と呼ぶ。）を生成できる。テンプレート拡張規則を多数準備しておけば、１つのシードテンプレートから多数の拡張テンプレートを生成することができ、Ｗｅｂコーパス３２から抽出されるインスタンスの数を増加させることができる。

図３には示していないが、単語を意味的な構造にしたがって配列したシソーラスを用いると、テンプレート拡張規則により生成できるテンプレート数をより多くすることができる。例えば単語クラス「薬品名」について、このクラスのより上位の単語クラスが「物質名」であれば、単語クラスが「薬品名」の変数がテンプレート中にあるときに、この変数の単語クラスを上位の「物質名」に置換するようなテンプレートを生成することもできる。このような置換を可能とするか否かは、システムの設計に依存する事項でもあるし、システムの動作時の設定に依存する事項でもある。

図３に示す例では、拡張規則の各々の右側に、各拡張規則の重みが付されている。本実施の形態では、各テンプレート拡張規則に割当てられた重みと、基となるシードテンプレートの重みとの積にしたがって、最終的に抽出または生成された単語列パターンの出現頻度を調整する。拡張規則により拡張されたテンプレートは、利用者がシードテンプレートとしては特に指定しなかったものである。したがって、最終的に得られる言語モデルでは、拡張テンプレートに基づいて抽出されたインスタンスについては、その出現頻度をシードテンプレートに基づいて抽出されたものよりも低めに設定した方が目的に沿っていると考えられる。したがって、本実施の形態では、各テンプレート拡張規則に割当てられた重みは０より大きく１より小さい値となっている。

再び図１を参照して、言語モデル学習装置３０はさらに、拡張テンプレート集合記憶部５６に記憶された拡張テンプレートを用い、Ｗｅｂコーパス３２に含まれる文から、拡張テンプレートのいずれかに合致するインスタンスを抽出するフィルタ６０と、フィルタ６０がＷｅｂコーパス３２内の各文の構文解析を行なう際に参照する構文解析用辞書５８と、フィルタ６０によりＷｅｂコーパス３２から抽出されたインスタンスの文からなる抽出文コーパスを記憶する抽出文コーパス記憶装置６２と、抽出文コーパス記憶装置６２に記憶された抽出文を、最終的に得られる言語モデルの対象分野及びアプリケーションに応じた文型に変換するための単語列変形規則を記憶した単語列変形規則記憶部６４と、抽出文コーパス記憶装置６２に記憶された文の各々に、単語列変形規則記憶部６４に記憶された単語列変形規則のうち適用可能なものを適用し、変形後の文を出力するための変形モジュール６６と、変形モジュール６６から出力される変形後の文からなる変形文集合を記憶するための変形単語列集合記憶部６８とを含む。単語列変形規則記憶部６４に記憶された単語列変形規則も、本実施の形態では正規表現で記述されている。

図４を参照して、単語列変形規則の簡単な例を示す。なお、ここでは、言語モデル学習装置３０は、前述したとおり、病気に関する質問の音声入力を音声認識するための言語モデルの作成に用いられるものとする。図４の（１）に示す単語列変形規則は、「Ａを引き起こすＢ」という形の単語列パターンから、「Ａを引き起こすものについて教えてください。」という質問文を生成するための規則である。ここでも「Ａ」と「Ｂ」とは変数である。変数には、テンプレートと同様、単語クラス等の属性の指定が付されていても良い。変数に属性が付されている場合には、その属性まで含めて単語列変形規則の左辺と一致した単語列パターンを、単語列変形規則の右辺に示された単語列に変形する。

図４に示す例では、単語列変形規則の左辺と右辺とが１つずつのものしか示されていない。しかし本発明はそのような実施の形態に限定されない。左辺が同一で右辺が異なるような複数の単語列変形規則を、１つの変形規則にまとめるような実装を行なってもよい。

再び図１を参照して、言語モデル学習装置３０はさらに、Ｗｅｂコーパス３２に出現する、構造を含めた各単語列の出現頻度を算出するための頻度算出モジュール７０と、頻度算出モジュール７０により各単語列について算出された出現頻度からなる頻度データを記憶する頻度データ記憶部７２と、変形単語列集合記憶部６８に記憶されている各変形文について、当該変形文に付されている重みと、頻度データ記憶部７２に記憶された単語列の頻度データとに基づいて、変形文の出力回数を定め、その回数だけ繰返して当該変形文を出力することにより、最終的に得られるコーパス中の単語列の出現頻度を調整するための頻度調整モジュール７４とを含む。頻度調整モジュール７４の出力する変形文の集合が学習コーパス３４を形成する。

本実施の形態では、頻度データ記憶部７２に記憶される頻度データは、構造別の単語列ごとの出現確率である。

図５を参照して、図１のテンプレート拡張処理部５２をコンピュータにより実現するためのプログラムは、以下のような制御構造を有する。このプログラムは、テンプレート拡張規則記憶部５４に記憶されたテンプレート拡張規則を全てコンピュータの主記憶装置に読込むステップ１００と、ステップ１００で読込まれた各規則に対し、以下に説明するステップ１０４を実行するステップ１０２と、ステップ１０２の処理が完了した後、ステップ１０２の処理で得られた、シードテンプレートと拡張テンプレートとをマージしたものを拡張テンプレート集合として出力して処理を終了するステップ１０６とを含む。

ステップ１０４は、シードテンプレート集合記憶部５０に記憶された全てのシードテンプレートに対し、現在処理対象となっている拡張規則が適用可能なら適用し、新たなテンプレート（拡張テンプレート）を作成するステップ１１０と、新たに作成されたテンプレートに、基となったシードテンプレートの重みと、拡張規則の重みとの積を計算し、重みとして付すステップ１１２と、ステップ１１２で作成された拡張テンプレートを、ステップ１１２で計算された重みとともに、シードテンプレートにマージするステップ１１４とを含む。なお、ステップ１１０で作成された新テンプレートが既にシードテンプレートにマージされている場合、そのテンプレートはシードテンプレートに追加されない。

図６を参照して、図１に示すフィルタ６０を実現するためのプログラムは、Ｗｅｂコーパス３２に記憶されている各文に対して以下のステップ１３２を実行するステップ１３０を含む。

ステップ１３０は、処理対象となっている文に対し、構文解析用辞書５８を参照してそれぞれ形態素解析及び構文解析を行なうステップ１４０及び１４１と、形態素解析及び構文解析処理により単語クラス、活用形等を示すタグが付された単語列（形態素列）を持つ構文情報からなる単語列パターンを受け、拡張テンプレート集合記憶部５６に記憶された各テンプレートについて、以下のステップ１４４を実行するステップ１４２とを含む。なお、ここでは対象言語を日本語としているため、ステップ１４０では形態素解析を含む構文解析を行なっている。対象言語が英語のように単語を空白で区切る言語の場合、ここでは形態素解析は不要であり、品詞解析等の解析処理を含む構文解析処理を実行すればよい。形態素解析には、既存の形態素解析プログラムを使用すればよい。形態素解析プログラムとして、例えば、ＪＵＭＡＮ (URL＝http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html)、またはＣｈａＳｅｎ(URL=http://chasen-legacy.sourceforge.jp/)を用いることができる。構文解析処理には、係り受け解析と句構造解析との２通りの技術が存在する。いずれを用いてもよいが、本実施の形態では係り受け解析を用いるものとする。既存の日本語構文解析システムＫＮＰ（URL=http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html）を用いてもよい。

ステップ１４４は、処理対象となっている単語列パターン中で、処理対象となっているテンプレートにマッチする箇所があるか否かを判定するステップ１５０と、ステップ１５０の判定が肯定のときに、そのマッチする箇所に、処理対象となっているテンプレートの重みを付して出力し、処理を次のテンプレートに移動させるステップ１５２とを含む。ステップ１５０の判定が否定のときには何もされず、処理は次のテンプレートに移動する。なお、ここでのマッチの判定の基準は、単語列パターンを構成する構文情報の内に、変数を除いて単語列テンプレートの構文情報と一致する部分があり、かつ当該部分の内で単語列テンプレートの構文情報内の変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているか否かである。この判定の際、処理対象となっている単語列パターン中の一部でも単語列パターンと一致していればそを出力する。なお、構文情報を用いず、形態素列（単語列）のみを用いる場合には、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているか否かを基準とすればよい。

図７を参照して、図１の変形モジュール６６及び頻度調整モジュール７４を実現するためのプログラムは、抽出文コーパス記憶装置６２に記憶された文に含まれる各単語列に対し、以下のステップ１８２を実行するステップ１８０を含む。

ステップ１８２は、単語列変形規則記憶部６４に記憶された各単語列変形規則について、以下のステップ２０２を実行するステップ２００を含む。

ステップ２０２は、処理対象の単語列パターンが、処理対象の変形規則の左辺にマッチするか否かを判定し、マッチしなければ次の変形規則に処理を進めるステップ２１０と、ステップ２１０の判定が肯定のときに、この変形規則に従い、処理対象の単語列パターンを変形して新たな単語列を生成するステップ２１２と、ステップ２１２に続き、処理対象の単語列パターンに含まれる単語の、そのパターン（単語列の構造）における出現頻度（単語が複数あるときはそれらの積）と、処理対象の単語列パターンに割当てられている重みと、最終的に得られる学習コーパス３４に含まれる文の数を調整するために予め定められる定数との積を計算するステップ２１４と、ステップ２１４で計算された値の整数部分により定められる回数だけ、ステップ２１２で得られた単語列を繰返して出力するステップ２１６とを含む。ステップ２１４で算出された値が１に満たない場合、本実施の形態ではステップ２１６において１回だけ変形後の単語列を出力する。

［動作］
図１〜図７に示した言語モデル学習装置３０は以下のように動作する。予め、Ｗｅｂから多数の文を収集し、Ｗｅｂコーパス３２に記憶させておく。頻度算出モジュール７０は、予めＷｅｂコーパス３２に含まれる各文について形態素解析及び構文解析し、各単語について、その出現する構造ごとにその出現頻度を算出し、頻度データ記憶部７２に頻度データとして記憶させる。この処理は通常の言語モデルの学習とほとんど同じである。

本実施の形態では、利用者が予めシードテンプレート、テンプレート拡張規則、及び単語列変形規則を作成し、シードテンプレート集合記憶部５０、テンプレート拡張規則記憶部５４、及び単語列変形規則記憶部６４にそれぞれ記憶させておく。これらはいずれも正規表現を使用する。これらはまた、最終的に得られる言語モデル３８がどのような分野に適用されるのであり、どのようなアプリケーションにより使用されるのかにより、その作成方針が定められる。ただし、最終的にどのようなテンプレート及び規則を作成するかは利用者の選択により決まる。

シードテンプレート及びテンプレート拡張規則が準備できると、テンプレート拡張処理部５２が動作し、シードテンプレート集合記憶部５０に記憶されたシードテンプレートの各々に、テンプレート拡張規則記憶部５４に記憶されたテンプレート拡張規則を適用してテンプレートを拡張する。この拡張により多数のテンプレートが生成され拡張テンプレート集合記憶部５６に記憶される。

さらに、単語列変形規則を生成し、予め単語列変形規則記憶部６４に格納しておく。構文解析用辞書５８としては、フィルタ６０で使用する形態素解析及び構文解析プログラムに適合したフォーマットのものを用意しておく。

拡張テンプレート集合記憶部５６に格納された拡張テンプレートは予め全て読み出され、図示しない主記憶部に記憶される。フィルタ６０は、Ｗｅｂコーパス３２から文を読出し、それぞれについて形態素解析及び構文解析を行なう（図６のステップ１４０）。さらにフィルタ６０は、構文解析により得られた単語列パターン（単語クラス、意味クラス等のタグが付された形態素列と、それらをリーフとして持つ構文解析木からなる構文情報）について、主記憶部に記憶された拡張テンプレートにマッチする部分を持つか否かを判定する（ステップ１５０）。拡張テンプレートのいずれかとマッチする部分がある場合（ステップ１５０の判定が肯定）、フィルタ６０はその単語列パターンを、マッチしたテンプレートに付された重みとともに抽出文コーパス記憶装置６２に出力する（ステップ１５２）。抽出文コーパス記憶装置６２はこれらの単語列パターンを単語に付されたタグ及び重みとともに記憶する。フィルタ６０は、Ｗｅｂコーパス３２に記憶された全ての文についてこれを繰返す。

変形モジュール６６は、抽出文コーパス記憶装置６２に記憶された各単語列パターンに対し、単語列変形規則記憶部６４を適用する。すなわち、変形モジュール６６は処理対象の単語列パターンごとに、変形規則を呼出し、単語列パターンが変形規則の左辺とマッチするか否かを判定する（ステップ２１０）。単語列パターンが変形規則の左辺とマッチする場合（ステップ２１０の判定が肯定）、変形モジュール６６は、変形規則の右辺にしたがって単語列パターンを変形し、その単語列パターンから単語列を生成する（ステップ２１２）。変形後の単語列は変形単語列集合記憶部６８に記憶される。頻度調整モジュール７４は、その変形後の単語列の重みを、単語列に出現する単語の出現頻度の積と、単語列に付されていた、フィルタ６０において適用されたテンプレートの重みと、所定の定数との積として算出する（ステップ２１４）。頻度調整モジュール７４は、こうして計算された重みの整数部分の回数だけ、変形後の単語列を繰返して出力する（ステップ２１６）。出力された変形後の文はいずれも学習コーパス３４に記憶される。ステップ２１６の処理が終了すると、変形モジュール６６は次の変形規則による処理を実行する。ステップ２１０の判定が否定なら、変形モジュール６６その変形規則については何もせず、次の変形規則による処理を実行する。

このようにして、ある単語列パターンについて、変形モジュール６６及び変形単語列集合記憶部６８が全ての変形規則を適用する処理が完了すると、次の単語列パターンについて、同じ処理が実行される。

全ての単語列パターンについて、変形モジュール６６及び頻度調整モジュール７４が全ての変形規則を適用すると、処理を終了する。

このようにして学習コーパス３４が作成される。学習コーパス３４は、最初に準備したシードテンプレートに適合した文と、シードテンプレートから拡張した、シードテンプレートと関連した拡張テンプレートに適合した文とから、予め準備された単語列変形規則により変形された文からなる。拡張テンプレートは、シードテンプレートに含まれる単語の類義語、シードテンプレートの表現の言い換え等からなる。また、単語列変形規則は、最終的な目標となる言語モデルが使用されるアプリケーションでよく使用される文型を想定したものである。したがって、学習コーパス３４は、特定の分野に関する発話によく出現する単語またはその類義語、及び特定のアプリケーションでよく用いられる言い回しを多く含む。しかもシードテンプレートは、テンプレート拡張規則により拡張されるため、拡張テンプレート集合記憶部５６には非常に多数のテンプレートが含まれる。しかもこのテンプレートには正規表現が用いられるため、テンプレートとＷｅｂコーパス３２に含まれる文とのマッチングにより非常に多くの単語列パターン（形態素列）がＷｅｂコーパス３２から抽出される。ここでは「抽出」という語を用いているが、テンプレートとして言い換えも認めているため、Ｗｅｂコーパス３２には含まれない表現もフィルタ６０の処理により抽出されることになる。

Ｗｅｂコーパス３２は、入手可能なコーパスとしては、最も多数の表現を含むと考えられる。しかし、Ｗｅｂコーパス３２に含まれる表現は、人間により作成されたものであり、そのためにその数にはどうしても限りがある。それに対し、本実施の形態のように、テンプレートを拡張して様々な拡張テンプレートでＷｅｂコーパス３２とマッチングを行ない、さらに拡張テンプレートにより表現を種々に変更することにより、変形モジュール６６には人手で作成されたものよりもはるかに幅広い表現が格納されることになる。したがって、それら表現を用いて生成された学習コーパス３４を学習データとして学習した言語モデル３８は、最初に意図された分野またはアプリケーションに適合したものとなり、しかもＷｅｂコーパス３２には含まれない表現を含む非常に幅広い表現に対しても出現確率を算出することが可能なものとなる。その結果、言語モデル３８を用いた音声認識は、シードテンプレート及び単語列変形規則を作成したときに意図された分野及びアプリケーションに対して高い精度の認識率を実現することができる。

もっとも、本発明で使用するＷｅｂコーパス３２がＷｅｂから収集した文のみを含むものに限定されないことは当業者には明らかであろう。Ｗｅｂコーパス３２として、Ｗｅｂから収集したものに、別のソースから得た文を加えたものを用いてもよいし、Ｗｅｂから収集した文を含まないコーパスを用いることもできる。

なお、上記した実施の形態では、テンプレート拡張処理部５２によるテンプレートの拡張はシードテンプレートに対するもののみであった。しかし本発明はそのようなものには限定されない。シードテンプレートに対してテンプレート拡張規則を適用して得られた拡張テンプレートに、さらにテンプレート拡張規則を適用することでさらにテンプレート数を増加させるようにしてもよい。この場合、所定の繰返し回数だけテンプレート拡張の処理を行なっても良いし、新たな拡張テンプレートが出現しなくなるまで、テンプレート拡張の処理を繰返し実行するようにしてもよい。

図４に示す例では、１つの単語列パターンを変形して１つの新たな単語列を生成する変形規則のみが示されている。しかし、本発明はそのような実施の形態に限定されるわけではない。例えば、規則中に、別の単語列パターンを参照する記述を含ませることにより、２つの単語列パターンから新たな単語列を作成するような規則を用いても良い。

例えば、変形後の単語列パターンの集合の中に、ある単語で終わっている単語列パターンと、同じ単語で始まっている単語列パターンとが存在しているときに、それら２つの単語列パターンを、共通の単語を中心に互いに接続して新たな単語列を作成することができる。例えば、「ＡのＢ」というテンプレートのインスタンスとして「ボリビアの首都」という単語列パターンが抽出され、「Ｘはどこ」というテンプレートに対して「首都はどこ」というインスタンスが抽出されたときを考える。前者の最後の単語と、後者の先頭の単語とは、いずれも「首都」である。こうしたときには、両者を「首都」を中心に接続し、「ボリビアの首都はどこ」という新たな単語列を生成できる。

他の例として、テンプレートの中に変数が存在しない場合には、テンプレート同士を単純に接続することも変形の一種として行なう。例えば、「ですね（文末）」のようなものがテンプレートに存在しており、変形後の単語列の中に「首都ですね」という表現がある場合を考える。この場合、「ボリビアの首都」というインスタンスと「ですね」という表現とを直接に接続して「ボリビアの首都ですね」という表現も変形後の単語列として生成する。

こうした処理のためには、そのための変形規則を単語列変形規則記憶部６４に記憶された変形規則とは別に準備しておく必要がある。図７に示す処理が完了した後に、これら規則に従って、変形後の単語列をさらに加工するようにすればよい。

上記実施の形態では、頻度調整モジュール７４は変形文に割当てられた重みと、変形文に含まれる単語の出現確率の積との積により、その変形文の複写数を調整している。しかし本発明はそのような実施の形態には限定されない。例えば、変形文に割当てる重みは全て等しい値としてもよい。また、変形文に含まれる全ての単語の出現確率の積ではなく、例えば名詞だけの出現確率を用いるようにしても良い。

上記実施の形態では、シードテンプレートに予め種々の重みを付与している。しかし本発明はそのような実施の形態には限定されない。シードテンプレートに付与している重みを一定とし、どのテンプレート拡張規則が用いられたかのみにより、テンプレートの重みを決定するようにしてもよい。または、Ｗｅｂコーパス３２に含まれる単語列について、適用可能なテンプレートが複数個ある場合には、その個数に応じて大きくなる重みを与えるようにしてもよい。テンプレート拡張規則をシードテンプレートだけでなく拡張テンプレートにも適用してテンプレートを作成するようにした場合には、拡張テンプレートを適用するごとに、テンプレートの重みが軽くなるようにすることが望ましい。

さらに、フィルタ６０によるフィルタリングの際に、上記実施の形態では、抽出された単語列に対し、抽出の際に適用されたテンプレートの重みを付しているだけである。しかし本発明はそのような実施の形態には限定されない。例えば、処理対象の文のうち、どの程度の大きさの部分があるテンプレートに適合したかにより、重みを変化させるようにしても良い。この場合、文の全体が１つのテンプレートに適合した場合に重みは変化させず、マッチした部分の文全体に対する割合が小さくなるにしたがって、重みも小さくなるようにすることが望ましい。

上記実施の形態では、単語列変形規則記憶部６４に記憶される単語列変形規則については重みを付与していない。しかし本発明はそのような実施の形態には限定されない。例えば、予め単語列変形規則に対して０より大きく１以下の重みを付与しておき、マッチした文に付与されていた重みにこの重みを乗じて、変形後の文の重みとしてもよい。

上記実施の形態では、各規則はいずれも正規表現を用いて記述されている。しかし本発明はそのような実施の形態には限定されない。目的に応じて規則を的確に記述できるものであれば、どのような記述方式に従うものであってもよい。

さらに、上記した実施の形態では、コーパスの各文に対して構文解析を行なっている。しかし本発明はそのような実施の形態には限定されず、形態素解析のみを行なうようにしてもよい。この場合得られるのは１次元的に配列された形態素列となるが、これも一種の構造とみなせば、以後の処理としては上記実施の形態の処理をそのまま適用することができる。

［コンピュータによる実現］
この実施の形態に係る言語モデル学習装置３０は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現できる。

図８を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図９を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、インターネットへの接続を提供するネットワークインターフェイス（Ｉ／Ｆ）３４４を含む。図示しないが、コンピュータ３４０はネットワークＩ／Ｆ３４４を介して携帯電話ネットワークと接続されており、携帯電話３００とデータ通信を行なうことができる。

コンピュータシステム３３０に言語モデル学習装置３０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の言語モデル学習装置３０として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）もしくはサードパーティのプログラム、またはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した言語モデル学習装置３０としての動作を実行する命令のみを含んでいればよい。

なお、図１に示すＷｅｂコーパス３２、シードテンプレート集合記憶部５０、テンプレート拡張規則記憶部５４、拡張テンプレート集合記憶部５６、構文解析用辞書５８、抽出文コーパス記憶装置６２、単語列変形規則記憶部６４、変形単語列集合記憶部６８、頻度データ記憶部７２、学習コーパス３４及び言語モデル３８等は、いずれも図９に示すハードディスク３５４またはＲＡＭ３６０により実現される。特に、例えばＷｅｂコーパス３２、シードテンプレート集合記憶部５０、テンプレート拡張規則記憶部５４、抽出文コーパス記憶装置６２、単語列変形規則記憶部６４等の領域は通常はハードディスク３５４内に確保されており、プログラムの実行時、必要に応じて必要な情報がこれら領域から読出されてＲＡＭ３６０にロードされる。拡張テンプレート集合記憶部５６、抽出文コーパス記憶装置６２、変形単語列集合記憶部６８等に記憶されるデータはワークファイル的な性格を持つ。したがって、生成時にはＲＡＭ３６０に生成され、保存の必要があればハードディスク３５４に保存される。学習コーパス３４及び言語モデル３８も同様である。

コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０言語モデル学習装置
３２Ｗｅｂコーパス
３４学習コーパス
３６言語モデル学習モジュール
３８言語モデル
５０シードテンプレート集合記憶部
５２テンプレート拡張処理部
５４テンプレート拡張規則記憶部
５６拡張テンプレート集合記憶部
５８構文解析用辞書
６０フィルタ
６４単語列変形規則記憶部
６６変形モジュール
７４頻度調整モジュール

Claims

複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置であって、
前記特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、
予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、
前記変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含み、
前記テンプレート記憶手段は、
機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、
前記シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、
前記拡張テンプレート生成手段により生成された拡張テンプレートと、前記シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、前記単語列抽出手段に前記単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む、言語モデル学習装置。
請求項１に記載の言語モデル学習装置であって、
前記テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す１または複数の変数と、その他の単語列パターンを表すテキストデータとの配列を含む、言語モデル学習装置。
請求項２に記載の言語モデル学習装置であって、
前記所定の制約条件は、各変数により表される単語の属する単語クラスであり、
前記単語列抽出手段は、
前記コーパスに記憶された前記複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートの各々と、前記形態素解析手段により出力された形態素列とを比較し、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているものを前記コーパスから抽出するための手段とを含む、言語モデル学習装置。
請求項１に記載の言語モデル学習装置であって、
前記テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す１または複数の変数と、その他の単語列と、これら変数及び単語列の間の文法的関係を示す構文情報とからなる単語列パターンを含む、言語モデル学習装置。
請求項４に記載の言語モデル学習装置であって、
前記所定の制約条件は、各変数により表される単語の属する単語クラスであり、
前記単語列抽出手段は、
前記コーパスに記憶された前記複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、
前記形態素解析手段により出力される形態素列に対して構文解析を行ない、前記自然言語文の構文情報からなる単語列パターンを出力するための構文解析手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートの各々と、前記構文解析手段により出力された単語列パターンとを比較し、前記構文解析手段により出力された単語列パターンの内の、変数を除いて単語列テンプレートと一致する構造を持つ部分であって、かつ当該部分の内で単語列テンプレートの変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているものを前記コーパスから抽出するための手段とを含む、言語モデル学習装置。
請求項４〜請求項５のいずれかに記載の言語モデル学習装置であって、さらに、
所定のコーパスに出現する単語列パターンの出現頻度を、当該単語列パターンごとに記憶するための頻度記憶手段と、
前記変形手段と前記学習手段との間に設けられ、前記変形手段から出力される変形後の単語列を受け、当該単語列の各々に対し、当該単語列を生成した単語列パターンについて前記頻度記憶手段に記憶された出現頻度に基づいて、当該単語列の複写回数を決定して複写し繰返し前記学習手段に出力することにより、前記変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む、言語モデル学習装置。
請求項１〜請求項５のいずれかに記載の言語モデル学習装置であって、さらに、
所定のコーパスに出現する単語の出現頻度を記憶するための頻度記憶手段と、
前記変形手段と前記学習手段との間に設けられ、前記変形手段から出力される変形後の単語列を受け、当該単語列の各々に対し、当該単語列を構成する単語について前記頻度記憶手段に記憶された各単語の出現頻度に基づいて、当該単語列の複写回数を決定して複写し繰返し前記学習手段に出力することにより、前記変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む、言語モデル学習装置。
請求項１に記載の言語モデル学習装置であって、
前記テンプレート記憶手段に記憶されたシードテンプレートの各々には予め重みが割当てられており、
前記テンプレート記憶手段に記憶された前記拡張テンプレートの各々には、当該拡張テンプレートのもとになったシードテンプレートの重みよりも小さな重みが割当てられており、
前記言語モデル学習装置はさらに、
前記変形手段と前記学習手段との間に設けられ、前記変形手段から出力される変形後の単語列を受け、当該単語列の各々に対し、前記単語列抽出手段において使用された単語列テンプレートに割当てられた重みにしたがって、当該単語列を複写し繰返し前記学習手段に出力することにより、前記変形手段から出力される変形後の単語列に含まれる単語の出現頻度を調整するための頻度調整手段を含む、言語モデル学習装置。
複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段に接続されるコンピュータを、
単語列テンプレートを記憶するためのテンプレート記憶手段と、
前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、
予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、
前記変形手段により出力される単語列の集合を学習データとして統計的言語モデルの学習を行なうための学習手段として機能させ、
前記テンプレート記憶手段は、
機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、
前記シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、
前記拡張テンプレート生成手段により生成された拡張テンプレートと、前記シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、前記単語列抽出手段に前記単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む、コンピュータプログラム。
請求項１〜請求項８のいずれかに記載の言語モデル学習装置と、
前記言語モデル学習装置により学習された言語モデルを記憶するための言語モデル記憶手段と、
前記言語モデル記憶手段に記憶された言語モデルを用いることにより、入力される音声の音声認識を行なうための音声認識手段とを含む、音声認識装置。