JP2003122750A

JP2003122750A - 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム

Info

Publication number: JP2003122750A
Application number: JP2001311453A
Authority: JP
Inventors: Maki Murata; 真樹村田
Original assignee: Communications Research Laboratory
Current assignee: National Institute of Information and Communications Technology
Priority date: 2001-10-09
Filing date: 2001-10-09
Publication date: 2003-04-25
Anticipated expiration: 2021-10-09
Also published as: US20030083859A1; US7542894B2; JP4065936B2

Abstract

(57)【要約】【課題】言語解析において、広範かつ多数の情報を教
師信号として用いることができる機械学習法を用いた言
語解析処理システムを実現する。【解決手段】問題表現相当部抽出部11は問題表現情報
記憶部12を参照して解析情報が付与されていない生コー
パス2 から問題表現に相当する部分を抽出し、問題構造
変換部13は、当該抽出部分を問題表現に変換して抽出し
た解と教師データを生成する。解−素性対抽出部17は教
師データ記憶部15に保存された教師データから解と素性
の集合の組を抽出し、機械学習部18は抽出した組からど
のような素性のときにどのような解となりやすいかを学
習した結果を保存する。素性抽出部21は入力されたデー
タ3 から素性の集合を抽出し、解推定処理部22は学習結
果データベース19をもとに素性の集合からその素性の場
合にどのような解になりやすいかを推定した解析情報 4
を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、言語解析処理に関
し、特に、機械学習法を用いた言語解析処理システム、
教師データ生成処理方法、機械学習法を用いた言語解析
処理方法、機械学習法を用いた言語省略解析処理システ
ムに関する。

【０００２】

【従来の技術】言語解析処理の分野では、形態素解析、
構文解析の次の段階である意味解析処理が重要性を増し
ている。特に意味解析の主要部分である格解析処理、省
略解析処理などにおいて、処理にかかる労力の負担軽減
や処理精度の向上が望まれている。

【０００３】格解析処理とは、文の一部が主題化もしく
は連体化などをすることにより隠れている表層格を復元
する処理を意味する。例えば、「りんごは食べた。」と
いう文において、「りんごは」の部分は主題化している
が、この部分を表層格に戻すと「りんごを」である。こ
のような場合に、「りんごは」の「は」の部分を「ヲ
格」と解析する。

【０００４】また、「昨日買った本はもう読んだ。」と
いう文において、「買った本」の部分が連体化している
が、この部分を表層格に戻すと「本を買った」である。
このような場合にも、「買った本」の連体の部分を「ヲ
格」と解析する。

【０００５】省略解析処理とは、文の一部に省略されて
いる表層格を復元する処理を意味する。「みかんを買い
ました。そして食べました。」という文において、「そ
して食べました」の部分に省略されている名詞句（ゼロ
代名詞）は「みかんを」であると解析する。

【０００６】本発明に関連する従来技術として、以下の
ような研究があった。

【０００７】格解析手法として、以下の参考文献１に示
すような既存の格フレームを利用するものがある。［参考文献１］Sadao Kurohashi and Makoto Nagao, A
Method of Case Structure Analysis for Japanse Sent
ences based on Examples in Case Frame Dictionary,
IEICE Transactions on Information and Systems, Vo
l.E77-D, No.2, (1994), pp227-239 また、以下の参考文献２に示すように、格解析におい
て、解析対象としている分類や情報の付加を行っていな
いコーパス（以下、「生コーパス」という。）から格フ
レームを構築し、それを利用するものがある。［参考文献２］河原大輔, 黒橋禎夫, 用言と直前の格要
素の組を単位とする格フレームの自動獲得, 情報処理学
会, 自然言語処理研究会, 2000-NL-140-18, (2000)ま
た、以下の参考文献３に示すように、格解析において、
格情報付きコーパスを用いずに生コーパスでの頻度情報
を利用して、最尤推定により格を求めるものがある。［参考文献３］阿部川武, 白井清昭, 田中穂積, 徳永健
伸, 統計情報を利用した日本語連体修飾語の解析, 言語
処理学会年次大会, (2001), pp269-272なお、以下の参
考文献４に示すように、格情報つきコーパスを用いた機
械学習法としてｋ近傍法の一種のＴｉＭＢＬ法（参考文
献５参照）を用いたものなどがある。［参考文献４］Timothy Baldwin, Making lexical sens
e of japanese-englishmachine translation: A disamb
iguation extravaganza, Technical report,(Tokyo Ins
titute of Technology, 2001), Technical Report, ISS
N 0918-2802 ［参考文献５］Walter Daelemans, Jakub Zavrel, Ko v
an der Sloot, and Antal van den Bosch, Timbl: Tilb
urg memory based learner version 3.0 reference gui
de, Technical report,(1995), ILK Technical Report-
ILK 00-01 なお、参考文献３に示された阿部川らの研究や、参考文
献４に示されたBaldwin の研究では、連体化の格解析処
理のみを扱うものである。

【０００８】

【発明が解決しようとする課題】従来、日本語格解析を
行う場合に用例とする格情報付きのコーパスに対し格情
報を人手で付与していた。しかし、人手で解析規則や解
析情報を付与することは、規則の拡張や規則の調節にか
かる人的資源の問題や労力負担が大きいという問題があ
る。

【０００９】この点、教師付き機械学習法を言語解析処
理に用いることは有効である。教師付き機械学習法で
は、解析対象となる情報が付与されたコーパスが教師信
号として用いられている。しかし、この場合でも、コー
パスに解析対象の情報を付加するという労力負担を軽減
する必要がある。

【００１０】また、処理精度を向上させるために、なる
べく多くの教師信号を使用できるようにすることが必要
である。参考文献３の阿部川らの研究や、参考文献４の
Baldwin の研究は、格情報のついていない生コーパスを
用いて格解析処理を行うものである。ただし、これらの
技術は連体化のみを扱う格解析処理である。

【００１１】機械学習法での教師信号を借用するため解
析対象となる情報がついていない生コーパスなどを用い
た機械学習法（以下、「教師信号借用型機械学習法」と
よぶ。）を、より広範な言語処理において用いることが
できるようにすることが要求されている。

【００１２】そこで、格解析処理が省略解析処理と等価
であることに着目し、省略解析処理において教師信号借
用型機械学習法を用いた方法を提案する。

【００１３】また、動詞省略補完（参考文献６参照）、
質問応答システム（参考文献７〜９参照）などのより広
範な言語解析について教師信号借用型機械学習法を用い
た処理方法を提案する。［参考文献６］村田真樹、長尾真、日本語文章における
表層表現と用例を用いた動詞の省略の補完、言語処理学
会誌、Vol.5, No.1,(1998) ［参考文献７］Masaki Murata, Masao Utiyama, and Hi
toshi Isahara, Question answering system using syn
tactic information,(1999) ［参考文献８］村田真樹、内山将夫、井佐原均、類似度
に基づく推論を用いた質問応答システム、自然言語処理
研究会 2000-NL-135, (2000), pp181-188 ［参考文献９］村田真樹、内山将夫、井佐原均、質問応
答システムを用いた情報抽出、言語処理学会第６回年次
大会ワークショップ論文集, (2000), pp33-40 また、処理精度をより向上させるために、前記の教師信
号借用型機械学習法により借用された教師信号と、解析
対象である情報が付与されたデータを用いた教師あり機
械学習法（以下、非借用型機械学習法という。）におけ
る教師信号とを併用した機械学習法（以下、併用型機械
学習法という。）を用いた言語解析処理を提案する。

【００１４】また、省略解析の補完処理では語の生成を
行うことから、前記の併用型機械学習法を用いた生成処
理を提案する。

【００１５】本発明にかかる教師信号借用型機械学習法
法もしくは併用型機械学習法は、教師あり機械学習法を
用いている。本発明における教師あり機械学習法は、特
に、各素性の重要度を、素性間の従属的関係を考慮した
枠組みを用いて算出する過程を含むものである。この
点、一般的に機械学習法として分類される方法のうち、
各素性の類似度すなわち従属度を自ら決定しかかる算出
過程を含まない場合のｋ近傍法、各素性の独立性を前提
として素性間の従属性を考慮しないシンプルベイズ法な
どとも異なる。また、本発明における教師あり機械学習
法は、阿部川らの方法（参考文献３参照）における、生
コーパスで頻度による最尤推定とも異なる。最尤推定と
は、固定文脈において頻度の最も大きいものを解とする
手法であり、例えば格助詞を挟む体現と用言とを固定の
文脈とする場合に、「りんご（？）食べる」の形をして
いるもので（？）の位置の助詞のうち最も頻度の高いも
のを解とするものである。

【００１６】以上のように、本発明の目的は、教師信号
借用型機械学習法を用いた言い換えによる変形を含む言
語省略解析処理システムを実現することである。

【００１７】さらに、好ましくは、前記教師信号借用型
機械学習法として、各素性の重要度を素性間の従属的関
係を考慮した枠組みを用いて算出する過程を含む機械学
習法を用いた言語省略解析処理システムを実現すること
である。

【００１８】また、本発明の目的は、教師信号借用型機
械学習法により借用した教師信号と、非借用型機械学習
法の教師信号とによる機械学習法（併用型機械学習法）
を用いた言語解析処理システムを実現することである。

【００１９】さらに、好ましくは、併用型機械学習法と
して、各素性の重要度を素性間の従属的関係を考慮した
枠組みを用いて算出する過程を含む機械学習法を用いる
言語解析処理システムを実現することである。

【００２０】本発明によれば、従来の教師信号以外に大
量の教師信号を借用することができるため、使用する教
師信号が増加し、よって学習の精度向上が期待できる。

【００２１】なお、本発明にかかる併用型機械学習法
は、省略補完処理、文生成処理、機械翻訳処理、文字認
識処理、音声認識処理など、語句を生成する処理を含む
ような極めて広範囲の問題に適用することができ、実用
性の高い言語処理システムに用いることができる。

【００２２】

【課題を解決するための手段】上記の目的を達成するた
め、本発明は、機械学習法を用いて言語解析を行う言語
解析処理システムにおいて、解析対象の情報が付加され
ていないデータから、予め設定された問題表現の構造に
合致する部分を抽出して問題表現相当部とする問題表現
抽出処理手段と、前記問題表現相当部を、問題と解とを
含む教師データに変換する問題構造変換処理手段と、前
記教師データから素性と解との対を抽出し、抽出した素
性と解との対を教師信号として機械学習を行い、学習結
果を学習結果データベースに保存する機械学習処理手段
と、入力されたデータから素性を抽出し、前記学習結果
データベースに保存された前記学習結果をもとに解を推
定する解推定処理手段とを備える。

【００２３】また、前記機械学習処理手段は、多数の素
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。

【００２４】また、前記機械学習処理手段は、前記教師
データから素性と解の対を抽出して借用型教師信号と
し、予め備えられた解析対象の情報が付加されたデータ
から素性と解との対を抽出して非借用型教師信号とし、
前記借用型教師信号および前記非借用型教師信号を用い
て機械学習を行う。

【００２５】また、本発明は、機械学習法を用いた言語
解析処理で用いる教師信号として借用する教師データを
生成する教師データ生成処理方法において、解析対象に
関する情報が付加されていないデータから、予め設定さ
れた問題表現の構造に合致する部分を抽出して問題表現
相当部とし、前記問題表現相当部を、問題と解とから構
成される教師データに変換する処理過程を備える。

【００２６】また、本発明は、機械学習法を用いて言語
解析を行う言語解析処理方法において、解析の問題と解
とを含む教師データを記憶する教師データ記憶手段を備
え、前記教師データから素性と解との対を抽出し、抽出
した素性と解との対を借用型教師信号として機械学習を
行い、学習結果を学習結果データベースに保存する機械
学習処理過程と、入力されたデータから素性を抽出し、
前記学習結果データベースに保存された学習結果をもと
に解を推定する解推定処理過程とを備える。

【００２７】また、前記機械学習処理過程は、多数の素
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。

【００２８】また、本発明は、さらに、解析対象に関す
る解情報が付加されたデータを記憶する解データ記憶手
段を備え、前記機械学習処理過程は、前記教師データか
ら素性と解の対を抽出して借用型教師信号とし、前記解
情報を付加されたデータから素性と解との対を抽出して
非借用型教師信号とし、前記借用型教師信号および前記
非借用型教師信号を用いて機械学習を行う。

【００２９】また、本発明は、機械学習法を用いて言い
換えによる変形を含む言語省略解析を行う言語省略解析
処理システムにおいて、解析対象の情報が付加されてい
ないデータから、予め設定された問題表現の構造に合致
する部分を抽出して問題表現相当部とする問題表現抽出
処理手段と、前記問題表現相当部を、問題と解とを含む
教師データに変換する問題構造変換処理手段と、前記教
師データから素性と解との対を抽出し、抽出した素性と
解との対を教師信号として機械学習を行い、学習結果を
学習結果データベースに保存する機械学習処理手段と、
入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備える。

【００３０】また、前記機械学習処理手段は、多数の素
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。

【００３１】本発明は、解析対象用の教師信号のタグな
どが付与されていないコーパスでも、問題が省略解析に
類似する問題であるならば、その問題を教師信号として
借用できることに着目し、この手法を単に格解析処理に
用いるだけでなく、省略解析に類似するより広範な言語
処理の問題においても利用できる手法を実現したもので
ある。

【００３２】さらに、借用型でない本来の教師信号も併
用する併用型機械学習法を提案して、処理負担の軽減と
処理精度の向上とを図る処理方法を実現したものであ
る。

【００３３】本発明の各処理手段または機能または要素
は、コンピュータにインストールされ実行されるプログ
ラムにより実現される。本発明を実現するプログラム
は、コンピュータが読み取り可能な、可搬媒体メモリ、
半導体メモリ、ハードディスクなどの適当な記録媒体に
格納することができ、これらの記録媒体に記録して提供
され、または、通信インタフェースを介して種々の通信
網を利用した送受信により提供される。

【００３４】

【本発明の実施の形態】〔教師信号借用型機械学習法に
よる処理〕教師信号借用型機械学習法を用いた言語解析
処理のうち日本語解析処理を例に本発明の実施の形態を
説明する。

【００３５】解析処理の一つである照応省略解析処理に
おいては、照応省略に関する情報が付与されていないコ
ーパスを利用することができると考える。その技術理論
的背景を、以下の例を用いて示す。「例：みかんを買い
ました。これを食べました。」「用例ａ：ケーキを食べ
る。」、「用例ｂ：りんごを食べる。」このとき、「こ
れ」の指示先を推定したいとする。この場合に、用例ａ
および用例ｂを使って、「を食べる」の前には食べ物に
ついての名詞句がきそうであると予想し、この予想から
「みかん」が指示先であると推定することができる。こ
こで、用例ａおよび用例ｂは、照応省略に関する情報が
付与されていない普通の文でよい。

【００３６】一方、照応省略に関する情報が付与された
用例を利用して解くことを考える。そのような用例は、
例えば以下のような形をしている。「用例ｃ：りんごを
買いました。これを食べました。（「これ」が「りん
ご」を指す。）」用例ｃでは、「りんごを買いました。
これを食べました。」という文に対して、その文の「こ
れ」が「りんご」を指すという照応省略に関する情報を
付与しておくのである。このような用例ｃを用いること
でも、「りんご」を指す例があるのなら、「みかん」も
指すだろうと判断して、「みかん」を指示先を推定する
ことができる。

【００３７】しかし、用例ｃのように、照応省略に関す
る情報をコーパスに付与することは大変労力のいること
である。したがって、本発明のように、用例ｃの照応省
略に関する情報を用いずに、照応省略に関する情報が付
与されていない用例ａおよび用例ｂを用いることでも問
題を解くことができるのならば、その方がコストが小さ
く、その意味で照応省略に関する情報が付与されていな
い用例を解析に利用できることは価値がある。

【００３８】このような解析対象に関する情報が付与さ
れていない用例を用いた省略解析の例を以下に示す。

【００３９】（１）指示詞・代名詞・ゼロ代名詞照応解
析例：「みかんを買いました。そして｛φを｝食べまし
た。」用例：「｛りんご｝を食べる。」指示詞・代名詞・ゼロ代名詞照応解析は、既に説明した
ように、指示詞や代名詞、文中で省略された代名詞（φ
＝ゼロ代名詞）の指示先を推定するような解析である。
以下の参考文献１０において詳細に説明している。［参
考文献１０］村田真樹、長尾真、用例や表層表現を用い
た日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対
象の推定、言語処理学会誌、Vol.4, No.1(1997) （２）間接照応解析例：「家がある。｛屋根｝は白い。」用例：「｛家｝の屋根」間接照応解析は、「ＡのＢ」の形をした用例を利用する
ことで、「屋根」が前文の「家」の屋根であると推定す
るような解析である。以下の参考文献１１において詳細
に説明している。［参考文献１１］村田真樹、長尾真、意味的制約を用い
た日本語名詞における間接照応解析、言語処理学会誌、
Vol.4, No.2, (1997) （３）動詞の省略補完例：「そううまくいくとは」用例：「そんなにうまくいくとは｛思えない｝。」例「そううまくいくとは」の後ろに省略されている動詞
部分を「そううまくいくとは」を含む文を集めて、その
用例文を用いて推測するような解析である。前述の参考
文献６で説明している。

【００４０】（４）「ＡのＢ」の意味解析例：「写真の人物」⇒「写真に描かれた人物」用例：「写真に人物が描かれる」「ＡのＢ」のような語句の意味関係は多様である。しか
し、意味関係の中には動詞で表現できるものがある。そ
のような動詞は、名詞Ａ、名詞Ｂおよび動詞との共起情
報から推測できる。「ＡのＢ」の意味解析とは、このよ
うな共起情報により意味関係を推測するような解析であ
る。解析の詳細は、以下の参考文献１２に説明されてい
る。［参考文献１２］田中省作、富浦洋一、日高達、統計的
手法を用いた名詞句「ＮＰのＮＰ」の意味関係の抽出、
言語理解とコミュニケーション研究会 NLC98-4,(199
8), pp23-30 （５）換喩解析例：「漱石を読む。」⇒「漱石の小説を読む。」用例：「漱石の小説」「小説を読む」「漱石を読む」の「漱石」は「漱石が書いた小説」を意
味する。換喩解析は、そのような省略された情報を、
「ＡのＢ」「ＣをＶする」という形をした用例を組み合
わせて用いることで補完する解析である。以下の参考文
献１３および参考文献１４において説明している。［参考文献１３］村田真樹、山本専、黒橋禎夫、井佐原
均、長尾真、名詞句「ａのｂ」「ａｂ」を利用した換喩
解析、実行知能学会誌、Vol.15, No.3 (2000) ［参考文献１４］内山将夫、村田真樹、馬青、内元清
貴、井佐原均、統計的手法による換喩の解釈、言語処理
学会誌，Vol.7, No.2, (2000) （６）連体化した節の格解析例：「オープンする施設」⇒格関係＝ガ格用例：「施設がオープンする」連体化した節の格解析とは、名詞と動詞の共起情報を用
いて隠れている連体化した節の格を推定する解析であ
る。解析の内容は前記の参考文献３に詳しく説明されて
いる。

【００４１】図１に、本発明にかかるシステムの構成例
を示す。図１中、１は本発明にかかる言語解析処理シス
テムを表す。言語解析処理システム１は、ＣＰＵ、メモ
リなどで構成され、問題表現相当部抽出部１１、問題表
現情報記憶部１２、問題構造変換部１３、意味解析情報
記憶部１４、教師データ記憶部１５、解−素性対抽出部
１７、機械学習部１８、学習結果データベース１９、素
性抽出部２１、解推定処理部２２を持つ。

【００４２】問題表現相当部抽出部１１は、予め、どの
ようなものが問題表現に相当する部分であるかを記憶し
た問題表現情報記憶部１２を参照して、解析対象の情報
が付与されていない生コーパス２から入力された文につ
いて、問題表現に相当する部分を抽出する手段である。

【００４３】問題表現情報記憶部１２は、前記（１）〜
（６）に示すような省略解析の問題表現を予め記憶して
おく。また、意味解析の場合に用いる意味解析情報は、
予め意味解析情報記憶部１４に記憶しておく。

【００４４】問題構造変換部１３は、問題表現相当部抽
出部１１で抽出された入力文の問題表現に相当する部分
を解として抽出し、さらに、その部分を問題表現に変換
し、変換結果の文を問題とし、かつ、抽出した解を解と
する教師データを教師データ記憶部１５に記憶する手段
である。

【００４５】また、問題構造変換部１３は、問題表現に
変換した結果である文を変形する必要がある場合に、意
味解析情報記憶部１４を参照して、当該結果文を変形し
たものを問題とする。

【００４６】解−素性対抽出部１７は、問題−解の構造
を持つ教師データを記憶する教師データ記憶部１５か
ら、事例ごとに、事例の解と素性の集合との組を抽出す
る手段である。

【００４７】機械学習部１８は、解−素性対抽出部１７
により抽出された解と素性の集合の組から、どのような
素性のときにどのような解になりやすいかを機械学習法
により学習し、その学習結果を学習結果データベース１
９に保存する手段である。

【００４８】素性抽出部２１は、入力されたデータ３か
ら、素性の集合を抽出し、解推定処理部２２へ渡す手段
である。

【００４９】解推定処理部２２は、学習結果データベー
ス１９を参照して、素性抽出部２１から渡された素性の
集合の場合に、どのような解になりやすいかを推定し、
推定結果である解析情報４を出力する手段である。

【００５０】以下に、本発明の処理の流れを説明する。

【００５１】図２に、教師データの生成処理の処理フロ
ーチャートを示す。

【００５２】ステップＳ１：まず、生コーパス２から解
析対象の情報がなにも付与されていない普通の文が問題
表現相当部抽出部１１に入力される。

【００５３】ステップＳ２：問題表現相当部抽出部１１
では、生コーパス２から入力された普通文の構造を検出
し、入力された普通文から問題表現に相当する部分を抽
出する。このとき、どのようなものが問題表現相当部で
あるかの情報は、問題表現情報記憶部１２に記憶されて
いる問題表現情報により与える。すなわち問題表現の構
造と検出した普通文の構造とのマッチングを行い、一致
するものを問題表現相当部とする。

【００５４】ステップＳ３：問題構造変換部１３では、
問題表現相当部抽出部１１で抽出された問題表現相当部
を解として抽出し、その部分を問題表現に変換する。そ
して、変換結果の文を問題とし抽出した解を解とする教
師データを教師データ記憶部１５に記憶する。

【００５５】なお、問題構造変換部１３では、問題表現
に変換する際に、意味解析情報を必要とする場合には、
予め意味解析情報記憶部１４に記憶されている意味解析
情報を参照する。

【００５６】具体的には、以下のような処理を行う。

【００５７】例えば、前述（３）に示す動詞の省略補完
の場合には、問題表現情報記憶部１２には、文末の動詞
部分が問題表現相当部として記述されている。そして、
生コーパス２から、「そんなにうまくいくとは思えな
い」という文が入力されると、問題表現相当部抽出部１
１では、文末の動詞「思えない」が問題表現相当部であ
ると認識する。

【００５８】問題構造変換部１３では、文末の動詞「思
えない」を解として抽出し、元の文の動詞「思えない」
の部分を”省略された動詞”という記号に置き換える。
この結果、「問題⇒解」：「そんなにうまくいくとは”
省略された動詞”」⇒「思えない」という教師データが
得られるので、この教師データを教師データ記憶部１５
へ記憶する。

【００５９】そして、この教師データは、文脈：「そん
なにうまくいくとは」，分類先：「思えない」という形
式の機械学習法で用いる教師信号とすることができる。
すなわち、解−素性対抽出部１７では、教師データを文
脈から分類先を学習する教師あり機械学習の問題として
使用することができる。

【００６０】また、前述（１）の格解析の場合には、問
題表現情報記憶部１２には、格助詞が問題表現相当部と
して記述されている。そして、生コーパス２から、「り
んごを食べる」という文が入力されると、問題表現相当
部抽出部１１では、格助詞「を」が問題表現相当部とし
て認識する。

【００６１】問題構造変換部１３では、格助詞「を」を
解として抽出し、元の文の格助詞「を」の部分を”認識
すべき格”という記号に置き換える。この結果、「問題
⇒解」：「りんご”認識すべき格”食べる」⇒「を」と
いう教師データが得られるので、この教師データを教師
データ記憶部１５へ記憶する。この場合も同様に、解−
素性対抽出部１７を介して、文脈：「食べる」，分類
先：「りんごを」という教師信号となる。

【００６２】前述した他の解析例についても、同様の処
理を行い、それぞれの教師データを出力する。そして、
例えば、前述（２）の間接照応解析の場合には、文脈：
「の屋根」，分類先：「家」という教師信号に、また、
前述（４）の「ＡのＢ」の意味解析の場合には、文脈：
「写真」「人物」，分類先：「描かれる」という教師信
号に、また、前述（５）の換喩解析の場合には、文脈：
「漱石の」，分類先：「小説」文脈：「を読む」，分類
先：「小説」という教師信号に、また、前述（６）の連
体化における格解析の場合は、文脈：「施設」「オープ
ンする」，分類先：「ガ格」という教師信号になる。

【００６３】このように、省略解析と解釈できる問題表
現については、解析対象用のタグがついていない生コー
パス２を機械学習方法の教師信号とすることができる。

【００６４】特に、単純な省略補完だけではなく、例え
ば「オープンする施設」を「施設がオープンする」とと
らえる格解析のように、言葉を少し補って言い換えて解
釈するような問題についても、生コーパス２を機械学習
方法の教師信号とすることができる。すなわち、意味解
釈の問題は、たいていの場合、言い換えた文によってそ
の答えを表現するため、本発明は言葉を少し補いながら
言い換えて解釈するような問題一般も適用範囲に含める
ことができることを意味する。一例として、本発明を質
問応答システムに適用する場合について説明する。

【００６５】質問応答システムでの質問応答は、疑問詞
の部分が省略しておりこの部分を補完する問題であると
考えることができる。この場合に、よく似た文を集めて
その文の疑問詞にあたる部分を解答として出力する（参
考文献７〜９参照）。

【００６６】例えば、以下のような質問および解答の事
例の場合に、事例：「日本の首都はどこですか」⇒解答
＝東京用例：「日本の首都は東京です」という教師デー
タは、文脈：「日本の首都は」，分類先：「東京」文
脈：「の首都は東京です」，分類先：「日本」という教
師信号になる。

【００６７】このように、教師データ記憶部１５に記憶
される教師データは、通常の教師信号の形式と同じよう
な構造になっているため、教師あり機械学習法の教師信
号として用いることができ、さまざまな高度な手法が提
案されている機械学習法の中から最適な手法を選択して
問題を解くことができる。

【００６８】また、機械学習法では、解析に用いる情報
をかなり自由に定義することができることから、広範な
情報を教師信号として利用でき、結果的に解析精度が向
上しやすい。

【００６９】図３に、教師データを教師信号とする機械
学習法による解析処理の処理フローチャートを示す。

【００７０】ステップＳ１１：まず、解−素性対抽出部
１７では、教師データ記憶部１５から、各事例ごとに、
解と素性の集合との組を抽出する。素性とは、解析に用
いる情報の細かい１単位を意味する。解−素性対抽出部
１７は、素性の集合を機械学習に用いる文脈とし、解を
分類先とする。

【００７１】ステップＳ１２：続いて、機械学習部１８
では、抽出された解と素性の集合との組から、どのよう
な素性のときにどのような解になりやすいかを機械学習
し，その学習結果を学習結果データベース１９に保存す
る。

【００７２】機械学習の手法は、多数の素性の重要度を
各素性同士の従属性を考慮して自動で求める枠組みを用
いて算出する処理過程を含むものであればよい。例え
ば、以下に示すような決定リスト法、最大エントロピー
法、サポートベクトルマシン法などを用いるが、これら
の手法に限定されない。

【００７３】決定リスト法は、素性（解析に用いる情報
で文脈を構成する各要素) と分類先の組を規則とし、そ
れらをあらかじめ定めた優先順序でリストに蓄えおき、
解析すべき入力が与えられたときに、リストで優先順位
の高いところから入力のデータと規則の素性を比較し素
性が一致した規則の分類先をその入力の分類先とする方
法である。

【００７４】最大エントロピー法は、あらかじめ設定し
ておいた素性ｆ_j（１≦ｊ≦ｋ）の集合をＦとすると
き、所定の条件式を満足しながらエントロピーを意味す
る式を最大にするときの確率分布ｐ（ａ，ｂ）を求め、
その確率分布にしたがって求まる各分類の確率のうち、
もっとも大きい確率値を持つ分類を求める分類とする方
法である。

【００７５】サポートベクトルマシン法は、空間を超平
面で分割することにより、２つの分類からなるデータを
分類する手法である。

【００７６】本形態では、最も処理精度の高いサポート
ベクトルマシン法を用いた処理例についての詳細な説明
を後述する。

【００７７】決定リスト法および最大エントロピー法に
ついては、以下の参考文献１５に説明している。［参考
文献１５] 村田真樹、内山将夫、内元清貴、馬青、井佐
原均、種々の機械学習法を用いた多義解消実験、電子情
報通信学会言語理解とコミュニケーション研究会，NCL2
001-2, (2001)ステップＳ１３：解を求めたいデータ３
が素性抽出部２１に入力される。

【００７８】ステップＳ１４：素性抽出部２１では，解
−素性対抽出部１７での処理とほぼ同様に，入力された
データ３から素性の集合を取り出し，それらを解推定処
理部２２へ渡す。

【００７９】ステップＳ１５：解推定処理部２２では，
渡された素性の集合の場合にどのような解になりやすい
かを学習結果データベース１９をもとに特定し、特定し
た解である解析情報４を出力する。

【００８０】例えば，データ３が「りんごは食べる」で
あって、解析したい問題が「認識すべき格」であれば、
「ヲ格」という格情報を出力する。また、データ３が
「そんなにうまくいくとは」であって、解析したい問題
が「補完すべき動詞」であれば、省略された動詞「思え
ない」を出力する。

【００８１】図４に、機械学習法としてサポートベクト
ルマシン法を用いる場合のシステム構成例を示す。図４
に示す言語解析処理システム５の構成例は、図１に示す
構成例とほぼ同様である。図４において、図１に示す手
段と同一の機能を持つ手段には同一の番号を付与してい
る。

【００８２】素性−解対・素性−解候補対抽出部５１
は、教師データ記憶部１５から、事例ごとに、事例の解
もしくは解候補と事例の素性の集合との組を抽出する手
段である。ここで、解候補とは、解以外の解の候補を意
味する。

【００８３】機械学習部５２は、素性−解対・素性−解
候補対抽出部５１により抽出された解もしくは解候補と
素性の集合との組から、どのような解もしくは解候補と
素性の集合のときに、正例である確率または負例である
確率を、例えばサポートベクトルマシン法により学習
し、その学習結果を学習結果データベース５３に保存す
る手段である。

【００８４】素性−解候補抽出部５４は、入力されたデ
ータ３から、解候補と素性の集合とを抽出し、解推定処
理部５５へ渡す手段である。

【００８５】解推定処理部５５は、学習結果データベー
ス５３を参照して、素性−解候補抽出部５４から渡され
た解候補と素性の集合との場合に、正例または負例であ
る確率を求めて、正例である確率が最も大きい解候補を
解析情報４として出力する手段である。

【００８６】サポートベクトルマシン法を説明するた
め、図５に、サポートベクトルマシン法のマージン最大
化の概念を示す。図５において、白丸は正例、黒丸は負
例を意味し、実線は空間を分割する超平面を意味し、破
線はマージン領域の境界を表す面を意味する。図５
（Ａ）は、正例と負例の間隔が狭い場合（スモールマー
ジン）の概念図、図５（Ｂ）は、正例と負例の間隔が広
い場合（ラージマージン）の概念図である。

【００８７】このとき、2 つの分類が正例と負例からな
るものとすると、学習データにおける正例と負例の間隔
（マージン) が大きいものほどオープンデータで誤った
分類をする可能性が低いと考えられ、図５（Ｂ）に示す
ように、このマージンを最大にする超平面を求めそれを
用いて分類を行なう。

【００８８】サポートベクトルマシン法は基本的には上
記のとおりであるが、通常、学習データにおいてマージ
ンの内部領域に少数の事例が含まれてもよいとする手法
の拡張や、超平面の線形の部分を非線型にする拡張（カ
ーネル関数の導入) がなされたものが用いられる。

【００８９】この拡張された方法は、以下の識別関数を
用いて分類することと等価であり、その識別関数の出力
値が正か負かによって二つの分類を判別することができ
る。

【００９０】

【数１】

【００９１】ただし、ｘは識別したい事例の文脈（素性
の集合) を、ｘ_iとｙ_j（ｉ＝１，…，ｌ，ｙ_j∈
｛１，−１｝）は学習データの文脈と分類先を意味し、
関数ｓｇｎは、ｓｇｎ（ｘ）＝１（ｘ≧０）（２） −１（otherwise ）であり、また、各α_iは式（４）と式（５）の制約のも
と式（３）を最大にする場合のものである。

【００９２】

【数２】

【００９３】また、関数Ｋはカーネル関数と呼ばれ、様
々なものが用いられるが、本形態では以下の多項式のも
のを用いる。

【００９４】Ｋ（ｘ，ｙ）＝（ｘ・ｙ＋１）^d （６）Ｃ、ｄは実験的に設定される定数である。後述する具体
例ではＣはすべての処理を通して１に固定した。また、
ｄは、１と２の二種類を試している。ここで、α _i＞０
となるｘ_iは，サポートベクトルと呼ばれ、通常，式
（１) の和をとっている部分はこの事例のみを用いて計
算される。つまり、実際の解析には学習データのうちサ
ポートベクトルと呼ばれる事例のみしか用いられない。

【００９５】なお、拡張されたサポートベクトルマシン
法の詳細については、以下の参考文献１６および参考文
献１７を参照されたい。［参考文献１６］Nello Cristianini and John Shawe-T
aylor, An Introductionto Support Vector Machines a
nd other kernel-based learning methods,(Cambridge
University Press,2000) ［参考文献１７］Taku Kudoh, Tinysvm:Support Vector
machines,(http://cl.aist-nara.ac.jp/taku-ku//soft
ware/Tiny SVM/index.html,2000) サポートベクトルマシン法は、分類の数が２個のデータ
を扱うもので、通常これにペアワイズ手法を組み合わせ
て用いることで、分類の数が３個以上のデータを扱うこ
とになる。

【００９６】ペアワイズ手法とは、Ｎ個の分類を持つデ
ータの場合に、異なる二つの分類先のあらゆるペア（Ｎ
（Ｎ−１）／２個) を作り、各ペアごとにどちらがよい
かを2 値分類器（ここではサポートベクトルマシン法に
よるもの）で求め、最終的にＮ（Ｎ−１）／２個の２値
分類器の分類先の多数決により、分類先を求める方法で
ある。

【００９７】本形態における２値分類器としてのサポー
トベクトルマシンは、サポートベクトルマシン法とペア
ワイズ手法を組み合わせることによって実現するもので
あり、以下の参考文献１８により工藤氏が作成したＴｉ
ｎｙＳＶＭを利用している。［参考文献１８］工藤拓松本裕治，Support vector m
achineを用いたchunk 同定、自然言語処理研究会、 200
0-NL-140,(2000) 図６に、機械学習法としてサポートベクトルマシン法を
用いた解析処理の処理フローチャートを示す。

【００９８】ステップＳ２１：素性−解対・素性−解候
補対抽出部５１では、各事例ごとに、解もしくは解候補
と素性の集合との組を抽出する。解と素性の集合との組
を正例、解候補と素性の集合との組を負例とする。

【００９９】ステップＳ２２：機械学習部５２では、解
もしくは解候補と素性の集合との組から、どのような解
もしくは解候補と素性の集合のときに正例である確率ま
たは負例である確率であるかを機械学習法例えばサポー
トベクトルマシン法により学習する。そして、その学習
結果を学習結果データベース５３に保存する。

【０１００】ステップＳ２３：素性−解候補抽出部５４
に、解を求めたいデータ３が入力される。

【０１０１】ステップＳ２４：素性−解候補抽出部５４
では、入力されたデータ３から解候補と素性の集合との
組を取り出し、解推定処理部５５へ渡す。

【０１０２】ステップＳ２５：解推定処理部５５では、
渡された解候補と素性の対の場合に、正例である確率お
よび負例である確率を求める。この確率は、すべての解
候補について計算する。

【０１０３】ステップＳ２６：解推定処理部５５では、
すべての解候補の中から、正例である確率が最も大きい
解候補を求め、その解候補を解とする解析情報４を出力
する。

【０１０４】〔借用型教師信号を用いた機械学習法によ
る処理〕教師データ記憶部１５に記憶される教師データ
は、通常の教師信号の形式である「問題⇒解」となって
いる。このため、本来の解析対象用のタグのついたコー
パスからデータをとった教師信号（非借用型教師信号）
と同時に併用して用いることができる。教師データと、
非借用型教師信号とを併用すれば、多くの情報を利用で
きるために機械学習の結果の精度が向上する。

【０１０５】ところで、照応解析などでは、指示先が本
文にあり用例だけの情報で指示先を特定するのは困難な
問題もあるため、借用した教師データだけを用いて解析
を行なうことはできない場合もある。このような場合に
は、非借用型教師信号、すなわち従来の教師信号も用い
る併用型機械学習法を用いた処理によって対処すること
ができる。

【０１０６】用例「りんごも食べる」について、生成す
る教師データとして、「問題⇒解」：「リンゴ”認識す
べき格”食べる」⇒「を」が得られる。一方、本来の教
師信号では、「問題⇒解」：「りんごも食べる」⇒
「を」であることを考えると、「も」と”認識すべき
格”の部分が少し異なる。「も」も”認識すべき格”の
一部ではあるが、本来の教師信号の「も」の方が、
「も」があるだけ情報量が多いことになる。すなわち、
非借用型教師信号の方が情報が多い。よって、併用型教
師あり機械学習法による処理がよりよいと考えられる。

【０１０７】また、格解析でも、つねに表層格を補完す
るのではなく、表層格を用いた文に変形できないことか
ら、外の関係（格関係にならない関係）などは教師デー
タでは扱えない問題もある。

【０１０８】しかし、ここで格解析というしばりを排し
て言い換えによる文解釈という立場から見れば、外の関
係も教師データを用いた機械学習で扱えることになる。
例えば、外の関係の文「さんまを焼くけむり」は、「さ
んまを焼く時に出るけむり」と言い換えて解釈できる場
合がある。「さんまを焼く時に出るけむり」と言い換え
る解釈を正解とする問題設定であるならば、連体節とそ
の係り先の名詞との間の省略された表現「時に出る」を
補完するという省略補完の問題となり、借用型教師デー
タを用いた機械学習で扱える問題となり、併用型機械学
習法による処理に適している。

【０１０９】また、省略解析だけでなく、生成について
も取り扱うことができると考える。教師信号借用型機械
学習法すなわち、解析対象とするタグがふられていない
コーパスを用いることができるという点で、省略解析と
生成とが似ていることについては、以下の参考文献１９
で指摘した。［参考文献１９］村田真樹、長尾真、表層表現と用例を
用いた照応省略解析手法、言語理解とコミュニケーショ
ン研究会 NCL97-56,(1997) 例えば格助詞の生成の例を示す。格助詞の生成では、例
えば問題−解の組は、「問題⇒解」：「りんご←（obj)
−食べる」⇒「を」といったものになる。生成の場合
に、一般に生成される部分の意味を深層格など（例：ob
j ）を用いて表現する。ここで、obj とは目的格を意味
する。この問題−解の組は、このobj の部分が格助詞の
生成の結果では「を」になるということを示しており、
前述でいう非借用型教師信号に相当する。

【０１１０】また、この問題での借用型教師信号は、解
析対象とするタグがふられていない生コーパス２から
「りんごを食べる」といった文を取り出して、それを借
用型教師信号として扱うことで以下のようなものとな
る。

【０１１１】「問題⇒解」：「りんご”生成すべき格”
食べる」⇒「を」これらの非借用型教師信号と借用型教
師信号とは非常に類似しており、「obj」と”生成すべ
き格”の部分とが少し異なるだけで借用型教師信号も非
借用型教師信号と同様に教師信号として十分に用いるこ
とができる。つまり、格助詞の生成においても教師信号
借用型機械学習法を用いることができる。

【０１１２】また「obj 」と”生成すべき格”の部分と
では、「obj 」の方が、「obj 」があるだけ情報量が多
い。このため、この問題においても、本来の教師信号、
すなわち非借用型教師信号の方が情報が多いことにな
る。したがって、借用型教師信号だけでなく非借用型教
師信号を用いる併用型機械学習法による処理を用いる方
がよりよい。

【０１１３】また、英日機械翻訳における格助詞生成の
例を示す。この問題では、問題−解の組は、「問題⇒
解」：「eat → apple」⇒「を」のように与えられる。
これは、 "I eat apple." という文の eatと appleの関
係が、英語から日本語に変換すると「を」になるという
ことを示しており、非借用型教師信号に相当するもので
ある。この問題でも解析対象とするタグがふられていな
い生コーパス２から「りんごを食べる」といった文を取
り出して、それを借用型教師信号として扱うことで、
「問題⇒解」：「りんご”生成すべき格”食べる」⇒
「を」となる。

【０１１４】ここで、問題をみると、本来の教師信号
（非借用型教師信号）と借用型教師信号とは、全然一致
する部分がないことがわかる。このままでは借用型教師
信号は役に立たない。そこで、それぞれの信号について
問題部分は英日もしくは日英翻訳しておく。そうすると
「問題⇒解」：「eat （食べる) → apple（りんご) 」
⇒「を」「問題⇒解」：「りんご（apple)”生成すべき
格”食べる (eat)」⇒「を」のようになる。この状態で
あれば少々は一致するため、借用型教師信号も教師信号
として役に立つ。例えば、単語を切り出して、それらを
学習に用いる素性とする場合に、それらは「eat 」、
「apple 」、「食べる」、「りんご」であり、ほとんど
一致する。

【０１１５】また、機械翻訳では各部分の翻訳の候補を
組み合わせて全体の翻訳を組み合わせることもあり、他
の部分の翻訳を先に処理することを前提にすれば「eat
→apple 」の部分を「食べる→りんご」などにすでにな
っていることを前提として「問題⇒解」：「食べる→り
んご」⇒「を」という教師信号になっていると扱っても
よい。

【０１１６】この場合も本来の教師信号の問題部分と借
用する教師信号とに一致部分があるため、併用型機械学
習法を利用することができる。

【０１１７】また、各部分の翻訳の候補を組み合わせて
全体の翻訳を組み合わせる際に、各部分の翻訳の候補を
複数残しておいて、それらの組み合わせの分をすべて解
候補として残しながら解を求めていくようにしてもよ
い。このように翻訳の候補を解候補として扱うようにし
ても、上記のように自分（この場合「を」）以外の部分
（この場合は、「食べる」および「りんご」）の翻訳結
果を利用することができる。

【０１１８】併用型機械学習法による処理の場合に、図
１または図４に示すシステム構成例において、解データ
ベース１６を予め用意しておく必要がある。解データベ
ース１６は、従来の教師あり機械学習法で用いられる、
解析情報を人手などにより付与したコーパスなどであ
る。そして、図１に示すシステムの場合に、解−素性対
抽出部１７は、教師データ記憶部１５および解データベ
ース１６から、各事例ごとに解と素性の集合との組を抽
出する。また、図４に示すシステムにおいても、素性−
解対・素性−解候補対抽出部５１は、同様に、教師デー
タ記憶部１５および解データベース１６から、各事例ご
とに解もしくは解候補と素性の集合との組を抽出する。

【０１１９】〔具体例〕本形態における具体的な処理例
について説明する。

【０１２０】具体例での格解析の問題設定と素性（解析
に用いる情報) について、すなわち機械学習に用いる文
脈（素性の集合) と分類先を説明する。格解析を行なう
対象は以下のものとした。・連体化した節の用言とその
係り先の体言との間の関係・格助詞のみがつく体言、助
詞が一切つかない体言を除く体言が用言にかかる場合の
その体言と用言との関係（例えば、「この問題｛さえ｝
解かれた。」)また、分類先として、ガ格、ヲ格、ニ
格、デ格、ト格、カラ格（６分類）およびその他 (外の
関係、格関係にならない主題など) の７つの分類を用い
た。このとき、受け身の文の場合でも受け身の文型のま
ま表層格の推定を行なうこととした。例えば「解かれた
問題」の場合には、「問題が解かれた」となるのでガ格
として扱う。受け身を能動態に直して「問題を解く」と
解釈してヲ格とはしなかった。

【０１２１】また、外の関係とは、関係節の用言と係り
先の体言が格関係にならない場合のことをいう。例え
ば、「さんまを焼くにおい」の文の「焼く」と「にお
い」とは格関係が成立しないので、このような文は外の
関係と呼ばれる。

【０１２２】また、連体化以外で「その他」の分類とす
るものに、例えば、「｛九一年も｝出生数が前年より千
六百六十人多かった」の「九一年も」がある。この「九
一年も」は、ガガ文としてガ格としてもよい場合もある
からである。

【０１２３】また、以下の「過去一年間に｛三度も｝首
相が代わる」の「三度も」のような副詞も「その他」の
分類とした。

【０１２４】本例では、助詞「も」がなければ解析の対
象としないこととした。助詞の脱落現象の少ない分野の
データならば、助詞が一つもついていなければ副詞と判
断してもよいだろうが、助詞の省略が存在するとなる
と、助詞のついていない体言も係り先の用言と格関係を
持つ可能性があるために、それらの体言もすべて解析対
象とする必要があるためである。

【０１２５】また、文脈としては以下のものを定義し
た。ただし、体言ｎと用言ｖの間の格関係を求める場合
として表している。１．問題が連体節か主題化のものか主題化の場合は体言
ｎについている助詞２．用言ｖの品詞３．用言ｖの単語の基本形４．用言ｖの単語の分類語彙表の分類番号の1 、2 、3
、4 、5 、7 桁までの数字。ただし、分類番号に対し
て文献の表の変更を行なっている。５．用言ｖにつく助動詞列（例：「れる」、「させ
る」）６．体言ｎの単語７．体言ｎの単語の分類語彙表の分類番号の1 、2 、3
、4 、5 、7 桁までの数字。ただし、分類番号に対し
て文献の表の変更を行なっている。８．用言ｖにかかる体言ｎ以外の体言の単語列ただし、どういった格でかかっているかの情報をAND で
つけることとした。９．用言ｖにかかる体言ｎ以外の体言の単語集合の分類
語彙表の分類番号の1 、2 、3 、4 、5 、7 桁までの数
字。ただし、分類番号に対して文献の表の変更を行なっ
ている。また、どういった格でかかっているかの情報を
AND でつけることとした。１０．用言ｖにかかる体言ｎ以外の体言がとっている格１１．同一文に共起する語本例では、以上の素性のいくつかを用いて行った。な
お、教師信号借用型機械学習法を用いる場合は、前記
１．の素性は用いることができない。

【０１２６】まず従来の教師あり機械学手法（非借用型
機械学習法）を用いた処理を行なった。データは京都大
コーパス中の毎日新聞９５年１月１日の一日分を用いた
（参考文献２０参照）。［参考文献２０］黒橋禎夫、長
尾真、京都大学テキストコーパス・プロジェクト、言語
処理学会第３回年次大会、1997、pp115-118このデータ
に対し、前記したように定義した問題設定で分類先を付
与した。京大コーパスの構文タグが誤っていると判明し
た部分はデータから除いた。事例数は１，５３０個であ
った。図７に、全事例における分類先の出現の分布を示
す。この事例の分布から、コーパスの用例中、ガ格が圧
倒的に多く、ついで連体における外の関係が多いことが
わかる。

【０１２７】次に、教師信号借用型機械学習法を用いた
処理を行なった。借用する教師データ用の用例は京大コ
ーパス中の毎日新聞９５年１月１〜１７日の１６日分
（約２万文) を用いた。このデータのうち、体言と用言
を係り受け関係を格助詞のみで結んでいるもののみを教
師データとした。全事例数は５７，８５３個であった。
このとき、前記の定義の素性のうち１．の素性は、主題
化・連体化していないものからデータをもってくるため
に用いることができない。

【０１２８】機械学習法としては、ＴｉＭＢＬ法、シン
プルベイズ法、決定リスト法、最大エントロピー法、サ
ポートベクトルマシン法を用いた。ＴｉＭＢＬ法、シン
プルベイズ法については、処理精度の比較のために用い
た。

【０１２９】なお、ＴｉＭＢＬ法は、Daelemans らが開
発したシステムで、類似するｋ個の事例でもとめるｋ近
傍法を用いるものになっている（参考文献５参照）。さ
らにＴｉＭＢＬ法では事例間の類似度はあらかじめ定義
しておく必要はなく、素性を要素とした重みつきのベク
トルの間の類似度という形で自動的に算出される。また
本稿ではｋ＝３を用いその他はデフォルトの設定で利用
した。シンプルベイズ法は、あらかじめ類似度の定義を
与えるｋ近傍法の一手法である。

【０１３０】まず、教師信号借用型機械学習法の基本性
能を調べるために、表層格の再推定という問題を解く。
これは文中の表層格を消して、それをもう一度推定でき
るか否かを試すものである。この問題を対象として、さ
きほどの借用型教師信号（５７，８５３個) で記事ごと
の１０分割のクロスバリデーションを用いて実験した。

【０１３１】図８に、各手法の処理の結果（精度）を示
す。ＴｉＭＢＬ、ＳＢ、ＤＬ、ＭＥ、ＳＶＭは、それぞ
れＴｉＭＢＬ法、シンプルベイズ法、決定リスト法、最
大エントロピー法、サポートベクトルマシン法を意味す
る。図８に示すように、サポートベクトルマシン法（Ｓ
ＶＭ）がもっとも精度が良く、７割の精度を得た。

【０１３２】この処理の結果からも、文生成における助
詞の生成については、少なくともこの精度で処理を行え
ることを示している。また、文生成の処理の場合には、
併用型機械学習法を用いた処理を用いることにより、深
層格などなんらかの格に対する情報を入力としても与え
ることができるため、図８に示す処理結果よりも高い精
度が得られると考えられる。また、一般的な助詞脱落の
補完問題は、この程度の処理精度を得ることができれ
ば、解けるであろうことがわかる。

【０１３３】さらに、教師信号借用型機械学習法を用い
て、最初に用意した主題化・連体化したデータで、表層
格復元の処理を行なった。この場合には、借用型教師信
号では外の関係などの「その他」の分類を推定すること
ができないので、「その他」の分類の事例を除いて処理
を行なった。そのため、評価用のデータの事例数は１，
５３０から１，１８８に減少した。機械学習にはさきほ
ど集めた借用型教師信号（５７，８５３個) を用いた。
図９に、この処理の結果を示す。

【０１３４】また、この処理では、ガ格、ヲ格、ニ格、
デ格の４つの格のそれぞれの精度の平均でも評価した。
図１０に、この処理の結果を示す。

【０１３５】ここでは比較のために、この１，１８８事
例を学習に用いた非借用型機械学習法による結果も示
す。また、この１，１８８個の非借用教師信号と、５
７，８５３個の借用教師信号の両方を併用する併用型機
械学習法による結果も示す。ただし、これらの処理では
記事を単位とする１０分割のクロスバリデーションを行
ない、解析対象の事例と同じ記事の借用教師信号と非借
用教師信号は用いないようにした。

【０１３６】結果より以下のことがわかる。まず、図９
に示す処理結果の全事例での精度で検討する。機械学習
法としてはサポートベクトルマシン法が一般的に最も良
い。したがって、以降の検討ではサポートベクトルマシ
ン法の結果のみを使うこととした。

【０１３７】借用型機械学習法での精度は５５．３９％
であった。主な格の出現がガ格、ヲ格、ニ格、デ格の４
つであったので、ランダムな選択の場合の処理精度は２
５％であるから、これよりはよい結果となっている。借
用した教師信号を用いた場合の精度としてはよいものと
思われる。

【０１３８】併用型、借用型、非借用型の中では非借用
型機械学習法が最もよかった。借用型教師信号としたデ
ータは、実際の問題とは異なる性質を持っている可能性
がある。したがって、このようなデータを借用すること
により、処理精度が低下する可能性は十分ありうる。図
９に示す処理結果は、このような状況を反映したものと
考えられる。

【０１３９】この処理の評価に用いたデータは１，１８
８事例であり、そのうちガ格は１，０２５事例であり、
ガ格の出現確率は８６．２８％である。したがって、何
も考えずに、すべてガ格であると判定したと場合でも、
８６．２８％の精度を得る。しかし、このような判定で
は、他の格の解析精度は０％であり、この処理結果は利
用先によっては何も役に立たない可能性がある。そこ
で、図１０に示す処理の結果に示したガ格、ヲ格、ニ
格、デ格の４つの格のそれぞれでの精度の平均での評価
も行なった。この評価によれば、最も頻度の高い分類に
決め打ちにする手法だと精度は２５％となる。併用型、
借用型、非借用型ともに、この２５％の精度よりは高い
ことがわかる。

【０１４０】平均での評価では、精度の順は併用型、借
用型、非借用型となっている。非借用型機械学習法は、
問題に密接な教師信号を用いるために高い精度を得やす
いとはいえ、本例のように事例数が少ない場合には他の
機械学習法よりも精度が低くなる場合があることがわか
る。

【０１４１】併用型機械学習法は、図９に示す評価にお
いても、借用型機械学習法に１％劣っているだけで、図
１０に示す平均での評価では圧倒的によく、両方の評価
基準ともによい結果を得ている。

【０１４２】以上のことから、借用型機械学習法がラン
ダムな選択より有効であり、かつ分類先の平均を評価基
準とすると非借用型機械学習法より有効であることがわ
かる。また、併用型機械学習法が複数の評価基準で安定
してよい結果を示したことがわかる。よって、借用型機
械学習法と併用型機械学習法の有効性が示された。

【０１４３】次に、外の関係などの「その他」の分類も
含めた格解析全般の処理を行なった。この処理では、評
価用のデータ（１，５３０事例) をすべて用いた。この
処理では併用型および非借用型の２つの機械学習法で行
った。借用教師信号だけでは「その他」の分類を特定で
きないため、借用型機械学習法は用いなかった。図１１
に、この処理の結果を示す。

【０１４４】また、この処理では、ガ格、ヲ格、ニ格、
デ格、”その他”の５つの分類先のそれぞれでの精度の
平均でも評価した。図１２に、この処理の結果を示す。
処理結果から、サポートベクトルマシン法による処理の
精度が最も良く、また、併用型機械学習法は全事例での
処理の精度で１％ほど非借用より低いだけであって、平
均精度では併用型機械学習法の方が圧倒的に高かった。

【０１４５】以上の具体例に示すように、教師信号借用
型機械学習法がランダムな解析よりも精度が高くまた分
類先ごとの精度を平均した精度では非借用型機械学習法
よりも精度が高いことがわかった。また、併用型機械学
習法が全事例での精度だけでなく、分類先ごとの精度を
平均した精度でも高く複数の評価基準において安定して
高い精度を得ることを確認した。これらのことから、本
発明の解析処理における有効性が確認された。

【０１４６】以上、本発明をその実施の態様により説明
したが、本発明はその主旨の範囲において種々の変形が
可能である。

【０１４７】

【発明の効果】以上説明したように、本発明によれば、
従来の教師信号以外に大量の教師信号を借用することが
できるため、使用する教師信号が増加し、よって学習の
精度向上が期待できる。

【０１４８】特に、本発明にかかる併用型機械学習法
は、省略補完処理、文生成処理、機械翻訳処理、文字認
識処理、音声認識処理など、語句を生成する処理を含む
ような極めて広範囲の問題に適用することができ、実用
性の高い言語処理システムを実現することができる。

【０１４９】機械学習法には、さまざまな高度な手法が
提案されている。本発明では、格解析などの言語処理を
機械学習法の問題として扱うことができるように変換す
る。これにより、その時に応じた最もよい機械学習法を
選択して言語処理の問題を解くことができる。

【０１５０】また、よりよい手法を用いることに加え
て、より良い、かつ、より多くのデータ、素性を用いる
ことは、処理精度の向上に必要である。本発明では、教
師信号借用型機械学習法や併用型機械学習法を用いるこ
とにより、広範な情報を利用して解析に関係する広範な
問題を取り扱うことができ、特に、教師信号借用型機械
学習法により、人手で解析情報を付与していない用例を
使用することができる。これにより、労力の負担を伴わ
ずにより多くの情報を利用できることによる処理精度の
向上を図ることができるという効果を奏する。

【０１５１】また、本発明では併用型機械学習法によ
り、多くの情報を用いることに加えて、従来の教師信号
を用いたより良い情報をも用いて言語処理を行う。これ
により、いっそうの処理の精度の向上を図ることができ
るという効果を奏する。

【図面の簡単な説明】

【図１】本発明にかかるシステムの構成例を示す図であ
る。

【図２】教師データの生成処理の処理フローチャートで
ある。

【図３】教師信号借用型機械学習法による解析処理の処
理フローチャートである。

【図４】機械学習法としてサポートベクトルマシン法を
用いる場合のシステム構成例を示す図である。

【図５】サポートベクトルマシン法のマージン最大化の
概念を示す図である。

【図６】機械学習法としてサポートベクトルマシン法を
用いた場合の解析処理の処理フローチャートである。

【図７】全事例における分類先の出現の分布を示す図で
ある。

【図８】格助詞の再推定問題の処理の精度を示す図であ
る。

【図９】主題化・連体化現象における表層格復元の処理
の精度を示す図である。

【図１０】主題化・連体化現象における表層格復元の処
理の精度の平均を示す図である。

【図１１】格解析全般での処理の精度を示す図である。

【図１２】格解析全般での処理の精度の平均を示す図で
ある。

【符号の説明】

１言語解析処理システム（ＣＰＵ／メモリ）２生コーパス３データ４解析情報１１問題表現相当部抽出部１２問題表現情報記憶部１３問題構造変換部１４意味解析情報記憶部１５教師データ記憶部１６解データベース１７解−素性対抽出部１８機械学習部１９学習結果データベース２１素性抽出部２２解推定処理部

Claims

【特許請求の範囲】

【請求項１】機械学習法を用いて言語解析を行う言語
解析処理システムにおいて、解析対象の情報が付加されていないデータから、予め設
定された問題表現の構造に合致する部分を抽出して問題
表現相当部とする問題表現抽出処理手段と、前記問題表現相当部を、問題と解とを含む教師データに
変換する問題構造変換処理手段と、前記教師データから素性と解との対を抽出し、抽出した
素性と解との対を教師信号として機械学習を行い、学習
結果を学習結果データベースに保存する機械学習処理手
段と、入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備えることを特徴とする機械学習
法を用いた言語解析処理システム。
【請求項２】請求項１に記載の機械学習法を用いた言
語解析処理システムにおいて、前記機械学習処理手段は、多数の素性の重要度を各素性
同士の従属性を考慮して自動で求める枠組みを用いて処
理を行うことを特徴とする機械学習法を用いた言語解析
処理システム。
【請求項３】請求項１に記載の機械学習法を用いた言
語解析処理システムにおいて、前記機械学習処理手段は、前記教師データから素性と解
の対を抽出して借用型教師信号とし、予め備えられた解
析対象の情報が付加されたデータから素性と解との対を
抽出して非借用型教師信号とし、前記借用型教師信号お
よび前記非借用型教師信号を用いて機械学習を行うこと
を特徴とする機械学習法を用いた言語解析処理システ
ム。
【請求項４】機械学習法を用いた言語解析処理で用い
る教師信号として借用する教師データを生成する教師デ
ータ生成処理方法において、解析対象に関する情報が付加されていないデータから、
予め設定された問題表現の構造に合致する部分を抽出し
て問題表現相当部とし、前記問題表現相当部を、問題と
解とを含む教師データに変換する処理過程を備えること
を特徴とする教師データ生成処理方法。
【請求項５】機械学習法を用いて言語解析を行う言語
解析処理方法において、解析の問題と解とを含む教師データを記憶する教師デー
タ記憶手段を備え、前記教師データから素性と解との対を抽出し、抽出した
素性と解との対を借用型教師信号として機械学習を行
い、学習結果を学習結果データベースに保存する機械学
習処理過程と、入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された学習結果をもとに解を推定する解
推定処理過程とを備えることを特徴とする機械学習法を
用いた言語解析処理方法。
【請求項６】請求項５に記載の機械学習法を用いた言
語解析処理方法において、前記機械学習処理過程は、多数の素性の重要度を各素性
同士の従属性を考慮して自動で求める枠組みを用いて処
理を行うことを特徴とする機械学習法を用いた言語解析
処理方法。
【請求項７】請求項５に記載の機械学習法を用いた言
語解析処理方法において、解析対象に関する解情報が付加されたデータを記憶する
解データ記憶手段を備え、前記機械学習処理過程は、前記教師データから素性と解
の対を抽出して借用型教師信号とし、前記解情報を付加
されたデータから素性と解との対を抽出して非借用型教
師信号とし、前記借用型教師信号および前記非借用型教
師信号を用いて機械学習を行うことを特徴とする機械学
習法を用いた言語解析処理方法。
【請求項８】機械学習法を用いて言い換えによる変形
を含む省略解析を行う言語省略解析処理システムにおい
て、解析対象の情報が付加されていないデータから、予め設
定された問題表現の構造に合致する部分を抽出して問題
表現相当部とする問題表現抽出処理手段と、前記問題表現相当部を、問題と解とを含む教師データに
変換する問題構造変換処理手段と、前記教師データから素性と解との対を抽出し、抽出した
素性と解との対を教師信号として機械学習を行い、学習
結果を学習結果データベースに保存する機械学習処理手
段と、入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備えることを特徴とする機械学習
法を用いた言語省略解析処理システム。
【請求項９】請求項８に記載の機械学習法を用いた言
語省略解析処理システムにおいて、前記機械学習処理手段は、多数の素性の重要度を各素性
同士の従属性を考慮して自動で求める枠組みを用いて処
理を行うことを特徴とする機械学習法を用いた言語省略
解析処理システム。