[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2003122750A - 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム - Google Patents

機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム

Info

Publication number
JP2003122750A
JP2003122750A JP2001311453A JP2001311453A JP2003122750A JP 2003122750 A JP2003122750 A JP 2003122750A JP 2001311453 A JP2001311453 A JP 2001311453A JP 2001311453 A JP2001311453 A JP 2001311453A JP 2003122750 A JP2003122750 A JP 2003122750A
Authority
JP
Japan
Prior art keywords
machine learning
solution
teacher
language
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001311453A
Other languages
English (en)
Other versions
JP4065936B2 (ja
Inventor
Maki Murata
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2001311453A priority Critical patent/JP4065936B2/ja
Priority to US10/189,580 priority patent/US7542894B2/en
Publication of JP2003122750A publication Critical patent/JP2003122750A/ja
Application granted granted Critical
Publication of JP4065936B2 publication Critical patent/JP4065936B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 言語解析において、広範かつ多数の情報を教
師信号として用いることができる機械学習法を用いた言
語解析処理システムを実現する。 【解決手段】 問題表現相当部抽出部11は問題表現情報
記憶部12を参照して解析情報が付与されていない生コー
パス2 から問題表現に相当する部分を抽出し、問題構造
変換部13は、当該抽出部分を問題表現に変換して抽出し
た解と教師データを生成する。解−素性対抽出部17は教
師データ記憶部15に保存された教師データから解と素性
の集合の組を抽出し、機械学習部18は抽出した組からど
のような素性のときにどのような解となりやすいかを学
習した結果を保存する。素性抽出部21は入力されたデー
タ3 から素性の集合を抽出し、解推定処理部22は学習結
果データベース19をもとに素性の集合からその素性の場
合にどのような解になりやすいかを推定した解析情報 4
を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語解析処理に関
し、特に、機械学習法を用いた言語解析処理システム、
教師データ生成処理方法、機械学習法を用いた言語解析
処理方法、機械学習法を用いた言語省略解析処理システ
ムに関する。
【0002】
【従来の技術】言語解析処理の分野では、形態素解析、
構文解析の次の段階である意味解析処理が重要性を増し
ている。特に意味解析の主要部分である格解析処理、省
略解析処理などにおいて、処理にかかる労力の負担軽減
や処理精度の向上が望まれている。
【0003】格解析処理とは、文の一部が主題化もしく
は連体化などをすることにより隠れている表層格を復元
する処理を意味する。例えば、「りんごは食べた。」と
いう文において、「りんごは」の部分は主題化している
が、この部分を表層格に戻すと「りんごを」である。こ
のような場合に、「りんごは」の「は」の部分を「ヲ
格」と解析する。
【0004】また、「昨日買った本はもう読んだ。」と
いう文において、「買った本」の部分が連体化している
が、この部分を表層格に戻すと「本を買った」である。
このような場合にも、「買った本」の連体の部分を「ヲ
格」と解析する。
【0005】省略解析処理とは、文の一部に省略されて
いる表層格を復元する処理を意味する。「みかんを買い
ました。そして食べました。」という文において、「そ
して食べました」の部分に省略されている名詞句(ゼロ
代名詞)は「みかんを」であると解析する。
【0006】本発明に関連する従来技術として、以下の
ような研究があった。
【0007】格解析手法として、以下の参考文献1に示
すような既存の格フレームを利用するものがある。 [参考文献1]Sadao Kurohashi and Makoto Nagao, A
Method of Case Structure Analysis for Japanse Sent
ences based on Examples in Case Frame Dictionary,
IEICE Transactions on Information and Systems, Vo
l.E77-D, No.2, (1994), pp227-239 また、以下の参考文献2に示すように、格解析におい
て、解析対象としている分類や情報の付加を行っていな
いコーパス(以下、「生コーパス」という。)から格フ
レームを構築し、それを利用するものがある。 [参考文献2]河原大輔, 黒橋禎夫, 用言と直前の格要
素の組を単位とする格フレームの自動獲得, 情報処理学
会, 自然言語処理研究会, 2000-NL-140-18, (2000)ま
た、以下の参考文献3に示すように、格解析において、
格情報付きコーパスを用いずに生コーパスでの頻度情報
を利用して、最尤推定により格を求めるものがある。 [参考文献3]阿部川武, 白井清昭, 田中穂積, 徳永健
伸, 統計情報を利用した日本語連体修飾語の解析, 言語
処理学会年次大会, (2001), pp269-272なお、以下の参
考文献4に示すように、格情報つきコーパスを用いた機
械学習法としてk近傍法の一種のTiMBL法(参考文
献5参照)を用いたものなどがある。 [参考文献4]Timothy Baldwin, Making lexical sens
e of japanese-englishmachine translation: A disamb
iguation extravaganza, Technical report,(Tokyo Ins
titute of Technology, 2001), Technical Report, ISS
N 0918-2802 [参考文献5]Walter Daelemans, Jakub Zavrel, Ko v
an der Sloot, and Antal van den Bosch, Timbl: Tilb
urg memory based learner version 3.0 reference gui
de, Technical report,(1995), ILK Technical Report-
ILK 00-01 なお、参考文献3に示された阿部川らの研究や、参考文
献4に示されたBaldwin の研究では、連体化の格解析処
理のみを扱うものである。
【0008】
【発明が解決しようとする課題】従来、日本語格解析を
行う場合に用例とする格情報付きのコーパスに対し格情
報を人手で付与していた。しかし、人手で解析規則や解
析情報を付与することは、規則の拡張や規則の調節にか
かる人的資源の問題や労力負担が大きいという問題があ
る。
【0009】この点、教師付き機械学習法を言語解析処
理に用いることは有効である。教師付き機械学習法で
は、解析対象となる情報が付与されたコーパスが教師信
号として用いられている。しかし、この場合でも、コー
パスに解析対象の情報を付加するという労力負担を軽減
する必要がある。
【0010】また、処理精度を向上させるために、なる
べく多くの教師信号を使用できるようにすることが必要
である。参考文献3の阿部川らの研究や、参考文献4の
Baldwin の研究は、格情報のついていない生コーパスを
用いて格解析処理を行うものである。ただし、これらの
技術は連体化のみを扱う格解析処理である。
【0011】機械学習法での教師信号を借用するため解
析対象となる情報がついていない生コーパスなどを用い
た機械学習法(以下、「教師信号借用型機械学習法」と
よぶ。)を、より広範な言語処理において用いることが
できるようにすることが要求されている。
【0012】そこで、格解析処理が省略解析処理と等価
であることに着目し、省略解析処理において教師信号借
用型機械学習法を用いた方法を提案する。
【0013】また、動詞省略補完(参考文献6参照)、
質問応答システム(参考文献7〜9参照)などのより広
範な言語解析について教師信号借用型機械学習法を用い
た処理方法を提案する。 [参考文献6]村田真樹、長尾真、日本語文章における
表層表現と用例を用いた動詞の省略の補完、言語処理学
会誌、Vol.5, No.1,(1998) [参考文献7]Masaki Murata, Masao Utiyama, and Hi
toshi Isahara, Question answering system using syn
tactic information,(1999) [参考文献8]村田真樹、内山将夫、井佐原均、類似度
に基づく推論を用いた質問応答システム、自然言語処理
研究会 2000-NL-135, (2000), pp181-188 [参考文献9]村田真樹、内山将夫、井佐原均、質問応
答システムを用いた情報抽出、言語処理学会第6回年次
大会ワークショップ論文集, (2000), pp33-40 また、処理精度をより向上させるために、前記の教師信
号借用型機械学習法により借用された教師信号と、解析
対象である情報が付与されたデータを用いた教師あり機
械学習法(以下、非借用型機械学習法という。)におけ
る教師信号とを併用した機械学習法(以下、併用型機械
学習法という。)を用いた言語解析処理を提案する。
【0014】また、省略解析の補完処理では語の生成を
行うことから、前記の併用型機械学習法を用いた生成処
理を提案する。
【0015】本発明にかかる教師信号借用型機械学習法
法もしくは併用型機械学習法は、教師あり機械学習法を
用いている。本発明における教師あり機械学習法は、特
に、各素性の重要度を、素性間の従属的関係を考慮した
枠組みを用いて算出する過程を含むものである。この
点、一般的に機械学習法として分類される方法のうち、
各素性の類似度すなわち従属度を自ら決定しかかる算出
過程を含まない場合のk近傍法、各素性の独立性を前提
として素性間の従属性を考慮しないシンプルベイズ法な
どとも異なる。また、本発明における教師あり機械学習
法は、阿部川らの方法(参考文献3参照)における、生
コーパスで頻度による最尤推定とも異なる。最尤推定と
は、固定文脈において頻度の最も大きいものを解とする
手法であり、例えば格助詞を挟む体現と用言とを固定の
文脈とする場合に、「りんご(?)食べる」の形をして
いるもので(?)の位置の助詞のうち最も頻度の高いも
のを解とするものである。
【0016】以上のように、本発明の目的は、教師信号
借用型機械学習法を用いた言い換えによる変形を含む言
語省略解析処理システムを実現することである。
【0017】さらに、好ましくは、前記教師信号借用型
機械学習法として、各素性の重要度を素性間の従属的関
係を考慮した枠組みを用いて算出する過程を含む機械学
習法を用いた言語省略解析処理システムを実現すること
である。
【0018】また、本発明の目的は、教師信号借用型機
械学習法により借用した教師信号と、非借用型機械学習
法の教師信号とによる機械学習法(併用型機械学習法)
を用いた言語解析処理システムを実現することである。
【0019】さらに、好ましくは、併用型機械学習法と
して、各素性の重要度を素性間の従属的関係を考慮した
枠組みを用いて算出する過程を含む機械学習法を用いる
言語解析処理システムを実現することである。
【0020】本発明によれば、従来の教師信号以外に大
量の教師信号を借用することができるため、使用する教
師信号が増加し、よって学習の精度向上が期待できる。
【0021】なお、本発明にかかる併用型機械学習法
は、省略補完処理、文生成処理、機械翻訳処理、文字認
識処理、音声認識処理など、語句を生成する処理を含む
ような極めて広範囲の問題に適用することができ、実用
性の高い言語処理システムに用いることができる。
【0022】
【課題を解決するための手段】上記の目的を達成するた
め、本発明は、機械学習法を用いて言語解析を行う言語
解析処理システムにおいて、解析対象の情報が付加され
ていないデータから、予め設定された問題表現の構造に
合致する部分を抽出して問題表現相当部とする問題表現
抽出処理手段と、前記問題表現相当部を、問題と解とを
含む教師データに変換する問題構造変換処理手段と、前
記教師データから素性と解との対を抽出し、抽出した素
性と解との対を教師信号として機械学習を行い、学習結
果を学習結果データベースに保存する機械学習処理手段
と、入力されたデータから素性を抽出し、前記学習結果
データベースに保存された前記学習結果をもとに解を推
定する解推定処理手段とを備える。
【0023】また、前記機械学習処理手段は、多数の素
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。
【0024】また、前記機械学習処理手段は、前記教師
データから素性と解の対を抽出して借用型教師信号と
し、予め備えられた解析対象の情報が付加されたデータ
から素性と解との対を抽出して非借用型教師信号とし、
前記借用型教師信号および前記非借用型教師信号を用い
て機械学習を行う。
【0025】また、本発明は、機械学習法を用いた言語
解析処理で用いる教師信号として借用する教師データを
生成する教師データ生成処理方法において、解析対象に
関する情報が付加されていないデータから、予め設定さ
れた問題表現の構造に合致する部分を抽出して問題表現
相当部とし、前記問題表現相当部を、問題と解とから構
成される教師データに変換する処理過程を備える。
【0026】また、本発明は、機械学習法を用いて言語
解析を行う言語解析処理方法において、解析の問題と解
とを含む教師データを記憶する教師データ記憶手段を備
え、前記教師データから素性と解との対を抽出し、抽出
した素性と解との対を借用型教師信号として機械学習を
行い、学習結果を学習結果データベースに保存する機械
学習処理過程と、入力されたデータから素性を抽出し、
前記学習結果データベースに保存された学習結果をもと
に解を推定する解推定処理過程とを備える。
【0027】また、前記機械学習処理過程は、多数の素
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。
【0028】また、本発明は、さらに、解析対象に関す
る解情報が付加されたデータを記憶する解データ記憶手
段を備え、前記機械学習処理過程は、前記教師データか
ら素性と解の対を抽出して借用型教師信号とし、前記解
情報を付加されたデータから素性と解との対を抽出して
非借用型教師信号とし、前記借用型教師信号および前記
非借用型教師信号を用いて機械学習を行う。
【0029】また、本発明は、機械学習法を用いて言い
換えによる変形を含む言語省略解析を行う言語省略解析
処理システムにおいて、解析対象の情報が付加されてい
ないデータから、予め設定された問題表現の構造に合致
する部分を抽出して問題表現相当部とする問題表現抽出
処理手段と、前記問題表現相当部を、問題と解とを含む
教師データに変換する問題構造変換処理手段と、前記教
師データから素性と解との対を抽出し、抽出した素性と
解との対を教師信号として機械学習を行い、学習結果を
学習結果データベースに保存する機械学習処理手段と、
入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備える。
【0030】また、前記機械学習処理手段は、多数の素
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。
【0031】本発明は、解析対象用の教師信号のタグな
どが付与されていないコーパスでも、問題が省略解析に
類似する問題であるならば、その問題を教師信号として
借用できることに着目し、この手法を単に格解析処理に
用いるだけでなく、省略解析に類似するより広範な言語
処理の問題においても利用できる手法を実現したもので
ある。
【0032】さらに、借用型でない本来の教師信号も併
用する併用型機械学習法を提案して、処理負担の軽減と
処理精度の向上とを図る処理方法を実現したものであ
る。
【0033】本発明の各処理手段または機能または要素
は、コンピュータにインストールされ実行されるプログ
ラムにより実現される。本発明を実現するプログラム
は、コンピュータが読み取り可能な、可搬媒体メモリ、
半導体メモリ、ハードディスクなどの適当な記録媒体に
格納することができ、これらの記録媒体に記録して提供
され、または、通信インタフェースを介して種々の通信
網を利用した送受信により提供される。
【0034】
【本発明の実施の形態】〔教師信号借用型機械学習法に
よる処理〕教師信号借用型機械学習法を用いた言語解析
処理のうち日本語解析処理を例に本発明の実施の形態を
説明する。
【0035】解析処理の一つである照応省略解析処理に
おいては、照応省略に関する情報が付与されていないコ
ーパスを利用することができると考える。その技術理論
的背景を、以下の例を用いて示す。「例:みかんを買い
ました。これを食べました。」「用例a:ケーキを食べ
る。」、「用例b:りんごを食べる。」このとき、「こ
れ」の指示先を推定したいとする。この場合に、用例a
および用例bを使って、「を食べる」の前には食べ物に
ついての名詞句がきそうであると予想し、この予想から
「みかん」が指示先であると推定することができる。こ
こで、用例aおよび用例bは、照応省略に関する情報が
付与されていない普通の文でよい。
【0036】一方、照応省略に関する情報が付与された
用例を利用して解くことを考える。そのような用例は、
例えば以下のような形をしている。「用例c:りんごを
買いました。これを食べました。(「これ」が「りん
ご」を指す。)」用例cでは、「りんごを買いました。
これを食べました。」という文に対して、その文の「こ
れ」が「りんご」を指すという照応省略に関する情報を
付与しておくのである。このような用例cを用いること
でも、「りんご」を指す例があるのなら、「みかん」も
指すだろうと判断して、「みかん」を指示先を推定する
ことができる。
【0037】しかし、用例cのように、照応省略に関す
る情報をコーパスに付与することは大変労力のいること
である。したがって、本発明のように、用例cの照応省
略に関する情報を用いずに、照応省略に関する情報が付
与されていない用例aおよび用例bを用いることでも問
題を解くことができるのならば、その方がコストが小さ
く、その意味で照応省略に関する情報が付与されていな
い用例を解析に利用できることは価値がある。
【0038】このような解析対象に関する情報が付与さ
れていない用例を用いた省略解析の例を以下に示す。
【0039】(1)指示詞・代名詞・ゼロ代名詞照応解
析 例:「みかんを買いました。そして{φを}食べまし
た。」 用例:「{りんご}を食べる。」 指示詞・代名詞・ゼロ代名詞照応解析は、既に説明した
ように、指示詞や代名詞、文中で省略された代名詞(φ
=ゼロ代名詞)の指示先を推定するような解析である。
以下の参考文献10において詳細に説明している。[参
考文献10]村田真樹、長尾真、用例や表層表現を用い
た日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対
象の推定、言語処理学会誌、Vol.4, No.1(1997) (2)間接照応解析 例:「家がある。{屋根}は白い。」 用例:「{家}の屋根」 間接照応解析は、「AのB」の形をした用例を利用する
ことで、「屋根」が前文の「家」の屋根であると推定す
るような解析である。以下の参考文献11において詳細
に説明している。 [参考文献11]村田真樹、長尾真、意味的制約を用い
た日本語名詞における間接照応解析、言語処理学会誌、
Vol.4, No.2, (1997) (3)動詞の省略補完 例:「そううまくいくとは」 用例:「そんなにうまくいくとは{思えない}。」 例「そううまくいくとは」の後ろに省略されている動詞
部分を「そううまくいくとは」を含む文を集めて、その
用例文を用いて推測するような解析である。前述の参考
文献6で説明している。
【0040】(4)「AのB」の意味解析 例:「写真の人物」⇒「写真に描かれた人物」 用例:「写真に人物が描かれる」 「AのB」のような語句の意味関係は多様である。しか
し、意味関係の中には動詞で表現できるものがある。そ
のような動詞は、名詞A、名詞Bおよび動詞との共起情
報から推測できる。「AのB」の意味解析とは、このよ
うな共起情報により意味関係を推測するような解析であ
る。解析の詳細は、以下の参考文献12に説明されてい
る。 [参考文献12]田中省作、富浦洋一、日高達、統計的
手法を用いた名詞句「NPのNP」の意味関係の抽出、
言語理解とコミュニケーション研究会 NLC98-4,(199
8), pp23-30 (5)換喩解析 例:「漱石を読む。」⇒「漱石の小説を読む。」 用例:「漱石の小説」「小説を読む」 「漱石を読む」の「漱石」は「漱石が書いた小説」を意
味する。換喩解析は、そのような省略された情報を、
「AのB」「CをVする」という形をした用例を組み合
わせて用いることで補完する解析である。以下の参考文
献13および参考文献14において説明している。 [参考文献13]村田真樹、山本専、黒橋禎夫、井佐原
均、長尾真、名詞句「aのb」「ab」を利用した換喩
解析、実行知能学会誌、Vol.15, No.3 (2000) [参考文献14]内山将夫、村田真樹、馬青、内元清
貴、井佐原均、統計的手法による換喩の解釈、言語処理
学会誌,Vol.7, No.2, (2000) (6)連体化した節の格解析 例:「オープンする施設」⇒格関係=ガ格 用例:「施設がオープンする」 連体化した節の格解析とは、名詞と動詞の共起情報を用
いて隠れている連体化した節の格を推定する解析であ
る。解析の内容は前記の参考文献3に詳しく説明されて
いる。
【0041】図1に、本発明にかかるシステムの構成例
を示す。図1中、1は本発明にかかる言語解析処理シス
テムを表す。言語解析処理システム1は、CPU、メモ
リなどで構成され、問題表現相当部抽出部11、問題表
現情報記憶部12、問題構造変換部13、意味解析情報
記憶部14、教師データ記憶部15、解−素性対抽出部
17、機械学習部18、学習結果データベース19、素
性抽出部21、解推定処理部22を持つ。
【0042】問題表現相当部抽出部11は、予め、どの
ようなものが問題表現に相当する部分であるかを記憶し
た問題表現情報記憶部12を参照して、解析対象の情報
が付与されていない生コーパス2から入力された文につ
いて、問題表現に相当する部分を抽出する手段である。
【0043】問題表現情報記憶部12は、前記(1)〜
(6)に示すような省略解析の問題表現を予め記憶して
おく。また、意味解析の場合に用いる意味解析情報は、
予め意味解析情報記憶部14に記憶しておく。
【0044】問題構造変換部13は、問題表現相当部抽
出部11で抽出された入力文の問題表現に相当する部分
を解として抽出し、さらに、その部分を問題表現に変換
し、変換結果の文を問題とし、かつ、抽出した解を解と
する教師データを教師データ記憶部15に記憶する手段
である。
【0045】また、問題構造変換部13は、問題表現に
変換した結果である文を変形する必要がある場合に、意
味解析情報記憶部14を参照して、当該結果文を変形し
たものを問題とする。
【0046】解−素性対抽出部17は、問題−解の構造
を持つ教師データを記憶する教師データ記憶部15か
ら、事例ごとに、事例の解と素性の集合との組を抽出す
る手段である。
【0047】機械学習部18は、解−素性対抽出部17
により抽出された解と素性の集合の組から、どのような
素性のときにどのような解になりやすいかを機械学習法
により学習し、その学習結果を学習結果データベース1
9に保存する手段である。
【0048】素性抽出部21は、入力されたデータ3か
ら、素性の集合を抽出し、解推定処理部22へ渡す手段
である。
【0049】解推定処理部22は、学習結果データベー
ス19を参照して、素性抽出部21から渡された素性の
集合の場合に、どのような解になりやすいかを推定し、
推定結果である解析情報4を出力する手段である。
【0050】以下に、本発明の処理の流れを説明する。
【0051】図2に、教師データの生成処理の処理フロ
ーチャートを示す。
【0052】ステップS1:まず、生コーパス2から解
析対象の情報がなにも付与されていない普通の文が問題
表現相当部抽出部11に入力される。
【0053】ステップS2:問題表現相当部抽出部11
では、生コーパス2から入力された普通文の構造を検出
し、入力された普通文から問題表現に相当する部分を抽
出する。このとき、どのようなものが問題表現相当部で
あるかの情報は、問題表現情報記憶部12に記憶されて
いる問題表現情報により与える。すなわち問題表現の構
造と検出した普通文の構造とのマッチングを行い、一致
するものを問題表現相当部とする。
【0054】ステップS3:問題構造変換部13では、
問題表現相当部抽出部11で抽出された問題表現相当部
を解として抽出し、その部分を問題表現に変換する。そ
して、変換結果の文を問題とし抽出した解を解とする教
師データを教師データ記憶部15に記憶する。
【0055】なお、問題構造変換部13では、問題表現
に変換する際に、意味解析情報を必要とする場合には、
予め意味解析情報記憶部14に記憶されている意味解析
情報を参照する。
【0056】具体的には、以下のような処理を行う。
【0057】例えば、前述(3)に示す動詞の省略補完
の場合には、問題表現情報記憶部12には、文末の動詞
部分が問題表現相当部として記述されている。そして、
生コーパス2から、「そんなにうまくいくとは思えな
い」という文が入力されると、問題表現相当部抽出部1
1では、文末の動詞「思えない」が問題表現相当部であ
ると認識する。
【0058】問題構造変換部13では、文末の動詞「思
えない」を解として抽出し、元の文の動詞「思えない」
の部分を”省略された動詞”という記号に置き換える。
この結果、「問題⇒解」:「そんなにうまくいくとは”
省略された動詞”」⇒「思えない」という教師データが
得られるので、この教師データを教師データ記憶部15
へ記憶する。
【0059】そして、この教師データは、文脈:「そん
なにうまくいくとは」,分類先:「思えない」という形
式の機械学習法で用いる教師信号とすることができる。
すなわち、解−素性対抽出部17では、教師データを文
脈から分類先を学習する教師あり機械学習の問題として
使用することができる。
【0060】また、前述(1)の格解析の場合には、問
題表現情報記憶部12には、格助詞が問題表現相当部と
して記述されている。そして、生コーパス2から、「り
んごを食べる」という文が入力されると、問題表現相当
部抽出部11では、格助詞「を」が問題表現相当部とし
て認識する。
【0061】問題構造変換部13では、格助詞「を」を
解として抽出し、元の文の格助詞「を」の部分を”認識
すべき格”という記号に置き換える。この結果、「問題
⇒解」:「りんご”認識すべき格”食べる」⇒「を」と
いう教師データが得られるので、この教師データを教師
データ記憶部15へ記憶する。この場合も同様に、解−
素性対抽出部17を介して、文脈:「食べる」,分類
先:「りんごを」という教師信号となる。
【0062】前述した他の解析例についても、同様の処
理を行い、それぞれの教師データを出力する。そして、
例えば、前述(2)の間接照応解析の場合には、文脈:
「の屋根」,分類先:「家」という教師信号に、また、
前述(4)の「AのB」の意味解析の場合には、文脈:
「写真」「人物」,分類先:「描かれる」という教師信
号に、また、前述(5)の換喩解析の場合には、文脈:
「漱石の」,分類先:「小説」文脈:「を読む」,分類
先:「小説」という教師信号に、また、前述(6)の連
体化における格解析の場合は、文脈:「施設」「オープ
ンする」,分類先:「ガ格」という教師信号になる。
【0063】このように、省略解析と解釈できる問題表
現については、解析対象用のタグがついていない生コー
パス2を機械学習方法の教師信号とすることができる。
【0064】特に、単純な省略補完だけではなく、例え
ば「オープンする施設」を「施設がオープンする」とと
らえる格解析のように、言葉を少し補って言い換えて解
釈するような問題についても、生コーパス2を機械学習
方法の教師信号とすることができる。すなわち、意味解
釈の問題は、たいていの場合、言い換えた文によってそ
の答えを表現するため、本発明は言葉を少し補いながら
言い換えて解釈するような問題一般も適用範囲に含める
ことができることを意味する。一例として、本発明を質
問応答システムに適用する場合について説明する。
【0065】質問応答システムでの質問応答は、疑問詞
の部分が省略しておりこの部分を補完する問題であると
考えることができる。この場合に、よく似た文を集めて
その文の疑問詞にあたる部分を解答として出力する(参
考文献7〜9参照)。
【0066】例えば、以下のような質問および解答の事
例の場合に、事例:「日本の首都はどこですか」⇒解答
=東京用例:「日本の首都は東京です」という教師デー
タは、文脈:「日本の首都は」,分類先:「東京」文
脈:「の首都は東京です」,分類先:「日本」という教
師信号になる。
【0067】このように、教師データ記憶部15に記憶
される教師データは、通常の教師信号の形式と同じよう
な構造になっているため、教師あり機械学習法の教師信
号として用いることができ、さまざまな高度な手法が提
案されている機械学習法の中から最適な手法を選択して
問題を解くことができる。
【0068】また、機械学習法では、解析に用いる情報
をかなり自由に定義することができることから、広範な
情報を教師信号として利用でき、結果的に解析精度が向
上しやすい。
【0069】図3に、教師データを教師信号とする機械
学習法による解析処理の処理フローチャートを示す。
【0070】ステップS11:まず、解−素性対抽出部
17では、教師データ記憶部15から、各事例ごとに、
解と素性の集合との組を抽出する。素性とは、解析に用
いる情報の細かい1単位を意味する。解−素性対抽出部
17は、素性の集合を機械学習に用いる文脈とし、解を
分類先とする。
【0071】ステップS12:続いて、機械学習部18
では、抽出された解と素性の集合との組から、どのよう
な素性のときにどのような解になりやすいかを機械学習
し,その学習結果を学習結果データベース19に保存す
る。
【0072】機械学習の手法は、多数の素性の重要度を
各素性同士の従属性を考慮して自動で求める枠組みを用
いて算出する処理過程を含むものであればよい。例え
ば、以下に示すような決定リスト法、最大エントロピー
法、サポートベクトルマシン法などを用いるが、これら
の手法に限定されない。
【0073】決定リスト法は、素性(解析に用いる情報
で文脈を構成する各要素) と分類先の組を規則とし、そ
れらをあらかじめ定めた優先順序でリストに蓄えおき、
解析すべき入力が与えられたときに、リストで優先順位
の高いところから入力のデータと規則の素性を比較し素
性が一致した規則の分類先をその入力の分類先とする方
法である。
【0074】最大エントロピー法は、あらかじめ設定し
ておいた素性fj (1≦j≦k)の集合をFとすると
き、所定の条件式を満足しながらエントロピーを意味す
る式を最大にするときの確率分布p(a,b)を求め、
その確率分布にしたがって求まる各分類の確率のうち、
もっとも大きい確率値を持つ分類を求める分類とする方
法である。
【0075】サポートベクトルマシン法は、空間を超平
面で分割することにより、2つの分類からなるデータを
分類する手法である。
【0076】本形態では、最も処理精度の高いサポート
ベクトルマシン法を用いた処理例についての詳細な説明
を後述する。
【0077】決定リスト法および最大エントロピー法に
ついては、以下の参考文献15に説明している。[参考
文献15] 村田真樹、内山将夫、内元清貴、馬青、井佐
原均、種々の機械学習法を用いた多義解消実験、電子情
報通信学会言語理解とコミュニケーション研究会,NCL2
001-2, (2001)ステップS13:解を求めたいデータ3
が素性抽出部21に入力される。
【0078】ステップS14:素性抽出部21では,解
−素性対抽出部17での処理とほぼ同様に,入力された
データ3から素性の集合を取り出し,それらを解推定処
理部22へ渡す。
【0079】ステップS15:解推定処理部22では,
渡された素性の集合の場合にどのような解になりやすい
かを学習結果データベース19をもとに特定し、特定し
た解である解析情報4を出力する。
【0080】例えば,データ3が「りんごは食べる」で
あって、解析したい問題が「認識すべき格」であれば、
「ヲ格」という格情報を出力する。また、データ3が
「そんなにうまくいくとは」であって、解析したい問題
が「補完すべき動詞」であれば、省略された動詞「思え
ない」を出力する。
【0081】図4に、機械学習法としてサポートベクト
ルマシン法を用いる場合のシステム構成例を示す。図4
に示す言語解析処理システム5の構成例は、図1に示す
構成例とほぼ同様である。図4において、図1に示す手
段と同一の機能を持つ手段には同一の番号を付与してい
る。
【0082】素性−解対・素性−解候補対抽出部51
は、教師データ記憶部15から、事例ごとに、事例の解
もしくは解候補と事例の素性の集合との組を抽出する手
段である。ここで、解候補とは、解以外の解の候補を意
味する。
【0083】機械学習部52は、素性−解対・素性−解
候補対抽出部51により抽出された解もしくは解候補と
素性の集合との組から、どのような解もしくは解候補と
素性の集合のときに、正例である確率または負例である
確率を、例えばサポートベクトルマシン法により学習
し、その学習結果を学習結果データベース53に保存す
る手段である。
【0084】素性−解候補抽出部54は、入力されたデ
ータ3から、解候補と素性の集合とを抽出し、解推定処
理部55へ渡す手段である。
【0085】解推定処理部55は、学習結果データベー
ス53を参照して、素性−解候補抽出部54から渡され
た解候補と素性の集合との場合に、正例または負例であ
る確率を求めて、正例である確率が最も大きい解候補を
解析情報4として出力する手段である。
【0086】サポートベクトルマシン法を説明するた
め、図5に、サポートベクトルマシン法のマージン最大
化の概念を示す。図5において、白丸は正例、黒丸は負
例を意味し、実線は空間を分割する超平面を意味し、破
線はマージン領域の境界を表す面を意味する。図5
(A)は、正例と負例の間隔が狭い場合(スモールマー
ジン)の概念図、図5(B)は、正例と負例の間隔が広
い場合(ラージマージン)の概念図である。
【0087】このとき、2 つの分類が正例と負例からな
るものとすると、学習データにおける正例と負例の間隔
(マージン) が大きいものほどオープンデータで誤った
分類をする可能性が低いと考えられ、図5(B)に示す
ように、このマージンを最大にする超平面を求めそれを
用いて分類を行なう。
【0088】サポートベクトルマシン法は基本的には上
記のとおりであるが、通常、学習データにおいてマージ
ンの内部領域に少数の事例が含まれてもよいとする手法
の拡張や、超平面の線形の部分を非線型にする拡張(カ
ーネル関数の導入) がなされたものが用いられる。
【0089】この拡張された方法は、以下の識別関数を
用いて分類することと等価であり、その識別関数の出力
値が正か負かによって二つの分類を判別することができ
る。
【0090】
【数1】
【0091】ただし、xは識別したい事例の文脈(素性
の集合) を、xi とyj (i=1,…,l,yj
{1,−1})は学習データの文脈と分類先を意味し、
関数sgnは、 sgn(x)=1(x≧0) (2) −1(otherwise ) であり、また、各αi は式(4)と式(5)の制約のも
と式(3)を最大にする場合のものである。
【0092】
【数2】
【0093】また、関数Kはカーネル関数と呼ばれ、様
々なものが用いられるが、本形態では以下の多項式のも
のを用いる。
【0094】 K(x,y)=(x・y+1)d (6) C、dは実験的に設定される定数である。後述する具体
例ではCはすべての処理を通して1に固定した。また、
dは、1と2の二種類を試している。ここで、α i >0
となるxi は,サポートベクトルと呼ばれ、通常,式
(1) の和をとっている部分はこの事例のみを用いて計
算される。つまり、実際の解析には学習データのうちサ
ポートベクトルと呼ばれる事例のみしか用いられない。
【0095】なお、拡張されたサポートベクトルマシン
法の詳細については、以下の参考文献16および参考文
献17を参照されたい。 [参考文献16]Nello Cristianini and John Shawe-T
aylor, An Introductionto Support Vector Machines a
nd other kernel-based learning methods,(Cambridge
University Press,2000) [参考文献17]Taku Kudoh, Tinysvm:Support Vector
machines,(http://cl.aist-nara.ac.jp/taku-ku//soft
ware/Tiny SVM/index.html,2000) サポートベクトルマシン法は、分類の数が2個のデータ
を扱うもので、通常これにペアワイズ手法を組み合わせ
て用いることで、分類の数が3個以上のデータを扱うこ
とになる。
【0096】ペアワイズ手法とは、N個の分類を持つデ
ータの場合に、異なる二つの分類先のあらゆるペア(N
(N−1)/2個) を作り、各ペアごとにどちらがよい
かを2 値分類器(ここではサポートベクトルマシン法に
よるもの)で求め、最終的にN(N−1)/2個の2値
分類器の分類先の多数決により、分類先を求める方法で
ある。
【0097】本形態における2値分類器としてのサポー
トベクトルマシンは、サポートベクトルマシン法とペア
ワイズ手法を組み合わせることによって実現するもので
あり、以下の参考文献18により工藤氏が作成したTi
nySVMを利用している。 [参考文献18]工藤拓 松本裕治,Support vector m
achineを用いたchunk 同定、自然言語処理研究会、 200
0-NL-140,(2000) 図6に、機械学習法としてサポートベクトルマシン法を
用いた解析処理の処理フローチャートを示す。
【0098】ステップS21:素性−解対・素性−解候
補対抽出部51では、各事例ごとに、解もしくは解候補
と素性の集合との組を抽出する。解と素性の集合との組
を正例、解候補と素性の集合との組を負例とする。
【0099】ステップS22:機械学習部52では、解
もしくは解候補と素性の集合との組から、どのような解
もしくは解候補と素性の集合のときに正例である確率ま
たは負例である確率であるかを機械学習法例えばサポー
トベクトルマシン法により学習する。そして、その学習
結果を学習結果データベース53に保存する。
【0100】ステップS23:素性−解候補抽出部54
に、解を求めたいデータ3が入力される。
【0101】ステップS24:素性−解候補抽出部54
では、入力されたデータ3から解候補と素性の集合との
組を取り出し、解推定処理部55へ渡す。
【0102】ステップS25:解推定処理部55では、
渡された解候補と素性の対の場合に、正例である確率お
よび負例である確率を求める。この確率は、すべての解
候補について計算する。
【0103】ステップS26:解推定処理部55では、
すべての解候補の中から、正例である確率が最も大きい
解候補を求め、その解候補を解とする解析情報4を出力
する。
【0104】〔借用型教師信号を用いた機械学習法によ
る処理〕教師データ記憶部15に記憶される教師データ
は、通常の教師信号の形式である「問題⇒解」となって
いる。このため、本来の解析対象用のタグのついたコー
パスからデータをとった教師信号(非借用型教師信号)
と同時に併用して用いることができる。教師データと、
非借用型教師信号とを併用すれば、多くの情報を利用で
きるために機械学習の結果の精度が向上する。
【0105】ところで、照応解析などでは、指示先が本
文にあり用例だけの情報で指示先を特定するのは困難な
問題もあるため、借用した教師データだけを用いて解析
を行なうことはできない場合もある。このような場合に
は、非借用型教師信号、すなわち従来の教師信号も用い
る併用型機械学習法を用いた処理によって対処すること
ができる。
【0106】用例「りんごも食べる」について、生成す
る教師データとして、「問題⇒解」:「リンゴ”認識す
べき格”食べる」⇒「を」が得られる。一方、本来の教
師信号では、「問題⇒解」:「りんごも食べる」⇒
「を」であることを考えると、「も」と”認識すべき
格”の部分が少し異なる。「も」も”認識すべき格”の
一部ではあるが、本来の教師信号の「も」の方が、
「も」があるだけ情報量が多いことになる。すなわち、
非借用型教師信号の方が情報が多い。よって、併用型教
師あり機械学習法による処理がよりよいと考えられる。
【0107】また、格解析でも、つねに表層格を補完す
るのではなく、表層格を用いた文に変形できないことか
ら、外の関係(格関係にならない関係)などは教師デー
タでは扱えない問題もある。
【0108】しかし、ここで格解析というしばりを排し
て言い換えによる文解釈という立場から見れば、外の関
係も教師データを用いた機械学習で扱えることになる。
例えば、外の関係の文「さんまを焼くけむり」は、「さ
んまを焼く時に出るけむり」と言い換えて解釈できる場
合がある。「さんまを焼く時に出るけむり」と言い換え
る解釈を正解とする問題設定であるならば、連体節とそ
の係り先の名詞との間の省略された表現「時に出る」を
補完するという省略補完の問題となり、借用型教師デー
タを用いた機械学習で扱える問題となり、併用型機械学
習法による処理に適している。
【0109】また、省略解析だけでなく、生成について
も取り扱うことができると考える。教師信号借用型機械
学習法すなわち、解析対象とするタグがふられていない
コーパスを用いることができるという点で、省略解析と
生成とが似ていることについては、以下の参考文献19
で指摘した。 [参考文献19]村田真樹、長尾真、表層表現と用例を
用いた照応省略解析手法、言語理解とコミュニケーショ
ン研究会 NCL97-56,(1997) 例えば格助詞の生成の例を示す。格助詞の生成では、例
えば問題−解の組は、「問題⇒解」:「りんご←(obj)
−食べる」⇒「を」といったものになる。生成の場合
に、一般に生成される部分の意味を深層格など(例:ob
j )を用いて表現する。ここで、obj とは目的格を意味
する。この問題−解の組は、このobj の部分が格助詞の
生成の結果では「を」になるということを示しており、
前述でいう非借用型教師信号に相当する。
【0110】また、この問題での借用型教師信号は、解
析対象とするタグがふられていない生コーパス2から
「りんごを食べる」といった文を取り出して、それを借
用型教師信号として扱うことで以下のようなものとな
る。
【0111】「問題⇒解」:「りんご”生成すべき格”
食べる」⇒「を」これらの非借用型教師信号と借用型教
師信号とは非常に類似しており、「obj」と”生成すべ
き格”の部分とが少し異なるだけで借用型教師信号も非
借用型教師信号と同様に教師信号として十分に用いるこ
とができる。つまり、格助詞の生成においても教師信号
借用型機械学習法を用いることができる。
【0112】また「obj 」と”生成すべき格”の部分と
では、「obj 」の方が、「obj 」があるだけ情報量が多
い。このため、この問題においても、本来の教師信号、
すなわち非借用型教師信号の方が情報が多いことにな
る。したがって、借用型教師信号だけでなく非借用型教
師信号を用いる併用型機械学習法による処理を用いる方
がよりよい。
【0113】また、英日機械翻訳における格助詞生成の
例を示す。この問題では、問題−解の組は、「問題⇒
解」:「eat → apple」⇒「を」のように与えられる。
これは、 "I eat apple." という文の eatと appleの関
係が、英語から日本語に変換すると「を」になるという
ことを示しており、非借用型教師信号に相当するもので
ある。この問題でも解析対象とするタグがふられていな
い生コーパス2から「りんごを食べる」といった文を取
り出して、それを借用型教師信号として扱うことで、
「問題⇒解」:「りんご”生成すべき格”食べる」⇒
「を」となる。
【0114】ここで、問題をみると、本来の教師信号
(非借用型教師信号)と借用型教師信号とは、全然一致
する部分がないことがわかる。このままでは借用型教師
信号は役に立たない。そこで、それぞれの信号について
問題部分は英日もしくは日英翻訳しておく。そうすると
「問題⇒解」:「eat (食べる) → apple(りんご) 」
⇒「を」「問題⇒解」:「りんご(apple)”生成すべき
格”食べる (eat)」⇒「を」のようになる。この状態で
あれば少々は一致するため、借用型教師信号も教師信号
として役に立つ。例えば、単語を切り出して、それらを
学習に用いる素性とする場合に、それらは「eat 」、
「apple 」、「食べる」、「りんご」であり、ほとんど
一致する。
【0115】また、機械翻訳では各部分の翻訳の候補を
組み合わせて全体の翻訳を組み合わせることもあり、他
の部分の翻訳を先に処理することを前提にすれば「eat
→apple 」の部分を「食べる→りんご」などにすでにな
っていることを前提として「問題⇒解」:「食べる→り
んご」⇒「を」という教師信号になっていると扱っても
よい。
【0116】この場合も本来の教師信号の問題部分と借
用する教師信号とに一致部分があるため、併用型機械学
習法を利用することができる。
【0117】また、各部分の翻訳の候補を組み合わせて
全体の翻訳を組み合わせる際に、各部分の翻訳の候補を
複数残しておいて、それらの組み合わせの分をすべて解
候補として残しながら解を求めていくようにしてもよ
い。このように翻訳の候補を解候補として扱うようにし
ても、上記のように自分(この場合「を」)以外の部分
(この場合は、「食べる」および「りんご」)の翻訳結
果を利用することができる。
【0118】併用型機械学習法による処理の場合に、図
1または図4に示すシステム構成例において、解データ
ベース16を予め用意しておく必要がある。解データベ
ース16は、従来の教師あり機械学習法で用いられる、
解析情報を人手などにより付与したコーパスなどであ
る。そして、図1に示すシステムの場合に、解−素性対
抽出部17は、教師データ記憶部15および解データベ
ース16から、各事例ごとに解と素性の集合との組を抽
出する。また、図4に示すシステムにおいても、素性−
解対・素性−解候補対抽出部51は、同様に、教師デー
タ記憶部15および解データベース16から、各事例ご
とに解もしくは解候補と素性の集合との組を抽出する。
【0119】〔具体例〕本形態における具体的な処理例
について説明する。
【0120】具体例での格解析の問題設定と素性(解析
に用いる情報) について、すなわち機械学習に用いる文
脈(素性の集合) と分類先を説明する。格解析を行なう
対象は以下のものとした。・連体化した節の用言とその
係り先の体言との間の関係・格助詞のみがつく体言、助
詞が一切つかない体言を除く体言が用言にかかる場合の
その体言と用言との関係(例えば、「この問題{さえ}
解かれた。」)また、分類先として、ガ格、ヲ格、ニ
格、デ格、ト格、カラ格(6分類)およびその他 (外の
関係、格関係にならない主題など) の7つの分類を用い
た。このとき、受け身の文の場合でも受け身の文型のま
ま表層格の推定を行なうこととした。例えば「解かれた
問題」の場合には、「問題が解かれた」となるのでガ格
として扱う。受け身を能動態に直して「問題を解く」と
解釈してヲ格とはしなかった。
【0121】また、外の関係とは、関係節の用言と係り
先の体言が格関係にならない場合のことをいう。例え
ば、「さんまを焼くにおい」の文の「焼く」と「にお
い」とは格関係が成立しないので、このような文は外の
関係と呼ばれる。
【0122】また、連体化以外で「その他」の分類とす
るものに、例えば、「{九一年も}出生数が前年より千
六百六十人多かった」の「九一年も」がある。この「九
一年も」は、ガガ文としてガ格としてもよい場合もある
からである。
【0123】また、以下の「過去一年間に{三度も}首
相が代わる」の「三度も」のような副詞も「その他」の
分類とした。
【0124】本例では、助詞「も」がなければ解析の対
象としないこととした。助詞の脱落現象の少ない分野の
データならば、助詞が一つもついていなければ副詞と判
断してもよいだろうが、助詞の省略が存在するとなる
と、助詞のついていない体言も係り先の用言と格関係を
持つ可能性があるために、それらの体言もすべて解析対
象とする必要があるためである。
【0125】また、文脈としては以下のものを定義し
た。ただし、体言nと用言vの間の格関係を求める場合
として表している。 1.問題が連体節か主題化のものか主題化の場合は体言
nについている助詞 2.用言vの品詞 3.用言vの単語の基本形 4.用言vの単語の分類語彙表の分類番号の1 、2 、3
、4 、5 、7 桁までの数字。ただし、分類番号に対し
て文献の表の変更を行なっている。 5.用言vにつく助動詞列(例:「れる」、「させ
る」) 6.体言nの単語 7.体言nの単語の分類語彙表の分類番号の1 、2 、3
、4 、5 、7 桁までの数字。ただし、分類番号に対し
て文献の表の変更を行なっている。 8.用言vにかかる体言n以外の体言の単語列 ただし、どういった格でかかっているかの情報をAND で
つけることとした。 9.用言vにかかる体言n以外の体言の単語集合の分類
語彙表の分類番号の1 、2 、3 、4 、5 、7 桁までの数
字。ただし、分類番号に対して文献の表の変更を行なっ
ている。また、どういった格でかかっているかの情報を
AND でつけることとした。 10.用言vにかかる体言n以外の体言がとっている格 11.同一文に共起する語 本例では、以上の素性のいくつかを用いて行った。な
お、教師信号借用型機械学習法を用いる場合は、前記
1.の素性は用いることができない。
【0126】まず従来の教師あり機械学手法(非借用型
機械学習法)を用いた処理を行なった。データは京都大
コーパス中の毎日新聞95年1月1日の一日分を用いた
(参考文献20参照)。[参考文献20]黒橋禎夫、長
尾真、京都大学テキストコーパス・プロジェクト、言語
処理学会第3回年次大会、1997、pp115-118このデータ
に対し、前記したように定義した問題設定で分類先を付
与した。京大コーパスの構文タグが誤っていると判明し
た部分はデータから除いた。事例数は1,530個であ
った。図7に、全事例における分類先の出現の分布を示
す。この事例の分布から、コーパスの用例中、ガ格が圧
倒的に多く、ついで連体における外の関係が多いことが
わかる。
【0127】次に、教師信号借用型機械学習法を用いた
処理を行なった。借用する教師データ用の用例は京大コ
ーパス中の毎日新聞95年1月1〜17日の16日分
(約2万文) を用いた。このデータのうち、体言と用言
を係り受け関係を格助詞のみで結んでいるもののみを教
師データとした。全事例数は57,853個であった。
このとき、前記の定義の素性のうち1.の素性は、主題
化・連体化していないものからデータをもってくるため
に用いることができない。
【0128】機械学習法としては、TiMBL法、シン
プルベイズ法、決定リスト法、最大エントロピー法、サ
ポートベクトルマシン法を用いた。TiMBL法、シン
プルベイズ法については、処理精度の比較のために用い
た。
【0129】なお、TiMBL法は、Daelemans らが開
発したシステムで、類似するk個の事例でもとめるk近
傍法を用いるものになっている(参考文献5参照)。さ
らにTiMBL法では事例間の類似度はあらかじめ定義
しておく必要はなく、素性を要素とした重みつきのベク
トルの間の類似度という形で自動的に算出される。また
本稿ではk=3を用いその他はデフォルトの設定で利用
した。シンプルベイズ法は、あらかじめ類似度の定義を
与えるk近傍法の一手法である。
【0130】まず、教師信号借用型機械学習法の基本性
能を調べるために、表層格の再推定という問題を解く。
これは文中の表層格を消して、それをもう一度推定でき
るか否かを試すものである。この問題を対象として、さ
きほどの借用型教師信号(57,853個) で記事ごと
の10分割のクロスバリデーションを用いて実験した。
【0131】図8に、各手法の処理の結果(精度)を示
す。TiMBL、SB、DL、ME、SVMは、それぞ
れTiMBL法、シンプルベイズ法、決定リスト法、最
大エントロピー法、サポートベクトルマシン法を意味す
る。図8に示すように、サポートベクトルマシン法(S
VM)がもっとも精度が良く、7割の精度を得た。
【0132】この処理の結果からも、文生成における助
詞の生成については、少なくともこの精度で処理を行え
ることを示している。また、文生成の処理の場合には、
併用型機械学習法を用いた処理を用いることにより、深
層格などなんらかの格に対する情報を入力としても与え
ることができるため、図8に示す処理結果よりも高い精
度が得られると考えられる。また、一般的な助詞脱落の
補完問題は、この程度の処理精度を得ることができれ
ば、解けるであろうことがわかる。
【0133】さらに、教師信号借用型機械学習法を用い
て、最初に用意した主題化・連体化したデータで、表層
格復元の処理を行なった。この場合には、借用型教師信
号では外の関係などの「その他」の分類を推定すること
ができないので、「その他」の分類の事例を除いて処理
を行なった。そのため、評価用のデータの事例数は1,
530から1,188に減少した。機械学習にはさきほ
ど集めた借用型教師信号(57,853個) を用いた。
図9に、この処理の結果を示す。
【0134】また、この処理では、ガ格、ヲ格、ニ格、
デ格の4つの格のそれぞれの精度の平均でも評価した。
図10に、この処理の結果を示す。
【0135】ここでは比較のために、この1,188事
例を学習に用いた非借用型機械学習法による結果も示
す。また、この1,188個の非借用教師信号と、5
7,853個の借用教師信号の両方を併用する併用型機
械学習法による結果も示す。ただし、これらの処理では
記事を単位とする10分割のクロスバリデーションを行
ない、解析対象の事例と同じ記事の借用教師信号と非借
用教師信号は用いないようにした。
【0136】結果より以下のことがわかる。まず、図9
に示す処理結果の全事例での精度で検討する。機械学習
法としてはサポートベクトルマシン法が一般的に最も良
い。したがって、以降の検討ではサポートベクトルマシ
ン法の結果のみを使うこととした。
【0137】借用型機械学習法での精度は55.39%
であった。主な格の出現がガ格、ヲ格、ニ格、デ格の4
つであったので、ランダムな選択の場合の処理精度は2
5%であるから、これよりはよい結果となっている。借
用した教師信号を用いた場合の精度としてはよいものと
思われる。
【0138】併用型、借用型、非借用型の中では非借用
型機械学習法が最もよかった。借用型教師信号としたデ
ータは、実際の問題とは異なる性質を持っている可能性
がある。したがって、このようなデータを借用すること
により、処理精度が低下する可能性は十分ありうる。図
9に示す処理結果は、このような状況を反映したものと
考えられる。
【0139】この処理の評価に用いたデータは1,18
8事例であり、そのうちガ格は1,025事例であり、
ガ格の出現確率は86.28%である。したがって、何
も考えずに、すべてガ格であると判定したと場合でも、
86.28%の精度を得る。しかし、このような判定で
は、他の格の解析精度は0%であり、この処理結果は利
用先によっては何も役に立たない可能性がある。そこ
で、図10に示す処理の結果に示したガ格、ヲ格、ニ
格、デ格の4つの格のそれぞれでの精度の平均での評価
も行なった。この評価によれば、最も頻度の高い分類に
決め打ちにする手法だと精度は25%となる。併用型、
借用型、非借用型ともに、この25%の精度よりは高い
ことがわかる。
【0140】平均での評価では、精度の順は併用型、借
用型、非借用型となっている。非借用型機械学習法は、
問題に密接な教師信号を用いるために高い精度を得やす
いとはいえ、本例のように事例数が少ない場合には他の
機械学習法よりも精度が低くなる場合があることがわか
る。
【0141】併用型機械学習法は、図9に示す評価にお
いても、借用型機械学習法に1%劣っているだけで、図
10に示す平均での評価では圧倒的によく、両方の評価
基準ともによい結果を得ている。
【0142】以上のことから、借用型機械学習法がラン
ダムな選択より有効であり、かつ分類先の平均を評価基
準とすると非借用型機械学習法より有効であることがわ
かる。また、併用型機械学習法が複数の評価基準で安定
してよい結果を示したことがわかる。よって、借用型機
械学習法と併用型機械学習法の有効性が示された。
【0143】次に、外の関係などの「その他」の分類も
含めた格解析全般の処理を行なった。この処理では、評
価用のデータ(1,530事例) をすべて用いた。この
処理では併用型および非借用型の2つの機械学習法で行
った。借用教師信号だけでは「その他」の分類を特定で
きないため、借用型機械学習法は用いなかった。図11
に、この処理の結果を示す。
【0144】また、この処理では、ガ格、ヲ格、ニ格、
デ格、”その他”の5つの分類先のそれぞれでの精度の
平均でも評価した。図12に、この処理の結果を示す。
処理結果から、サポートベクトルマシン法による処理の
精度が最も良く、また、併用型機械学習法は全事例での
処理の精度で1%ほど非借用より低いだけであって、平
均精度では併用型機械学習法の方が圧倒的に高かった。
【0145】以上の具体例に示すように、教師信号借用
型機械学習法がランダムな解析よりも精度が高くまた分
類先ごとの精度を平均した精度では非借用型機械学習法
よりも精度が高いことがわかった。また、併用型機械学
習法が全事例での精度だけでなく、分類先ごとの精度を
平均した精度でも高く複数の評価基準において安定して
高い精度を得ることを確認した。これらのことから、本
発明の解析処理における有効性が確認された。
【0146】以上、本発明をその実施の態様により説明
したが、本発明はその主旨の範囲において種々の変形が
可能である。
【0147】
【発明の効果】以上説明したように、本発明によれば、
従来の教師信号以外に大量の教師信号を借用することが
できるため、使用する教師信号が増加し、よって学習の
精度向上が期待できる。
【0148】特に、本発明にかかる併用型機械学習法
は、省略補完処理、文生成処理、機械翻訳処理、文字認
識処理、音声認識処理など、語句を生成する処理を含む
ような極めて広範囲の問題に適用することができ、実用
性の高い言語処理システムを実現することができる。
【0149】機械学習法には、さまざまな高度な手法が
提案されている。本発明では、格解析などの言語処理を
機械学習法の問題として扱うことができるように変換す
る。これにより、その時に応じた最もよい機械学習法を
選択して言語処理の問題を解くことができる。
【0150】また、よりよい手法を用いることに加え
て、より良い、かつ、より多くのデータ、素性を用いる
ことは、処理精度の向上に必要である。本発明では、教
師信号借用型機械学習法や併用型機械学習法を用いるこ
とにより、広範な情報を利用して解析に関係する広範な
問題を取り扱うことができ、特に、教師信号借用型機械
学習法により、人手で解析情報を付与していない用例を
使用することができる。これにより、労力の負担を伴わ
ずにより多くの情報を利用できることによる処理精度の
向上を図ることができるという効果を奏する。
【0151】また、本発明では併用型機械学習法によ
り、多くの情報を用いることに加えて、従来の教師信号
を用いたより良い情報をも用いて言語処理を行う。これ
により、いっそうの処理の精度の向上を図ることができ
るという効果を奏する。
【図面の簡単な説明】
【図1】本発明にかかるシステムの構成例を示す図であ
る。
【図2】教師データの生成処理の処理フローチャートで
ある。
【図3】教師信号借用型機械学習法による解析処理の処
理フローチャートである。
【図4】機械学習法としてサポートベクトルマシン法を
用いる場合のシステム構成例を示す図である。
【図5】サポートベクトルマシン法のマージン最大化の
概念を示す図である。
【図6】機械学習法としてサポートベクトルマシン法を
用いた場合の解析処理の処理フローチャートである。
【図7】全事例における分類先の出現の分布を示す図で
ある。
【図8】格助詞の再推定問題の処理の精度を示す図であ
る。
【図9】主題化・連体化現象における表層格復元の処理
の精度を示す図である。
【図10】主題化・連体化現象における表層格復元の処
理の精度の平均を示す図である。
【図11】格解析全般での処理の精度を示す図である。
【図12】格解析全般での処理の精度の平均を示す図で
ある。
【符号の説明】
1 言語解析処理システム(CPU/メモリ) 2 生コーパス 3 データ 4 解析情報 11 問題表現相当部抽出部 12 問題表現情報記憶部 13 問題構造変換部 14 意味解析情報記憶部 15 教師データ記憶部 16 解データベース 17 解−素性対抽出部 18 機械学習部 19 学習結果データベース 21 素性抽出部 22 解推定処理部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 機械学習法を用いて言語解析を行う言語
    解析処理システムにおいて、 解析対象の情報が付加されていないデータから、予め設
    定された問題表現の構造に合致する部分を抽出して問題
    表現相当部とする問題表現抽出処理手段と、 前記問題表現相当部を、問題と解とを含む教師データに
    変換する問題構造変換処理手段と、 前記教師データから素性と解との対を抽出し、抽出した
    素性と解との対を教師信号として機械学習を行い、学習
    結果を学習結果データベースに保存する機械学習処理手
    段と、 入力されたデータから素性を抽出し、前記学習結果デー
    タベースに保存された前記学習結果をもとに解を推定す
    る解推定処理手段とを備えることを特徴とする機械学習
    法を用いた言語解析処理システム。
  2. 【請求項2】 請求項1に記載の機械学習法を用いた言
    語解析処理システムにおいて、 前記機械学習処理手段は、多数の素性の重要度を各素性
    同士の従属性を考慮して自動で求める枠組みを用いて処
    理を行うことを特徴とする機械学習法を用いた言語解析
    処理システム。
  3. 【請求項3】 請求項1に記載の機械学習法を用いた言
    語解析処理システムにおいて、 前記機械学習処理手段は、前記教師データから素性と解
    の対を抽出して借用型教師信号とし、予め備えられた解
    析対象の情報が付加されたデータから素性と解との対を
    抽出して非借用型教師信号とし、前記借用型教師信号お
    よび前記非借用型教師信号を用いて機械学習を行うこと
    を特徴とする機械学習法を用いた言語解析処理システ
    ム。
  4. 【請求項4】 機械学習法を用いた言語解析処理で用い
    る教師信号として借用する教師データを生成する教師デ
    ータ生成処理方法において、 解析対象に関する情報が付加されていないデータから、
    予め設定された問題表現の構造に合致する部分を抽出し
    て問題表現相当部とし、前記問題表現相当部を、問題と
    解とを含む教師データに変換する処理過程を備えること
    を特徴とする教師データ生成処理方法。
  5. 【請求項5】 機械学習法を用いて言語解析を行う言語
    解析処理方法において、 解析の問題と解とを含む教師データを記憶する教師デー
    タ記憶手段を備え、 前記教師データから素性と解との対を抽出し、抽出した
    素性と解との対を借用型教師信号として機械学習を行
    い、学習結果を学習結果データベースに保存する機械学
    習処理過程と、 入力されたデータから素性を抽出し、前記学習結果デー
    タベースに保存された学習結果をもとに解を推定する解
    推定処理過程とを備えることを特徴とする機械学習法を
    用いた言語解析処理方法。
  6. 【請求項6】 請求項5に記載の機械学習法を用いた言
    語解析処理方法において、 前記機械学習処理過程は、多数の素性の重要度を各素性
    同士の従属性を考慮して自動で求める枠組みを用いて処
    理を行うことを特徴とする機械学習法を用いた言語解析
    処理方法。
  7. 【請求項7】 請求項5に記載の機械学習法を用いた言
    語解析処理方法において、 解析対象に関する解情報が付加されたデータを記憶する
    解データ記憶手段を備え、 前記機械学習処理過程は、前記教師データから素性と解
    の対を抽出して借用型教師信号とし、前記解情報を付加
    されたデータから素性と解との対を抽出して非借用型教
    師信号とし、前記借用型教師信号および前記非借用型教
    師信号を用いて機械学習を行うことを特徴とする機械学
    習法を用いた言語解析処理方法。
  8. 【請求項8】 機械学習法を用いて言い換えによる変形
    を含む省略解析を行う言語省略解析処理システムにおい
    て、 解析対象の情報が付加されていないデータから、予め設
    定された問題表現の構造に合致する部分を抽出して問題
    表現相当部とする問題表現抽出処理手段と、 前記問題表現相当部を、問題と解とを含む教師データに
    変換する問題構造変換処理手段と、 前記教師データから素性と解との対を抽出し、抽出した
    素性と解との対を教師信号として機械学習を行い、学習
    結果を学習結果データベースに保存する機械学習処理手
    段と、 入力されたデータから素性を抽出し、前記学習結果デー
    タベースに保存された前記学習結果をもとに解を推定す
    る解推定処理手段とを備えることを特徴とする機械学習
    法を用いた言語省略解析処理システム。
  9. 【請求項9】 請求項8に記載の機械学習法を用いた言
    語省略解析処理システムにおいて、 前記機械学習処理手段は、多数の素性の重要度を各素性
    同士の従属性を考慮して自動で求める枠組みを用いて処
    理を行うことを特徴とする機械学習法を用いた言語省略
    解析処理システム。
JP2001311453A 2001-10-09 2001-10-09 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム Expired - Lifetime JP4065936B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001311453A JP4065936B2 (ja) 2001-10-09 2001-10-09 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
US10/189,580 US7542894B2 (en) 2001-10-09 2002-07-08 System and method for analyzing language using supervised machine learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001311453A JP4065936B2 (ja) 2001-10-09 2001-10-09 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム

Publications (2)

Publication Number Publication Date
JP2003122750A true JP2003122750A (ja) 2003-04-25
JP4065936B2 JP4065936B2 (ja) 2008-03-26

Family

ID=19130284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001311453A Expired - Lifetime JP4065936B2 (ja) 2001-10-09 2001-10-09 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム

Country Status (2)

Country Link
US (1) US7542894B2 (ja)
JP (1) JP4065936B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316953A (ja) * 2004-03-01 2005-11-10 Microsoft Corp データの意図を判定し、その意図に基づいてデータに応答するシステムおよび方法
JP2006315813A (ja) * 2005-05-13 2006-11-24 Murata Mach Ltd 移動体の診断システム
JP2006344102A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007199902A (ja) * 2006-01-25 2007-08-09 National Institute Of Information & Communication Technology 情報抽出・表示装置、情報抽出・表示方法および情報抽出・表示プログラム
JP2009176169A (ja) * 2008-01-25 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP2009176168A (ja) * 2008-01-25 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体
JP2010102521A (ja) * 2008-10-24 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
US7873508B2 (en) 2005-05-25 2011-01-18 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for supporting communication through translation between languages
JP2012048439A (ja) * 2010-08-26 2012-03-08 Kddi Corp 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法
JP2012173808A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
US9141601B2 (en) 2011-01-18 2015-09-22 Kabushiki Kaisha Toshiba Learning device, determination device, learning method, determination method, and computer program product
JP2015176355A (ja) * 2014-03-14 2015-10-05 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3682529B2 (ja) * 2002-01-31 2005-08-10 独立行政法人情報通信研究機構 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US20050033568A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for extracting synonymous gene and protein terms from biological literature
US8600963B2 (en) * 2003-08-14 2013-12-03 Google Inc. System and method for presenting multiple sets of search results for a single query
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
US20050261889A1 (en) * 2004-05-20 2005-11-24 Fujitsu Limited Method and apparatus for extracting information, and computer product
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
KR100750886B1 (ko) * 2005-12-09 2007-08-22 한국전자통신연구원 학습 데이터 구축 장치 및 방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8374844B2 (en) * 2007-06-22 2013-02-12 Xerox Corporation Hybrid system for named entity resolution
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US20110093263A1 (en) * 2009-10-20 2011-04-21 Mowzoon Shahin M Automated Video Captioning
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
JP5640773B2 (ja) * 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
JP5640774B2 (ja) * 2011-01-28 2014-12-17 富士通株式会社 情報照合装置、情報照合方法および情報照合プログラム
US10372815B2 (en) 2013-07-12 2019-08-06 Microsoft Technology Licensing, Llc Interactive concept editing in computer-human interactive learning
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US9720963B2 (en) 2014-11-05 2017-08-01 International Business Machines Corporation Answer category data classifying using dynamic thresholds
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US11140115B1 (en) * 2014-12-09 2021-10-05 Google Llc Systems and methods of applying semantic features for machine learning of message categories
US10061842B2 (en) 2014-12-09 2018-08-28 International Business Machines Corporation Displaying answers in accordance with answer classifications
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US9953027B2 (en) 2016-09-15 2018-04-24 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
US9984063B2 (en) 2016-09-15 2018-05-29 International Business Machines Corporation System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning
WO2018081970A1 (en) * 2016-11-03 2018-05-11 Bayerische Motoren Werke Aktiengesellschaft System and method for text-to-speech performance evaluation
US11237713B2 (en) * 2019-01-21 2022-02-01 International Business Machines Corporation Graphical user interface based feature extraction application for machine learning and cognitive models

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
US5956739A (en) * 1996-06-25 1999-09-21 Mitsubishi Electric Information Technology Center America, Inc. System for text correction adaptive to the text being corrected
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US5892919A (en) * 1997-06-23 1999-04-06 Sun Microsystems, Inc. Spell checking universal resource locator (URL) by comparing the URL against a cache containing entries relating incorrect URLs submitted by users to corresponding correct URLs
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP3135235B2 (ja) * 1999-02-26 2001-02-13 株式会社エイ・ティ・アール音声翻訳通信研究所 照応解析装置
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US6684201B1 (en) * 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
NZ503882A (en) * 2000-04-10 2002-11-26 Univ Otago Artificial intelligence system comprising a neural network with an adaptive component arranged to aggregate rule nodes
US6618715B1 (en) * 2000-06-08 2003-09-09 International Business Machines Corporation Categorization based text processing
US6519580B1 (en) * 2000-06-08 2003-02-11 International Business Machines Corporation Decision-tree-based symbolic rule induction system for text categorization
US6839665B1 (en) * 2000-06-27 2005-01-04 Text Analysis International, Inc. Automated generation of text analysis systems
US7308400B2 (en) * 2000-12-14 2007-12-11 International Business Machines Corporation Adaptation of statistical parsers based on mathematical transform
US6917926B2 (en) * 2001-06-15 2005-07-12 Medical Scientists, Inc. Machine learning method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316953A (ja) * 2004-03-01 2005-11-10 Microsoft Corp データの意図を判定し、その意図に基づいてデータに応答するシステムおよび方法
JP2006315813A (ja) * 2005-05-13 2006-11-24 Murata Mach Ltd 移動体の診断システム
US7873508B2 (en) 2005-05-25 2011-01-18 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for supporting communication through translation between languages
JP4654780B2 (ja) * 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2006344102A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007199902A (ja) * 2006-01-25 2007-08-09 National Institute Of Information & Communication Technology 情報抽出・表示装置、情報抽出・表示方法および情報抽出・表示プログラム
JP2009176169A (ja) * 2008-01-25 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP2009176168A (ja) * 2008-01-25 2009-08-06 Nippon Telegr & Teleph Corp <Ntt> 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体
JP2010102521A (ja) * 2008-10-24 2010-05-06 Nippon Telegr & Teleph Corp <Ntt> 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP2012048439A (ja) * 2010-08-26 2012-03-08 Kddi Corp 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法
US9141601B2 (en) 2011-01-18 2015-09-22 Kabushiki Kaisha Toshiba Learning device, determination device, learning method, determination method, and computer program product
JP2012173808A (ja) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム
JP2015176355A (ja) * 2014-03-14 2015-10-05 日本電信電話株式会社 モデル学習装置、方法及びプログラム

Also Published As

Publication number Publication date
US20030083859A1 (en) 2003-05-01
US7542894B2 (en) 2009-06-02
JP4065936B2 (ja) 2008-03-26

Similar Documents

Publication Publication Date Title
JP4065936B2 (ja) 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
Vougiouklis et al. Neural wikipedian: Generating textual summaries from knowledge base triples
Cimiano et al. Learning taxonomic relations from heterogeneous sources of evidence
Xia et al. Ensemble of feature sets and classification algorithms for sentiment classification
Kastrati et al. Performance analysis of machine learning classifiers on improved concept vector space models
Puri et al. An efficient Hindi text classification model using SVM
Madsen et al. Pruning the vocabulary for better context recognition
Curiel et al. An online multi-source summarization algorithm for text readability in topic-based search
Kaestner Support vector machines and kernel functions for text processing
JP2005208782A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Shynkarenko et al. Natural Language Texts Authorship Establishing Based on the Sentences Structure
Park et al. Co-trained support vector machines for large scale unstructured document classification using unlabeled data and syntactic information
Kocmi et al. SubGram: extending skip-gram word representation with substrings
Yahi et al. Morphosyntactic preprocessing impact on document embedding: An empirical study on semantic similarity
Hahn et al. An integrated, dual learner for grammars and ontologies
Pan et al. An automatic identification of function words in TDIL tagged Bengali corpus
Zhang et al. Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments
Šajgalík et al. Exploring multidimensional continuous feature space to extract relevant words
Bagui et al. Analysis of political sentiment from Twitter data
JP3780341B2 (ja) 言語解析処理システムおよび文変換処理システム
Karuppaiah et al. Word sense disambiguation in Tamil using Indo-WordNet and cross-language semantic similarity
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Li et al. Representation learning of multiword expressions with compositionality constraint
Cardellino et al. Exploring the impact of word embeddings for disjoint semisupervised Spanish verb sense disambiguation
Kikuchi et al. Unified likelihood ratio estimation for high-to zero-frequency N-grams

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050510

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050620

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050826

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350