JP2003122750A - 機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システム - Google Patents
機械学習法を用いた言語解析処理システム、教師データ生成処理方法、機械学習法を用いた言語解析処理方法、機械学習法を用いた言語省略解析処理システムInfo
- Publication number
- JP2003122750A JP2003122750A JP2001311453A JP2001311453A JP2003122750A JP 2003122750 A JP2003122750 A JP 2003122750A JP 2001311453 A JP2001311453 A JP 2001311453A JP 2001311453 A JP2001311453 A JP 2001311453A JP 2003122750 A JP2003122750 A JP 2003122750A
- Authority
- JP
- Japan
- Prior art keywords
- machine learning
- solution
- teacher
- language
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 171
- 238000010801 machine learning Methods 0.000 title claims abstract description 151
- 238000003672 processing method Methods 0.000 title claims description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 162
- 230000014509 gene expression Effects 0.000 claims abstract description 68
- 239000000284 extract Substances 0.000 claims abstract description 19
- 238000013500 data storage Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 109
- 238000000605 extraction Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims 1
- 241000220225 Malus Species 0.000 description 35
- 238000012706 support-vector machine Methods 0.000 description 26
- 239000002245 particle Substances 0.000 description 23
- 238000013519 translation Methods 0.000 description 13
- 230000014616 translation Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000013106 supervised machine learning method Methods 0.000 description 9
- 241001672694 Citrus reticulata Species 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 241001149724 Cololabis adocetus Species 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 101150059114 CAPN8 gene Proteins 0.000 description 1
- 102100030004 Calpain-8 Human genes 0.000 description 1
- 241000102542 Kara Species 0.000 description 1
- 101100459899 Oryza sativa subsp. japonica NCL2 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
師信号として用いることができる機械学習法を用いた言
語解析処理システムを実現する。 【解決手段】 問題表現相当部抽出部11は問題表現情報
記憶部12を参照して解析情報が付与されていない生コー
パス2 から問題表現に相当する部分を抽出し、問題構造
変換部13は、当該抽出部分を問題表現に変換して抽出し
た解と教師データを生成する。解−素性対抽出部17は教
師データ記憶部15に保存された教師データから解と素性
の集合の組を抽出し、機械学習部18は抽出した組からど
のような素性のときにどのような解となりやすいかを学
習した結果を保存する。素性抽出部21は入力されたデー
タ3 から素性の集合を抽出し、解推定処理部22は学習結
果データベース19をもとに素性の集合からその素性の場
合にどのような解になりやすいかを推定した解析情報 4
を出力する。
Description
し、特に、機械学習法を用いた言語解析処理システム、
教師データ生成処理方法、機械学習法を用いた言語解析
処理方法、機械学習法を用いた言語省略解析処理システ
ムに関する。
構文解析の次の段階である意味解析処理が重要性を増し
ている。特に意味解析の主要部分である格解析処理、省
略解析処理などにおいて、処理にかかる労力の負担軽減
や処理精度の向上が望まれている。
は連体化などをすることにより隠れている表層格を復元
する処理を意味する。例えば、「りんごは食べた。」と
いう文において、「りんごは」の部分は主題化している
が、この部分を表層格に戻すと「りんごを」である。こ
のような場合に、「りんごは」の「は」の部分を「ヲ
格」と解析する。
いう文において、「買った本」の部分が連体化している
が、この部分を表層格に戻すと「本を買った」である。
このような場合にも、「買った本」の連体の部分を「ヲ
格」と解析する。
いる表層格を復元する処理を意味する。「みかんを買い
ました。そして食べました。」という文において、「そ
して食べました」の部分に省略されている名詞句(ゼロ
代名詞)は「みかんを」であると解析する。
ような研究があった。
すような既存の格フレームを利用するものがある。 [参考文献1]Sadao Kurohashi and Makoto Nagao, A
Method of Case Structure Analysis for Japanse Sent
ences based on Examples in Case Frame Dictionary,
IEICE Transactions on Information and Systems, Vo
l.E77-D, No.2, (1994), pp227-239 また、以下の参考文献2に示すように、格解析におい
て、解析対象としている分類や情報の付加を行っていな
いコーパス(以下、「生コーパス」という。)から格フ
レームを構築し、それを利用するものがある。 [参考文献2]河原大輔, 黒橋禎夫, 用言と直前の格要
素の組を単位とする格フレームの自動獲得, 情報処理学
会, 自然言語処理研究会, 2000-NL-140-18, (2000)ま
た、以下の参考文献3に示すように、格解析において、
格情報付きコーパスを用いずに生コーパスでの頻度情報
を利用して、最尤推定により格を求めるものがある。 [参考文献3]阿部川武, 白井清昭, 田中穂積, 徳永健
伸, 統計情報を利用した日本語連体修飾語の解析, 言語
処理学会年次大会, (2001), pp269-272なお、以下の参
考文献4に示すように、格情報つきコーパスを用いた機
械学習法としてk近傍法の一種のTiMBL法(参考文
献5参照)を用いたものなどがある。 [参考文献4]Timothy Baldwin, Making lexical sens
e of japanese-englishmachine translation: A disamb
iguation extravaganza, Technical report,(Tokyo Ins
titute of Technology, 2001), Technical Report, ISS
N 0918-2802 [参考文献5]Walter Daelemans, Jakub Zavrel, Ko v
an der Sloot, and Antal van den Bosch, Timbl: Tilb
urg memory based learner version 3.0 reference gui
de, Technical report,(1995), ILK Technical Report-
ILK 00-01 なお、参考文献3に示された阿部川らの研究や、参考文
献4に示されたBaldwin の研究では、連体化の格解析処
理のみを扱うものである。
行う場合に用例とする格情報付きのコーパスに対し格情
報を人手で付与していた。しかし、人手で解析規則や解
析情報を付与することは、規則の拡張や規則の調節にか
かる人的資源の問題や労力負担が大きいという問題があ
る。
理に用いることは有効である。教師付き機械学習法で
は、解析対象となる情報が付与されたコーパスが教師信
号として用いられている。しかし、この場合でも、コー
パスに解析対象の情報を付加するという労力負担を軽減
する必要がある。
べく多くの教師信号を使用できるようにすることが必要
である。参考文献3の阿部川らの研究や、参考文献4の
Baldwin の研究は、格情報のついていない生コーパスを
用いて格解析処理を行うものである。ただし、これらの
技術は連体化のみを扱う格解析処理である。
析対象となる情報がついていない生コーパスなどを用い
た機械学習法(以下、「教師信号借用型機械学習法」と
よぶ。)を、より広範な言語処理において用いることが
できるようにすることが要求されている。
であることに着目し、省略解析処理において教師信号借
用型機械学習法を用いた方法を提案する。
質問応答システム(参考文献7〜9参照)などのより広
範な言語解析について教師信号借用型機械学習法を用い
た処理方法を提案する。 [参考文献6]村田真樹、長尾真、日本語文章における
表層表現と用例を用いた動詞の省略の補完、言語処理学
会誌、Vol.5, No.1,(1998) [参考文献7]Masaki Murata, Masao Utiyama, and Hi
toshi Isahara, Question answering system using syn
tactic information,(1999) [参考文献8]村田真樹、内山将夫、井佐原均、類似度
に基づく推論を用いた質問応答システム、自然言語処理
研究会 2000-NL-135, (2000), pp181-188 [参考文献9]村田真樹、内山将夫、井佐原均、質問応
答システムを用いた情報抽出、言語処理学会第6回年次
大会ワークショップ論文集, (2000), pp33-40 また、処理精度をより向上させるために、前記の教師信
号借用型機械学習法により借用された教師信号と、解析
対象である情報が付与されたデータを用いた教師あり機
械学習法(以下、非借用型機械学習法という。)におけ
る教師信号とを併用した機械学習法(以下、併用型機械
学習法という。)を用いた言語解析処理を提案する。
行うことから、前記の併用型機械学習法を用いた生成処
理を提案する。
法もしくは併用型機械学習法は、教師あり機械学習法を
用いている。本発明における教師あり機械学習法は、特
に、各素性の重要度を、素性間の従属的関係を考慮した
枠組みを用いて算出する過程を含むものである。この
点、一般的に機械学習法として分類される方法のうち、
各素性の類似度すなわち従属度を自ら決定しかかる算出
過程を含まない場合のk近傍法、各素性の独立性を前提
として素性間の従属性を考慮しないシンプルベイズ法な
どとも異なる。また、本発明における教師あり機械学習
法は、阿部川らの方法(参考文献3参照)における、生
コーパスで頻度による最尤推定とも異なる。最尤推定と
は、固定文脈において頻度の最も大きいものを解とする
手法であり、例えば格助詞を挟む体現と用言とを固定の
文脈とする場合に、「りんご(?)食べる」の形をして
いるもので(?)の位置の助詞のうち最も頻度の高いも
のを解とするものである。
借用型機械学習法を用いた言い換えによる変形を含む言
語省略解析処理システムを実現することである。
機械学習法として、各素性の重要度を素性間の従属的関
係を考慮した枠組みを用いて算出する過程を含む機械学
習法を用いた言語省略解析処理システムを実現すること
である。
械学習法により借用した教師信号と、非借用型機械学習
法の教師信号とによる機械学習法(併用型機械学習法)
を用いた言語解析処理システムを実現することである。
して、各素性の重要度を素性間の従属的関係を考慮した
枠組みを用いて算出する過程を含む機械学習法を用いる
言語解析処理システムを実現することである。
量の教師信号を借用することができるため、使用する教
師信号が増加し、よって学習の精度向上が期待できる。
は、省略補完処理、文生成処理、機械翻訳処理、文字認
識処理、音声認識処理など、語句を生成する処理を含む
ような極めて広範囲の問題に適用することができ、実用
性の高い言語処理システムに用いることができる。
め、本発明は、機械学習法を用いて言語解析を行う言語
解析処理システムにおいて、解析対象の情報が付加され
ていないデータから、予め設定された問題表現の構造に
合致する部分を抽出して問題表現相当部とする問題表現
抽出処理手段と、前記問題表現相当部を、問題と解とを
含む教師データに変換する問題構造変換処理手段と、前
記教師データから素性と解との対を抽出し、抽出した素
性と解との対を教師信号として機械学習を行い、学習結
果を学習結果データベースに保存する機械学習処理手段
と、入力されたデータから素性を抽出し、前記学習結果
データベースに保存された前記学習結果をもとに解を推
定する解推定処理手段とを備える。
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。
データから素性と解の対を抽出して借用型教師信号と
し、予め備えられた解析対象の情報が付加されたデータ
から素性と解との対を抽出して非借用型教師信号とし、
前記借用型教師信号および前記非借用型教師信号を用い
て機械学習を行う。
解析処理で用いる教師信号として借用する教師データを
生成する教師データ生成処理方法において、解析対象に
関する情報が付加されていないデータから、予め設定さ
れた問題表現の構造に合致する部分を抽出して問題表現
相当部とし、前記問題表現相当部を、問題と解とから構
成される教師データに変換する処理過程を備える。
解析を行う言語解析処理方法において、解析の問題と解
とを含む教師データを記憶する教師データ記憶手段を備
え、前記教師データから素性と解との対を抽出し、抽出
した素性と解との対を借用型教師信号として機械学習を
行い、学習結果を学習結果データベースに保存する機械
学習処理過程と、入力されたデータから素性を抽出し、
前記学習結果データベースに保存された学習結果をもと
に解を推定する解推定処理過程とを備える。
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。
る解情報が付加されたデータを記憶する解データ記憶手
段を備え、前記機械学習処理過程は、前記教師データか
ら素性と解の対を抽出して借用型教師信号とし、前記解
情報を付加されたデータから素性と解との対を抽出して
非借用型教師信号とし、前記借用型教師信号および前記
非借用型教師信号を用いて機械学習を行う。
換えによる変形を含む言語省略解析を行う言語省略解析
処理システムにおいて、解析対象の情報が付加されてい
ないデータから、予め設定された問題表現の構造に合致
する部分を抽出して問題表現相当部とする問題表現抽出
処理手段と、前記問題表現相当部を、問題と解とを含む
教師データに変換する問題構造変換処理手段と、前記教
師データから素性と解との対を抽出し、抽出した素性と
解との対を教師信号として機械学習を行い、学習結果を
学習結果データベースに保存する機械学習処理手段と、
入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備える。
性の重要度を各素性同士の従属性を考慮して自動で求め
る枠組みを用いて処理を行う。
どが付与されていないコーパスでも、問題が省略解析に
類似する問題であるならば、その問題を教師信号として
借用できることに着目し、この手法を単に格解析処理に
用いるだけでなく、省略解析に類似するより広範な言語
処理の問題においても利用できる手法を実現したもので
ある。
用する併用型機械学習法を提案して、処理負担の軽減と
処理精度の向上とを図る処理方法を実現したものであ
る。
は、コンピュータにインストールされ実行されるプログ
ラムにより実現される。本発明を実現するプログラム
は、コンピュータが読み取り可能な、可搬媒体メモリ、
半導体メモリ、ハードディスクなどの適当な記録媒体に
格納することができ、これらの記録媒体に記録して提供
され、または、通信インタフェースを介して種々の通信
網を利用した送受信により提供される。
よる処理〕教師信号借用型機械学習法を用いた言語解析
処理のうち日本語解析処理を例に本発明の実施の形態を
説明する。
おいては、照応省略に関する情報が付与されていないコ
ーパスを利用することができると考える。その技術理論
的背景を、以下の例を用いて示す。「例:みかんを買い
ました。これを食べました。」「用例a:ケーキを食べ
る。」、「用例b:りんごを食べる。」このとき、「こ
れ」の指示先を推定したいとする。この場合に、用例a
および用例bを使って、「を食べる」の前には食べ物に
ついての名詞句がきそうであると予想し、この予想から
「みかん」が指示先であると推定することができる。こ
こで、用例aおよび用例bは、照応省略に関する情報が
付与されていない普通の文でよい。
用例を利用して解くことを考える。そのような用例は、
例えば以下のような形をしている。「用例c:りんごを
買いました。これを食べました。(「これ」が「りん
ご」を指す。)」用例cでは、「りんごを買いました。
これを食べました。」という文に対して、その文の「こ
れ」が「りんご」を指すという照応省略に関する情報を
付与しておくのである。このような用例cを用いること
でも、「りんご」を指す例があるのなら、「みかん」も
指すだろうと判断して、「みかん」を指示先を推定する
ことができる。
る情報をコーパスに付与することは大変労力のいること
である。したがって、本発明のように、用例cの照応省
略に関する情報を用いずに、照応省略に関する情報が付
与されていない用例aおよび用例bを用いることでも問
題を解くことができるのならば、その方がコストが小さ
く、その意味で照応省略に関する情報が付与されていな
い用例を解析に利用できることは価値がある。
れていない用例を用いた省略解析の例を以下に示す。
析 例:「みかんを買いました。そして{φを}食べまし
た。」 用例:「{りんご}を食べる。」 指示詞・代名詞・ゼロ代名詞照応解析は、既に説明した
ように、指示詞や代名詞、文中で省略された代名詞(φ
=ゼロ代名詞)の指示先を推定するような解析である。
以下の参考文献10において詳細に説明している。[参
考文献10]村田真樹、長尾真、用例や表層表現を用い
た日本語文章中の指示詞・代名詞・ゼロ代名詞の指示対
象の推定、言語処理学会誌、Vol.4, No.1(1997) (2)間接照応解析 例:「家がある。{屋根}は白い。」 用例:「{家}の屋根」 間接照応解析は、「AのB」の形をした用例を利用する
ことで、「屋根」が前文の「家」の屋根であると推定す
るような解析である。以下の参考文献11において詳細
に説明している。 [参考文献11]村田真樹、長尾真、意味的制約を用い
た日本語名詞における間接照応解析、言語処理学会誌、
Vol.4, No.2, (1997) (3)動詞の省略補完 例:「そううまくいくとは」 用例:「そんなにうまくいくとは{思えない}。」 例「そううまくいくとは」の後ろに省略されている動詞
部分を「そううまくいくとは」を含む文を集めて、その
用例文を用いて推測するような解析である。前述の参考
文献6で説明している。
し、意味関係の中には動詞で表現できるものがある。そ
のような動詞は、名詞A、名詞Bおよび動詞との共起情
報から推測できる。「AのB」の意味解析とは、このよ
うな共起情報により意味関係を推測するような解析であ
る。解析の詳細は、以下の参考文献12に説明されてい
る。 [参考文献12]田中省作、富浦洋一、日高達、統計的
手法を用いた名詞句「NPのNP」の意味関係の抽出、
言語理解とコミュニケーション研究会 NLC98-4,(199
8), pp23-30 (5)換喩解析 例:「漱石を読む。」⇒「漱石の小説を読む。」 用例:「漱石の小説」「小説を読む」 「漱石を読む」の「漱石」は「漱石が書いた小説」を意
味する。換喩解析は、そのような省略された情報を、
「AのB」「CをVする」という形をした用例を組み合
わせて用いることで補完する解析である。以下の参考文
献13および参考文献14において説明している。 [参考文献13]村田真樹、山本専、黒橋禎夫、井佐原
均、長尾真、名詞句「aのb」「ab」を利用した換喩
解析、実行知能学会誌、Vol.15, No.3 (2000) [参考文献14]内山将夫、村田真樹、馬青、内元清
貴、井佐原均、統計的手法による換喩の解釈、言語処理
学会誌,Vol.7, No.2, (2000) (6)連体化した節の格解析 例:「オープンする施設」⇒格関係=ガ格 用例:「施設がオープンする」 連体化した節の格解析とは、名詞と動詞の共起情報を用
いて隠れている連体化した節の格を推定する解析であ
る。解析の内容は前記の参考文献3に詳しく説明されて
いる。
を示す。図1中、1は本発明にかかる言語解析処理シス
テムを表す。言語解析処理システム1は、CPU、メモ
リなどで構成され、問題表現相当部抽出部11、問題表
現情報記憶部12、問題構造変換部13、意味解析情報
記憶部14、教師データ記憶部15、解−素性対抽出部
17、機械学習部18、学習結果データベース19、素
性抽出部21、解推定処理部22を持つ。
ようなものが問題表現に相当する部分であるかを記憶し
た問題表現情報記憶部12を参照して、解析対象の情報
が付与されていない生コーパス2から入力された文につ
いて、問題表現に相当する部分を抽出する手段である。
(6)に示すような省略解析の問題表現を予め記憶して
おく。また、意味解析の場合に用いる意味解析情報は、
予め意味解析情報記憶部14に記憶しておく。
出部11で抽出された入力文の問題表現に相当する部分
を解として抽出し、さらに、その部分を問題表現に変換
し、変換結果の文を問題とし、かつ、抽出した解を解と
する教師データを教師データ記憶部15に記憶する手段
である。
変換した結果である文を変形する必要がある場合に、意
味解析情報記憶部14を参照して、当該結果文を変形し
たものを問題とする。
を持つ教師データを記憶する教師データ記憶部15か
ら、事例ごとに、事例の解と素性の集合との組を抽出す
る手段である。
により抽出された解と素性の集合の組から、どのような
素性のときにどのような解になりやすいかを機械学習法
により学習し、その学習結果を学習結果データベース1
9に保存する手段である。
ら、素性の集合を抽出し、解推定処理部22へ渡す手段
である。
ス19を参照して、素性抽出部21から渡された素性の
集合の場合に、どのような解になりやすいかを推定し、
推定結果である解析情報4を出力する手段である。
ーチャートを示す。
析対象の情報がなにも付与されていない普通の文が問題
表現相当部抽出部11に入力される。
では、生コーパス2から入力された普通文の構造を検出
し、入力された普通文から問題表現に相当する部分を抽
出する。このとき、どのようなものが問題表現相当部で
あるかの情報は、問題表現情報記憶部12に記憶されて
いる問題表現情報により与える。すなわち問題表現の構
造と検出した普通文の構造とのマッチングを行い、一致
するものを問題表現相当部とする。
問題表現相当部抽出部11で抽出された問題表現相当部
を解として抽出し、その部分を問題表現に変換する。そ
して、変換結果の文を問題とし抽出した解を解とする教
師データを教師データ記憶部15に記憶する。
に変換する際に、意味解析情報を必要とする場合には、
予め意味解析情報記憶部14に記憶されている意味解析
情報を参照する。
の場合には、問題表現情報記憶部12には、文末の動詞
部分が問題表現相当部として記述されている。そして、
生コーパス2から、「そんなにうまくいくとは思えな
い」という文が入力されると、問題表現相当部抽出部1
1では、文末の動詞「思えない」が問題表現相当部であ
ると認識する。
えない」を解として抽出し、元の文の動詞「思えない」
の部分を”省略された動詞”という記号に置き換える。
この結果、「問題⇒解」:「そんなにうまくいくとは”
省略された動詞”」⇒「思えない」という教師データが
得られるので、この教師データを教師データ記憶部15
へ記憶する。
なにうまくいくとは」,分類先:「思えない」という形
式の機械学習法で用いる教師信号とすることができる。
すなわち、解−素性対抽出部17では、教師データを文
脈から分類先を学習する教師あり機械学習の問題として
使用することができる。
題表現情報記憶部12には、格助詞が問題表現相当部と
して記述されている。そして、生コーパス2から、「り
んごを食べる」という文が入力されると、問題表現相当
部抽出部11では、格助詞「を」が問題表現相当部とし
て認識する。
解として抽出し、元の文の格助詞「を」の部分を”認識
すべき格”という記号に置き換える。この結果、「問題
⇒解」:「りんご”認識すべき格”食べる」⇒「を」と
いう教師データが得られるので、この教師データを教師
データ記憶部15へ記憶する。この場合も同様に、解−
素性対抽出部17を介して、文脈:「食べる」,分類
先:「りんごを」という教師信号となる。
理を行い、それぞれの教師データを出力する。そして、
例えば、前述(2)の間接照応解析の場合には、文脈:
「の屋根」,分類先:「家」という教師信号に、また、
前述(4)の「AのB」の意味解析の場合には、文脈:
「写真」「人物」,分類先:「描かれる」という教師信
号に、また、前述(5)の換喩解析の場合には、文脈:
「漱石の」,分類先:「小説」文脈:「を読む」,分類
先:「小説」という教師信号に、また、前述(6)の連
体化における格解析の場合は、文脈:「施設」「オープ
ンする」,分類先:「ガ格」という教師信号になる。
現については、解析対象用のタグがついていない生コー
パス2を機械学習方法の教師信号とすることができる。
ば「オープンする施設」を「施設がオープンする」とと
らえる格解析のように、言葉を少し補って言い換えて解
釈するような問題についても、生コーパス2を機械学習
方法の教師信号とすることができる。すなわち、意味解
釈の問題は、たいていの場合、言い換えた文によってそ
の答えを表現するため、本発明は言葉を少し補いながら
言い換えて解釈するような問題一般も適用範囲に含める
ことができることを意味する。一例として、本発明を質
問応答システムに適用する場合について説明する。
の部分が省略しておりこの部分を補完する問題であると
考えることができる。この場合に、よく似た文を集めて
その文の疑問詞にあたる部分を解答として出力する(参
考文献7〜9参照)。
例の場合に、事例:「日本の首都はどこですか」⇒解答
=東京用例:「日本の首都は東京です」という教師デー
タは、文脈:「日本の首都は」,分類先:「東京」文
脈:「の首都は東京です」,分類先:「日本」という教
師信号になる。
される教師データは、通常の教師信号の形式と同じよう
な構造になっているため、教師あり機械学習法の教師信
号として用いることができ、さまざまな高度な手法が提
案されている機械学習法の中から最適な手法を選択して
問題を解くことができる。
をかなり自由に定義することができることから、広範な
情報を教師信号として利用でき、結果的に解析精度が向
上しやすい。
学習法による解析処理の処理フローチャートを示す。
17では、教師データ記憶部15から、各事例ごとに、
解と素性の集合との組を抽出する。素性とは、解析に用
いる情報の細かい1単位を意味する。解−素性対抽出部
17は、素性の集合を機械学習に用いる文脈とし、解を
分類先とする。
では、抽出された解と素性の集合との組から、どのよう
な素性のときにどのような解になりやすいかを機械学習
し,その学習結果を学習結果データベース19に保存す
る。
各素性同士の従属性を考慮して自動で求める枠組みを用
いて算出する処理過程を含むものであればよい。例え
ば、以下に示すような決定リスト法、最大エントロピー
法、サポートベクトルマシン法などを用いるが、これら
の手法に限定されない。
で文脈を構成する各要素) と分類先の組を規則とし、そ
れらをあらかじめ定めた優先順序でリストに蓄えおき、
解析すべき入力が与えられたときに、リストで優先順位
の高いところから入力のデータと規則の素性を比較し素
性が一致した規則の分類先をその入力の分類先とする方
法である。
ておいた素性fj (1≦j≦k)の集合をFとすると
き、所定の条件式を満足しながらエントロピーを意味す
る式を最大にするときの確率分布p(a,b)を求め、
その確率分布にしたがって求まる各分類の確率のうち、
もっとも大きい確率値を持つ分類を求める分類とする方
法である。
面で分割することにより、2つの分類からなるデータを
分類する手法である。
ベクトルマシン法を用いた処理例についての詳細な説明
を後述する。
ついては、以下の参考文献15に説明している。[参考
文献15] 村田真樹、内山将夫、内元清貴、馬青、井佐
原均、種々の機械学習法を用いた多義解消実験、電子情
報通信学会言語理解とコミュニケーション研究会,NCL2
001-2, (2001)ステップS13:解を求めたいデータ3
が素性抽出部21に入力される。
−素性対抽出部17での処理とほぼ同様に,入力された
データ3から素性の集合を取り出し,それらを解推定処
理部22へ渡す。
渡された素性の集合の場合にどのような解になりやすい
かを学習結果データベース19をもとに特定し、特定し
た解である解析情報4を出力する。
あって、解析したい問題が「認識すべき格」であれば、
「ヲ格」という格情報を出力する。また、データ3が
「そんなにうまくいくとは」であって、解析したい問題
が「補完すべき動詞」であれば、省略された動詞「思え
ない」を出力する。
ルマシン法を用いる場合のシステム構成例を示す。図4
に示す言語解析処理システム5の構成例は、図1に示す
構成例とほぼ同様である。図4において、図1に示す手
段と同一の機能を持つ手段には同一の番号を付与してい
る。
は、教師データ記憶部15から、事例ごとに、事例の解
もしくは解候補と事例の素性の集合との組を抽出する手
段である。ここで、解候補とは、解以外の解の候補を意
味する。
候補対抽出部51により抽出された解もしくは解候補と
素性の集合との組から、どのような解もしくは解候補と
素性の集合のときに、正例である確率または負例である
確率を、例えばサポートベクトルマシン法により学習
し、その学習結果を学習結果データベース53に保存す
る手段である。
ータ3から、解候補と素性の集合とを抽出し、解推定処
理部55へ渡す手段である。
ス53を参照して、素性−解候補抽出部54から渡され
た解候補と素性の集合との場合に、正例または負例であ
る確率を求めて、正例である確率が最も大きい解候補を
解析情報4として出力する手段である。
め、図5に、サポートベクトルマシン法のマージン最大
化の概念を示す。図5において、白丸は正例、黒丸は負
例を意味し、実線は空間を分割する超平面を意味し、破
線はマージン領域の境界を表す面を意味する。図5
(A)は、正例と負例の間隔が狭い場合(スモールマー
ジン)の概念図、図5(B)は、正例と負例の間隔が広
い場合(ラージマージン)の概念図である。
るものとすると、学習データにおける正例と負例の間隔
(マージン) が大きいものほどオープンデータで誤った
分類をする可能性が低いと考えられ、図5(B)に示す
ように、このマージンを最大にする超平面を求めそれを
用いて分類を行なう。
記のとおりであるが、通常、学習データにおいてマージ
ンの内部領域に少数の事例が含まれてもよいとする手法
の拡張や、超平面の線形の部分を非線型にする拡張(カ
ーネル関数の導入) がなされたものが用いられる。
用いて分類することと等価であり、その識別関数の出力
値が正か負かによって二つの分類を判別することができ
る。
の集合) を、xi とyj (i=1,…,l,yj ∈
{1,−1})は学習データの文脈と分類先を意味し、
関数sgnは、 sgn(x)=1(x≧0) (2) −1(otherwise ) であり、また、各αi は式(4)と式(5)の制約のも
と式(3)を最大にする場合のものである。
々なものが用いられるが、本形態では以下の多項式のも
のを用いる。
例ではCはすべての処理を通して1に固定した。また、
dは、1と2の二種類を試している。ここで、α i >0
となるxi は,サポートベクトルと呼ばれ、通常,式
(1) の和をとっている部分はこの事例のみを用いて計
算される。つまり、実際の解析には学習データのうちサ
ポートベクトルと呼ばれる事例のみしか用いられない。
法の詳細については、以下の参考文献16および参考文
献17を参照されたい。 [参考文献16]Nello Cristianini and John Shawe-T
aylor, An Introductionto Support Vector Machines a
nd other kernel-based learning methods,(Cambridge
University Press,2000) [参考文献17]Taku Kudoh, Tinysvm:Support Vector
machines,(http://cl.aist-nara.ac.jp/taku-ku//soft
ware/Tiny SVM/index.html,2000) サポートベクトルマシン法は、分類の数が2個のデータ
を扱うもので、通常これにペアワイズ手法を組み合わせ
て用いることで、分類の数が3個以上のデータを扱うこ
とになる。
ータの場合に、異なる二つの分類先のあらゆるペア(N
(N−1)/2個) を作り、各ペアごとにどちらがよい
かを2 値分類器(ここではサポートベクトルマシン法に
よるもの)で求め、最終的にN(N−1)/2個の2値
分類器の分類先の多数決により、分類先を求める方法で
ある。
トベクトルマシンは、サポートベクトルマシン法とペア
ワイズ手法を組み合わせることによって実現するもので
あり、以下の参考文献18により工藤氏が作成したTi
nySVMを利用している。 [参考文献18]工藤拓 松本裕治,Support vector m
achineを用いたchunk 同定、自然言語処理研究会、 200
0-NL-140,(2000) 図6に、機械学習法としてサポートベクトルマシン法を
用いた解析処理の処理フローチャートを示す。
補対抽出部51では、各事例ごとに、解もしくは解候補
と素性の集合との組を抽出する。解と素性の集合との組
を正例、解候補と素性の集合との組を負例とする。
もしくは解候補と素性の集合との組から、どのような解
もしくは解候補と素性の集合のときに正例である確率ま
たは負例である確率であるかを機械学習法例えばサポー
トベクトルマシン法により学習する。そして、その学習
結果を学習結果データベース53に保存する。
に、解を求めたいデータ3が入力される。
では、入力されたデータ3から解候補と素性の集合との
組を取り出し、解推定処理部55へ渡す。
渡された解候補と素性の対の場合に、正例である確率お
よび負例である確率を求める。この確率は、すべての解
候補について計算する。
すべての解候補の中から、正例である確率が最も大きい
解候補を求め、その解候補を解とする解析情報4を出力
する。
る処理〕教師データ記憶部15に記憶される教師データ
は、通常の教師信号の形式である「問題⇒解」となって
いる。このため、本来の解析対象用のタグのついたコー
パスからデータをとった教師信号(非借用型教師信号)
と同時に併用して用いることができる。教師データと、
非借用型教師信号とを併用すれば、多くの情報を利用で
きるために機械学習の結果の精度が向上する。
文にあり用例だけの情報で指示先を特定するのは困難な
問題もあるため、借用した教師データだけを用いて解析
を行なうことはできない場合もある。このような場合に
は、非借用型教師信号、すなわち従来の教師信号も用い
る併用型機械学習法を用いた処理によって対処すること
ができる。
る教師データとして、「問題⇒解」:「リンゴ”認識す
べき格”食べる」⇒「を」が得られる。一方、本来の教
師信号では、「問題⇒解」:「りんごも食べる」⇒
「を」であることを考えると、「も」と”認識すべき
格”の部分が少し異なる。「も」も”認識すべき格”の
一部ではあるが、本来の教師信号の「も」の方が、
「も」があるだけ情報量が多いことになる。すなわち、
非借用型教師信号の方が情報が多い。よって、併用型教
師あり機械学習法による処理がよりよいと考えられる。
るのではなく、表層格を用いた文に変形できないことか
ら、外の関係(格関係にならない関係)などは教師デー
タでは扱えない問題もある。
て言い換えによる文解釈という立場から見れば、外の関
係も教師データを用いた機械学習で扱えることになる。
例えば、外の関係の文「さんまを焼くけむり」は、「さ
んまを焼く時に出るけむり」と言い換えて解釈できる場
合がある。「さんまを焼く時に出るけむり」と言い換え
る解釈を正解とする問題設定であるならば、連体節とそ
の係り先の名詞との間の省略された表現「時に出る」を
補完するという省略補完の問題となり、借用型教師デー
タを用いた機械学習で扱える問題となり、併用型機械学
習法による処理に適している。
も取り扱うことができると考える。教師信号借用型機械
学習法すなわち、解析対象とするタグがふられていない
コーパスを用いることができるという点で、省略解析と
生成とが似ていることについては、以下の参考文献19
で指摘した。 [参考文献19]村田真樹、長尾真、表層表現と用例を
用いた照応省略解析手法、言語理解とコミュニケーショ
ン研究会 NCL97-56,(1997) 例えば格助詞の生成の例を示す。格助詞の生成では、例
えば問題−解の組は、「問題⇒解」:「りんご←(obj)
−食べる」⇒「を」といったものになる。生成の場合
に、一般に生成される部分の意味を深層格など(例:ob
j )を用いて表現する。ここで、obj とは目的格を意味
する。この問題−解の組は、このobj の部分が格助詞の
生成の結果では「を」になるということを示しており、
前述でいう非借用型教師信号に相当する。
析対象とするタグがふられていない生コーパス2から
「りんごを食べる」といった文を取り出して、それを借
用型教師信号として扱うことで以下のようなものとな
る。
食べる」⇒「を」これらの非借用型教師信号と借用型教
師信号とは非常に類似しており、「obj」と”生成すべ
き格”の部分とが少し異なるだけで借用型教師信号も非
借用型教師信号と同様に教師信号として十分に用いるこ
とができる。つまり、格助詞の生成においても教師信号
借用型機械学習法を用いることができる。
では、「obj 」の方が、「obj 」があるだけ情報量が多
い。このため、この問題においても、本来の教師信号、
すなわち非借用型教師信号の方が情報が多いことにな
る。したがって、借用型教師信号だけでなく非借用型教
師信号を用いる併用型機械学習法による処理を用いる方
がよりよい。
例を示す。この問題では、問題−解の組は、「問題⇒
解」:「eat → apple」⇒「を」のように与えられる。
これは、 "I eat apple." という文の eatと appleの関
係が、英語から日本語に変換すると「を」になるという
ことを示しており、非借用型教師信号に相当するもので
ある。この問題でも解析対象とするタグがふられていな
い生コーパス2から「りんごを食べる」といった文を取
り出して、それを借用型教師信号として扱うことで、
「問題⇒解」:「りんご”生成すべき格”食べる」⇒
「を」となる。
(非借用型教師信号)と借用型教師信号とは、全然一致
する部分がないことがわかる。このままでは借用型教師
信号は役に立たない。そこで、それぞれの信号について
問題部分は英日もしくは日英翻訳しておく。そうすると
「問題⇒解」:「eat (食べる) → apple(りんご) 」
⇒「を」「問題⇒解」:「りんご(apple)”生成すべき
格”食べる (eat)」⇒「を」のようになる。この状態で
あれば少々は一致するため、借用型教師信号も教師信号
として役に立つ。例えば、単語を切り出して、それらを
学習に用いる素性とする場合に、それらは「eat 」、
「apple 」、「食べる」、「りんご」であり、ほとんど
一致する。
組み合わせて全体の翻訳を組み合わせることもあり、他
の部分の翻訳を先に処理することを前提にすれば「eat
→apple 」の部分を「食べる→りんご」などにすでにな
っていることを前提として「問題⇒解」:「食べる→り
んご」⇒「を」という教師信号になっていると扱っても
よい。
用する教師信号とに一致部分があるため、併用型機械学
習法を利用することができる。
全体の翻訳を組み合わせる際に、各部分の翻訳の候補を
複数残しておいて、それらの組み合わせの分をすべて解
候補として残しながら解を求めていくようにしてもよ
い。このように翻訳の候補を解候補として扱うようにし
ても、上記のように自分(この場合「を」)以外の部分
(この場合は、「食べる」および「りんご」)の翻訳結
果を利用することができる。
1または図4に示すシステム構成例において、解データ
ベース16を予め用意しておく必要がある。解データベ
ース16は、従来の教師あり機械学習法で用いられる、
解析情報を人手などにより付与したコーパスなどであ
る。そして、図1に示すシステムの場合に、解−素性対
抽出部17は、教師データ記憶部15および解データベ
ース16から、各事例ごとに解と素性の集合との組を抽
出する。また、図4に示すシステムにおいても、素性−
解対・素性−解候補対抽出部51は、同様に、教師デー
タ記憶部15および解データベース16から、各事例ご
とに解もしくは解候補と素性の集合との組を抽出する。
について説明する。
に用いる情報) について、すなわち機械学習に用いる文
脈(素性の集合) と分類先を説明する。格解析を行なう
対象は以下のものとした。・連体化した節の用言とその
係り先の体言との間の関係・格助詞のみがつく体言、助
詞が一切つかない体言を除く体言が用言にかかる場合の
その体言と用言との関係(例えば、「この問題{さえ}
解かれた。」)また、分類先として、ガ格、ヲ格、ニ
格、デ格、ト格、カラ格(6分類)およびその他 (外の
関係、格関係にならない主題など) の7つの分類を用い
た。このとき、受け身の文の場合でも受け身の文型のま
ま表層格の推定を行なうこととした。例えば「解かれた
問題」の場合には、「問題が解かれた」となるのでガ格
として扱う。受け身を能動態に直して「問題を解く」と
解釈してヲ格とはしなかった。
先の体言が格関係にならない場合のことをいう。例え
ば、「さんまを焼くにおい」の文の「焼く」と「にお
い」とは格関係が成立しないので、このような文は外の
関係と呼ばれる。
るものに、例えば、「{九一年も}出生数が前年より千
六百六十人多かった」の「九一年も」がある。この「九
一年も」は、ガガ文としてガ格としてもよい場合もある
からである。
相が代わる」の「三度も」のような副詞も「その他」の
分類とした。
象としないこととした。助詞の脱落現象の少ない分野の
データならば、助詞が一つもついていなければ副詞と判
断してもよいだろうが、助詞の省略が存在するとなる
と、助詞のついていない体言も係り先の用言と格関係を
持つ可能性があるために、それらの体言もすべて解析対
象とする必要があるためである。
た。ただし、体言nと用言vの間の格関係を求める場合
として表している。 1.問題が連体節か主題化のものか主題化の場合は体言
nについている助詞 2.用言vの品詞 3.用言vの単語の基本形 4.用言vの単語の分類語彙表の分類番号の1 、2 、3
、4 、5 、7 桁までの数字。ただし、分類番号に対し
て文献の表の変更を行なっている。 5.用言vにつく助動詞列(例:「れる」、「させ
る」) 6.体言nの単語 7.体言nの単語の分類語彙表の分類番号の1 、2 、3
、4 、5 、7 桁までの数字。ただし、分類番号に対し
て文献の表の変更を行なっている。 8.用言vにかかる体言n以外の体言の単語列 ただし、どういった格でかかっているかの情報をAND で
つけることとした。 9.用言vにかかる体言n以外の体言の単語集合の分類
語彙表の分類番号の1 、2 、3 、4 、5 、7 桁までの数
字。ただし、分類番号に対して文献の表の変更を行なっ
ている。また、どういった格でかかっているかの情報を
AND でつけることとした。 10.用言vにかかる体言n以外の体言がとっている格 11.同一文に共起する語 本例では、以上の素性のいくつかを用いて行った。な
お、教師信号借用型機械学習法を用いる場合は、前記
1.の素性は用いることができない。
機械学習法)を用いた処理を行なった。データは京都大
コーパス中の毎日新聞95年1月1日の一日分を用いた
(参考文献20参照)。[参考文献20]黒橋禎夫、長
尾真、京都大学テキストコーパス・プロジェクト、言語
処理学会第3回年次大会、1997、pp115-118このデータ
に対し、前記したように定義した問題設定で分類先を付
与した。京大コーパスの構文タグが誤っていると判明し
た部分はデータから除いた。事例数は1,530個であ
った。図7に、全事例における分類先の出現の分布を示
す。この事例の分布から、コーパスの用例中、ガ格が圧
倒的に多く、ついで連体における外の関係が多いことが
わかる。
処理を行なった。借用する教師データ用の用例は京大コ
ーパス中の毎日新聞95年1月1〜17日の16日分
(約2万文) を用いた。このデータのうち、体言と用言
を係り受け関係を格助詞のみで結んでいるもののみを教
師データとした。全事例数は57,853個であった。
このとき、前記の定義の素性のうち1.の素性は、主題
化・連体化していないものからデータをもってくるため
に用いることができない。
プルベイズ法、決定リスト法、最大エントロピー法、サ
ポートベクトルマシン法を用いた。TiMBL法、シン
プルベイズ法については、処理精度の比較のために用い
た。
発したシステムで、類似するk個の事例でもとめるk近
傍法を用いるものになっている(参考文献5参照)。さ
らにTiMBL法では事例間の類似度はあらかじめ定義
しておく必要はなく、素性を要素とした重みつきのベク
トルの間の類似度という形で自動的に算出される。また
本稿ではk=3を用いその他はデフォルトの設定で利用
した。シンプルベイズ法は、あらかじめ類似度の定義を
与えるk近傍法の一手法である。
能を調べるために、表層格の再推定という問題を解く。
これは文中の表層格を消して、それをもう一度推定でき
るか否かを試すものである。この問題を対象として、さ
きほどの借用型教師信号(57,853個) で記事ごと
の10分割のクロスバリデーションを用いて実験した。
す。TiMBL、SB、DL、ME、SVMは、それぞ
れTiMBL法、シンプルベイズ法、決定リスト法、最
大エントロピー法、サポートベクトルマシン法を意味す
る。図8に示すように、サポートベクトルマシン法(S
VM)がもっとも精度が良く、7割の精度を得た。
詞の生成については、少なくともこの精度で処理を行え
ることを示している。また、文生成の処理の場合には、
併用型機械学習法を用いた処理を用いることにより、深
層格などなんらかの格に対する情報を入力としても与え
ることができるため、図8に示す処理結果よりも高い精
度が得られると考えられる。また、一般的な助詞脱落の
補完問題は、この程度の処理精度を得ることができれ
ば、解けるであろうことがわかる。
て、最初に用意した主題化・連体化したデータで、表層
格復元の処理を行なった。この場合には、借用型教師信
号では外の関係などの「その他」の分類を推定すること
ができないので、「その他」の分類の事例を除いて処理
を行なった。そのため、評価用のデータの事例数は1,
530から1,188に減少した。機械学習にはさきほ
ど集めた借用型教師信号(57,853個) を用いた。
図9に、この処理の結果を示す。
デ格の4つの格のそれぞれの精度の平均でも評価した。
図10に、この処理の結果を示す。
例を学習に用いた非借用型機械学習法による結果も示
す。また、この1,188個の非借用教師信号と、5
7,853個の借用教師信号の両方を併用する併用型機
械学習法による結果も示す。ただし、これらの処理では
記事を単位とする10分割のクロスバリデーションを行
ない、解析対象の事例と同じ記事の借用教師信号と非借
用教師信号は用いないようにした。
に示す処理結果の全事例での精度で検討する。機械学習
法としてはサポートベクトルマシン法が一般的に最も良
い。したがって、以降の検討ではサポートベクトルマシ
ン法の結果のみを使うこととした。
であった。主な格の出現がガ格、ヲ格、ニ格、デ格の4
つであったので、ランダムな選択の場合の処理精度は2
5%であるから、これよりはよい結果となっている。借
用した教師信号を用いた場合の精度としてはよいものと
思われる。
型機械学習法が最もよかった。借用型教師信号としたデ
ータは、実際の問題とは異なる性質を持っている可能性
がある。したがって、このようなデータを借用すること
により、処理精度が低下する可能性は十分ありうる。図
9に示す処理結果は、このような状況を反映したものと
考えられる。
8事例であり、そのうちガ格は1,025事例であり、
ガ格の出現確率は86.28%である。したがって、何
も考えずに、すべてガ格であると判定したと場合でも、
86.28%の精度を得る。しかし、このような判定で
は、他の格の解析精度は0%であり、この処理結果は利
用先によっては何も役に立たない可能性がある。そこ
で、図10に示す処理の結果に示したガ格、ヲ格、ニ
格、デ格の4つの格のそれぞれでの精度の平均での評価
も行なった。この評価によれば、最も頻度の高い分類に
決め打ちにする手法だと精度は25%となる。併用型、
借用型、非借用型ともに、この25%の精度よりは高い
ことがわかる。
用型、非借用型となっている。非借用型機械学習法は、
問題に密接な教師信号を用いるために高い精度を得やす
いとはいえ、本例のように事例数が少ない場合には他の
機械学習法よりも精度が低くなる場合があることがわか
る。
いても、借用型機械学習法に1%劣っているだけで、図
10に示す平均での評価では圧倒的によく、両方の評価
基準ともによい結果を得ている。
ダムな選択より有効であり、かつ分類先の平均を評価基
準とすると非借用型機械学習法より有効であることがわ
かる。また、併用型機械学習法が複数の評価基準で安定
してよい結果を示したことがわかる。よって、借用型機
械学習法と併用型機械学習法の有効性が示された。
含めた格解析全般の処理を行なった。この処理では、評
価用のデータ(1,530事例) をすべて用いた。この
処理では併用型および非借用型の2つの機械学習法で行
った。借用教師信号だけでは「その他」の分類を特定で
きないため、借用型機械学習法は用いなかった。図11
に、この処理の結果を示す。
デ格、”その他”の5つの分類先のそれぞれでの精度の
平均でも評価した。図12に、この処理の結果を示す。
処理結果から、サポートベクトルマシン法による処理の
精度が最も良く、また、併用型機械学習法は全事例での
処理の精度で1%ほど非借用より低いだけであって、平
均精度では併用型機械学習法の方が圧倒的に高かった。
型機械学習法がランダムな解析よりも精度が高くまた分
類先ごとの精度を平均した精度では非借用型機械学習法
よりも精度が高いことがわかった。また、併用型機械学
習法が全事例での精度だけでなく、分類先ごとの精度を
平均した精度でも高く複数の評価基準において安定して
高い精度を得ることを確認した。これらのことから、本
発明の解析処理における有効性が確認された。
したが、本発明はその主旨の範囲において種々の変形が
可能である。
従来の教師信号以外に大量の教師信号を借用することが
できるため、使用する教師信号が増加し、よって学習の
精度向上が期待できる。
は、省略補完処理、文生成処理、機械翻訳処理、文字認
識処理、音声認識処理など、語句を生成する処理を含む
ような極めて広範囲の問題に適用することができ、実用
性の高い言語処理システムを実現することができる。
提案されている。本発明では、格解析などの言語処理を
機械学習法の問題として扱うことができるように変換す
る。これにより、その時に応じた最もよい機械学習法を
選択して言語処理の問題を解くことができる。
て、より良い、かつ、より多くのデータ、素性を用いる
ことは、処理精度の向上に必要である。本発明では、教
師信号借用型機械学習法や併用型機械学習法を用いるこ
とにより、広範な情報を利用して解析に関係する広範な
問題を取り扱うことができ、特に、教師信号借用型機械
学習法により、人手で解析情報を付与していない用例を
使用することができる。これにより、労力の負担を伴わ
ずにより多くの情報を利用できることによる処理精度の
向上を図ることができるという効果を奏する。
り、多くの情報を用いることに加えて、従来の教師信号
を用いたより良い情報をも用いて言語処理を行う。これ
により、いっそうの処理の精度の向上を図ることができ
るという効果を奏する。
る。
ある。
理フローチャートである。
用いる場合のシステム構成例を示す図である。
概念を示す図である。
用いた場合の解析処理の処理フローチャートである。
ある。
る。
の精度を示す図である。
理の精度の平均を示す図である。
ある。
Claims (9)
- 【請求項1】 機械学習法を用いて言語解析を行う言語
解析処理システムにおいて、 解析対象の情報が付加されていないデータから、予め設
定された問題表現の構造に合致する部分を抽出して問題
表現相当部とする問題表現抽出処理手段と、 前記問題表現相当部を、問題と解とを含む教師データに
変換する問題構造変換処理手段と、 前記教師データから素性と解との対を抽出し、抽出した
素性と解との対を教師信号として機械学習を行い、学習
結果を学習結果データベースに保存する機械学習処理手
段と、 入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備えることを特徴とする機械学習
法を用いた言語解析処理システム。 - 【請求項2】 請求項1に記載の機械学習法を用いた言
語解析処理システムにおいて、 前記機械学習処理手段は、多数の素性の重要度を各素性
同士の従属性を考慮して自動で求める枠組みを用いて処
理を行うことを特徴とする機械学習法を用いた言語解析
処理システム。 - 【請求項3】 請求項1に記載の機械学習法を用いた言
語解析処理システムにおいて、 前記機械学習処理手段は、前記教師データから素性と解
の対を抽出して借用型教師信号とし、予め備えられた解
析対象の情報が付加されたデータから素性と解との対を
抽出して非借用型教師信号とし、前記借用型教師信号お
よび前記非借用型教師信号を用いて機械学習を行うこと
を特徴とする機械学習法を用いた言語解析処理システ
ム。 - 【請求項4】 機械学習法を用いた言語解析処理で用い
る教師信号として借用する教師データを生成する教師デ
ータ生成処理方法において、 解析対象に関する情報が付加されていないデータから、
予め設定された問題表現の構造に合致する部分を抽出し
て問題表現相当部とし、前記問題表現相当部を、問題と
解とを含む教師データに変換する処理過程を備えること
を特徴とする教師データ生成処理方法。 - 【請求項5】 機械学習法を用いて言語解析を行う言語
解析処理方法において、 解析の問題と解とを含む教師データを記憶する教師デー
タ記憶手段を備え、 前記教師データから素性と解との対を抽出し、抽出した
素性と解との対を借用型教師信号として機械学習を行
い、学習結果を学習結果データベースに保存する機械学
習処理過程と、 入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された学習結果をもとに解を推定する解
推定処理過程とを備えることを特徴とする機械学習法を
用いた言語解析処理方法。 - 【請求項6】 請求項5に記載の機械学習法を用いた言
語解析処理方法において、 前記機械学習処理過程は、多数の素性の重要度を各素性
同士の従属性を考慮して自動で求める枠組みを用いて処
理を行うことを特徴とする機械学習法を用いた言語解析
処理方法。 - 【請求項7】 請求項5に記載の機械学習法を用いた言
語解析処理方法において、 解析対象に関する解情報が付加されたデータを記憶する
解データ記憶手段を備え、 前記機械学習処理過程は、前記教師データから素性と解
の対を抽出して借用型教師信号とし、前記解情報を付加
されたデータから素性と解との対を抽出して非借用型教
師信号とし、前記借用型教師信号および前記非借用型教
師信号を用いて機械学習を行うことを特徴とする機械学
習法を用いた言語解析処理方法。 - 【請求項8】 機械学習法を用いて言い換えによる変形
を含む省略解析を行う言語省略解析処理システムにおい
て、 解析対象の情報が付加されていないデータから、予め設
定された問題表現の構造に合致する部分を抽出して問題
表現相当部とする問題表現抽出処理手段と、 前記問題表現相当部を、問題と解とを含む教師データに
変換する問題構造変換処理手段と、 前記教師データから素性と解との対を抽出し、抽出した
素性と解との対を教師信号として機械学習を行い、学習
結果を学習結果データベースに保存する機械学習処理手
段と、 入力されたデータから素性を抽出し、前記学習結果デー
タベースに保存された前記学習結果をもとに解を推定す
る解推定処理手段とを備えることを特徴とする機械学習
法を用いた言語省略解析処理システム。 - 【請求項9】 請求項8に記載の機械学習法を用いた言
語省略解析処理システムにおいて、 前記機械学習処理手段は、多数の素性の重要度を各素性
同士の従属性を考慮して自動で求める枠組みを用いて処
理を行うことを特徴とする機械学習法を用いた言語省略
解析処理システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001311453A JP4065936B2 (ja) | 2001-10-09 | 2001-10-09 | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム |
US10/189,580 US7542894B2 (en) | 2001-10-09 | 2002-07-08 | System and method for analyzing language using supervised machine learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001311453A JP4065936B2 (ja) | 2001-10-09 | 2001-10-09 | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003122750A true JP2003122750A (ja) | 2003-04-25 |
JP4065936B2 JP4065936B2 (ja) | 2008-03-26 |
Family
ID=19130284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001311453A Expired - Lifetime JP4065936B2 (ja) | 2001-10-09 | 2001-10-09 | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7542894B2 (ja) |
JP (1) | JP4065936B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005316953A (ja) * | 2004-03-01 | 2005-11-10 | Microsoft Corp | データの意図を判定し、その意図に基づいてデータに応答するシステムおよび方法 |
JP2006315813A (ja) * | 2005-05-13 | 2006-11-24 | Murata Mach Ltd | 移動体の診断システム |
JP2006344102A (ja) * | 2005-06-10 | 2006-12-21 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2007199902A (ja) * | 2006-01-25 | 2007-08-09 | National Institute Of Information & Communication Technology | 情報抽出・表示装置、情報抽出・表示方法および情報抽出・表示プログラム |
JP2009176169A (ja) * | 2008-01-25 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
JP2009176168A (ja) * | 2008-01-25 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体 |
JP2010102521A (ja) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
US7873508B2 (en) | 2005-05-25 | 2011-01-18 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for supporting communication through translation between languages |
JP2012048439A (ja) * | 2010-08-26 | 2012-03-08 | Kddi Corp | 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法 |
JP2012173808A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム |
US9141601B2 (en) | 2011-01-18 | 2015-09-22 | Kabushiki Kaisha Toshiba | Learning device, determination device, learning method, determination method, and computer program product |
JP2015176355A (ja) * | 2014-03-14 | 2015-10-05 | 日本電信電話株式会社 | モデル学習装置、方法及びプログラム |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3682529B2 (ja) * | 2002-01-31 | 2005-08-10 | 独立行政法人情報通信研究機構 | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US20050033568A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for extracting synonymous gene and protein terms from biological literature |
US8600963B2 (en) * | 2003-08-14 | 2013-12-03 | Google Inc. | System and method for presenting multiple sets of search results for a single query |
US8010357B2 (en) * | 2004-03-02 | 2011-08-30 | At&T Intellectual Property Ii, L.P. | Combining active and semi-supervised learning for spoken language understanding |
US20050261889A1 (en) * | 2004-05-20 | 2005-11-24 | Fujitsu Limited | Method and apparatus for extracting information, and computer product |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
JP3986531B2 (ja) * | 2005-09-21 | 2007-10-03 | 沖電気工業株式会社 | 形態素解析装置及び形態素解析プログラム |
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
KR100750886B1 (ko) * | 2005-12-09 | 2007-08-22 | 한국전자통신연구원 | 학습 데이터 구축 장치 및 방법 |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8374844B2 (en) * | 2007-06-22 | 2013-02-12 | Xerox Corporation | Hybrid system for named entity resolution |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US20110093263A1 (en) * | 2009-10-20 | 2011-04-21 | Mowzoon Shahin M | Automated Video Captioning |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
JP5640773B2 (ja) * | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
JP5640774B2 (ja) * | 2011-01-28 | 2014-12-17 | 富士通株式会社 | 情報照合装置、情報照合方法および情報照合プログラム |
US10372815B2 (en) | 2013-07-12 | 2019-08-06 | Microsoft Technology Licensing, Llc | Interactive concept editing in computer-human interactive learning |
EP3195145A4 (en) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Voice commerce |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
US9720963B2 (en) | 2014-11-05 | 2017-08-01 | International Business Machines Corporation | Answer category data classifying using dynamic thresholds |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US11140115B1 (en) * | 2014-12-09 | 2021-10-05 | Google Llc | Systems and methods of applying semantic features for machine learning of message categories |
US10061842B2 (en) | 2014-12-09 | 2018-08-28 | International Business Machines Corporation | Displaying answers in accordance with answer classifications |
CN105988990B (zh) * | 2015-02-26 | 2021-06-01 | 索尼公司 | 汉语零指代消解装置和方法、模型训练方法和存储介质 |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US9953027B2 (en) | 2016-09-15 | 2018-04-24 | International Business Machines Corporation | System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning |
US9984063B2 (en) | 2016-09-15 | 2018-05-29 | International Business Machines Corporation | System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning |
WO2018081970A1 (en) * | 2016-11-03 | 2018-05-11 | Bayerische Motoren Werke Aktiengesellschaft | System and method for text-to-speech performance evaluation |
US11237713B2 (en) * | 2019-01-21 | 2022-02-01 | International Business Machines Corporation | Graphical user interface based feature extraction application for machine learning and cognitive models |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675710A (en) * | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
US5956739A (en) * | 1996-06-25 | 1999-09-21 | Mitsubishi Electric Information Technology Center America, Inc. | System for text correction adaptive to the text being corrected |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US5892919A (en) * | 1997-06-23 | 1999-04-06 | Sun Microsystems, Inc. | Spell checking universal resource locator (URL) by comparing the URL against a cache containing entries relating incorrect URLs submitted by users to corresponding correct URLs |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
JP3135235B2 (ja) * | 1999-02-26 | 2001-02-13 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 照応解析装置 |
US6618697B1 (en) * | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6766287B1 (en) * | 1999-12-15 | 2004-07-20 | Xerox Corporation | System for genre-specific summarization of documents |
US6684201B1 (en) * | 2000-03-31 | 2004-01-27 | Microsoft Corporation | Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites |
US7047493B1 (en) * | 2000-03-31 | 2006-05-16 | Brill Eric D | Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction |
NZ503882A (en) * | 2000-04-10 | 2002-11-26 | Univ Otago | Artificial intelligence system comprising a neural network with an adaptive component arranged to aggregate rule nodes |
US6618715B1 (en) * | 2000-06-08 | 2003-09-09 | International Business Machines Corporation | Categorization based text processing |
US6519580B1 (en) * | 2000-06-08 | 2003-02-11 | International Business Machines Corporation | Decision-tree-based symbolic rule induction system for text categorization |
US6839665B1 (en) * | 2000-06-27 | 2005-01-04 | Text Analysis International, Inc. | Automated generation of text analysis systems |
US7308400B2 (en) * | 2000-12-14 | 2007-12-11 | International Business Machines Corporation | Adaptation of statistical parsers based on mathematical transform |
US6917926B2 (en) * | 2001-06-15 | 2005-07-12 | Medical Scientists, Inc. | Machine learning method |
-
2001
- 2001-10-09 JP JP2001311453A patent/JP4065936B2/ja not_active Expired - Lifetime
-
2002
- 2002-07-08 US US10/189,580 patent/US7542894B2/en not_active Expired - Fee Related
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005316953A (ja) * | 2004-03-01 | 2005-11-10 | Microsoft Corp | データの意図を判定し、その意図に基づいてデータに応答するシステムおよび方法 |
JP2006315813A (ja) * | 2005-05-13 | 2006-11-24 | Murata Mach Ltd | 移動体の診断システム |
US7873508B2 (en) | 2005-05-25 | 2011-01-18 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for supporting communication through translation between languages |
JP4654780B2 (ja) * | 2005-06-10 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2006344102A (ja) * | 2005-06-10 | 2006-12-21 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2007199902A (ja) * | 2006-01-25 | 2007-08-09 | National Institute Of Information & Communication Technology | 情報抽出・表示装置、情報抽出・表示方法および情報抽出・表示プログラム |
JP2009176169A (ja) * | 2008-01-25 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
JP2009176168A (ja) * | 2008-01-25 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 言語処理装置、言語処理方法および言語処理プログラム並びに言語処理プログラムを記録した記録媒体 |
JP2010102521A (ja) * | 2008-10-24 | 2010-05-06 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体 |
JP2012048439A (ja) * | 2010-08-26 | 2012-03-08 | Kddi Corp | 対象文章に対する助詞落ち補完プログラム、装置、サーバ及び方法 |
US9141601B2 (en) | 2011-01-18 | 2015-09-22 | Kabushiki Kaisha Toshiba | Learning device, determination device, learning method, determination method, and computer program product |
JP2012173808A (ja) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 具体主題分類モデル学習装置、方法、プログラム、具体主題抽出装置、方法、及びプログラム |
JP2015176355A (ja) * | 2014-03-14 | 2015-10-05 | 日本電信電話株式会社 | モデル学習装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20030083859A1 (en) | 2003-05-01 |
US7542894B2 (en) | 2009-06-02 |
JP4065936B2 (ja) | 2008-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4065936B2 (ja) | 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム | |
Vougiouklis et al. | Neural wikipedian: Generating textual summaries from knowledge base triples | |
Cimiano et al. | Learning taxonomic relations from heterogeneous sources of evidence | |
Xia et al. | Ensemble of feature sets and classification algorithms for sentiment classification | |
Kastrati et al. | Performance analysis of machine learning classifiers on improved concept vector space models | |
Puri et al. | An efficient Hindi text classification model using SVM | |
Madsen et al. | Pruning the vocabulary for better context recognition | |
Curiel et al. | An online multi-source summarization algorithm for text readability in topic-based search | |
Kaestner | Support vector machines and kernel functions for text processing | |
JP2005208782A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Shynkarenko et al. | Natural Language Texts Authorship Establishing Based on the Sentences Structure | |
Park et al. | Co-trained support vector machines for large scale unstructured document classification using unlabeled data and syntactic information | |
Kocmi et al. | SubGram: extending skip-gram word representation with substrings | |
Yahi et al. | Morphosyntactic preprocessing impact on document embedding: An empirical study on semantic similarity | |
Hahn et al. | An integrated, dual learner for grammars and ontologies | |
Pan et al. | An automatic identification of function words in TDIL tagged Bengali corpus | |
Zhang et al. | Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments | |
Šajgalík et al. | Exploring multidimensional continuous feature space to extract relevant words | |
Bagui et al. | Analysis of political sentiment from Twitter data | |
JP3780341B2 (ja) | 言語解析処理システムおよび文変換処理システム | |
Karuppaiah et al. | Word sense disambiguation in Tamil using Indo-WordNet and cross-language semantic similarity | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
Li et al. | Representation learning of multiword expressions with compositionality constraint | |
Cardellino et al. | Exploring the impact of word embeddings for disjoint semisupervised Spanish verb sense disambiguation | |
Kikuchi et al. | Unified likelihood ratio estimation for high-to zero-frequency N-grams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040202 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050510 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050620 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050826 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |