[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5356197B2 - 単語意味関係抽出装置 - Google Patents

単語意味関係抽出装置 Download PDF

Info

Publication number
JP5356197B2
JP5356197B2 JP2009273560A JP2009273560A JP5356197B2 JP 5356197 B2 JP5356197 B2 JP 5356197B2 JP 2009273560 A JP2009273560 A JP 2009273560A JP 2009273560 A JP2009273560 A JP 2009273560A JP 5356197 B2 JP5356197 B2 JP 5356197B2
Authority
JP
Japan
Prior art keywords
word
words
similarity
dictionary
extraction device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009273560A
Other languages
English (en)
Other versions
JP2011118526A (ja
Inventor
康嗣 森本
真 岩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009273560A priority Critical patent/JP5356197B2/ja
Publication of JP2011118526A publication Critical patent/JP2011118526A/ja
Application granted granted Critical
Publication of JP5356197B2 publication Critical patent/JP5356197B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト中から、単語間の意味的な関係を抽出する技術に関し、特に同義語、上位・下位語、兄弟語、対訳語などの単語意味関係を抽出する技術に関する。
パソコン及びインターネットの普及によって、ユーザがアクセス可能な電子化文書の量が増大している。このような大規模な文書情報の中から、所望の文書を効率的に発見するための技術の一つに文書検索技術がある。文書検索技術によれば、入力されたキーワードを含む文書を発見することで、ユーザが所望の文書を効率的に入手することができる。しかしながら、単純な文字列の検索だけでは不十分な場合も多い。未解決の問題の一つに同義語の問題がある。すなわち、同じ意味を表現する複数の単語が存在するために、同じ意味を表す文書が単純な文字列検索では発見できず、検索漏れが発生する場合がある。このような同義語の問題に対処するために、同義語辞書を検索システムに持たせることが従来から行われている。
同義語辞書の人手作成には大きなコストが必要であるため、同義語辞書をテキストデータから自動で作成することが従来から試みられている。同義語辞書を作成するための方法の一つとして、単語の出現文脈、すなわち着目している単語の近傍に現れる単語や文字列に着目する方法がある。非特許文献1に、出現文脈に基づく文脈ベース同義語抽出技術が開示されている。また、同義語の中で特に表記揺れを扱うための方法がある。非特許文献2に、発音に関する規則に基づいて、カタカナ表記の表記揺れを検出する表記ベース同義語抽出技術が開示されている。また、近年のWeb及びWeb文書のサーチエンジンの普及にともなって、サーチエンジンを利用した単語意味関係抽出技術が提案されている。サーチエンジンを利用するアプローチでは、事前に単語の出現文脈を計算することができない。そのため、検索式においてクエリをアンドで投入することで共起頻度を取得し、共起頻度に基づく統計量によって同義語を抽出する方式が提案されている。非特許文献3に、サーチエンジンに基づく共起ベース同義語抽出技術が開示されている。また、「AやBなどのC」のような同義語、あるいは上位・下位語であることを明示的に示す同義語パターンを用いる同義語抽出技術も存在する。非特許文献4には、単語のパターンを用いることによるパターンベース同義語抽出技術が開示されている。また、単語間の意味関係の一つとして対訳関係がある。対訳関係は、同義語関係を多言語に拡張したものとみなすことができる。非特許文献5に、対訳関係を自動的に抽出する技術が開示されている。本技術は、文脈ベース同義語抽出技術を多言語に拡張したものである。
以上の同義語抽出技術は、教師なし学習、すなわち人手によって付与された正解を用いないタイプの学習技術によっている。教師なし学習では正解を作成する必要がないため、人手のコストが低いことが利点である。しかしながら、以下のような課題が存在する。
現在では人手で作成された大規模な辞書が広く利用可能となっている。既存の同義語辞書、シソーラス辞書、対訳辞書は、高いコストを掛けて整備してきた価値のある資源であり、可能な限り有効に活用する必要がある。教師なし学習による単語意味関係抽出技術では、このような人手作成辞書の存在を想定しておらず、また人手作成辞書が存在してもこれを利用して精度を向上することができない。
以上のような課題を解決する方法として、教師あり学習による同義語抽出方法が非特許文献6に開示されている。非特許文献6では、人手によって作成された同義語辞書を正解として、教師あり学習によって同義語抽出を行う。具体的には、後述する単語の文脈に基づいて単語の意味を表現し、正解である同義語辞書を用いることによって学習を行い、同義語を抽出する。
相澤:「大規模テキストコーパスを用いた語の類似度計算に関する考察」情報処理学会論文誌,vol. 49-3, pp. 1426-1436 (2008). 久保田他:カタカナ表記の統一方式 予備分類とグラフ比較によるカタカナ表記のゆらぎ検出法,情報処理学会自然言語処理研究会報告,NL97-16,pp.111-117,1993. P. Turney. 2001. Mining the web for synonyms: PMI-IR versus LSA on TOEFL. ECML 2001, 491-502. M. Hearst. Automatic acquisition of hyponyms from large text corpora. In Proceedings of the 14th International Conference on Computational Linguistics (COLING-92), pp. 539-545, 1992. Hiroyuki Kaji and Toshiko Aizono, "Extracting word correspondences from bilingual corpora based on word co-occurrence information," Proceedings of the 16th International Conference on Computational Linguistics, pp.23-28, 1996. Masato Hagiwara: A Supervised Learning Approach to Automatic Synonym Identification based on Distributional Features, Proc. of ACL 2008 Student Research Workshop, pp. 1-6, 2008.
本発明の目的は、従来技術より高精度な単語意味関係抽出技術を実現することである。教師あり学習のアプローチでは、上記の課題が解決されている一方で、教師あり学習独自の課題が存在する。最大の課題は、教師なし学習の先行研究において蓄積されている知見が活用されていない点である。例えば、非特許文献6では、単語ペアと共起する任意の単語全てを素性として用いており、文脈の分布全体に関する類似度そのものを教師データから学習しようとしている。しかしながら、文脈の分布の類似度に関しては、非特許文献1に開示されているような様々な提案・改良が行われている。このような知見を取り込みつつ、教師あり学習を適用することが必要である。
また、非特許文献6では、構文解析結果を利用した文脈ベース類似度に基づく同義語抽出技術が開示されているが、教師なし学習による同義語抽出技術で数多く検討されてきた、様々なアプローチについては検討がなされていない。教師なし学習における過去のアプローチは、それぞれ長所・短所を備えている。例えば、非特許文献3に開示されている表記ベース方式は、カタカナの異表記語のような特定の種類の同義語しか抽出できない。非特許文献4に開示されているパターン方式は、任意のタイプの同義語を比較的高精度に抽出可能であるが、カバレジが低く、必要な同義語を全て抽出することが難しい。文脈ベース類似度は、抽出できる同義語のタイプに関してはオールマイティであり、広い範囲の同義語をカバーすることができるが、表記ベース、パターンベース方式に比べると適合率は低い。これらの方式を統合することが、精度向上には不可欠である。
本発明は、以上の課題を解決するためになされたものであり、既存の同義語辞書、シソーラス辞書を活用すると同時に、複数のアプローチを統合し、かつ適切な閾値を設定可能である単語意味関係抽出方式を提供することを目的とする。
本発明の単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段と、を備える。
単語意味関係の一例は、単語の組の2つの単語が同義語か否かの関係であり、このとき既知の辞書としては、見出し語とその同義語とを格納した同義語辞書を用いる。
単語意味関係の他の例は、単語の組の2つの単語が同義語であるか、上位・下位関係にあるか、兄弟語関係にあるか、あるいはそのいずれでもないかであり、このとき既知の辞書には、見出し語とその同義語、上位・下位語、あるいは兄弟語を格納したシソーラス辞書を用いる。
単語意味関係の別の例は、単語の組の2つの単語の対訳関係であり、このときには既知の辞書として、見出し語とその訳語とを格納した対訳辞書を用いる。
本発明の単語意味関係抽出装置は、プロセッサ、メモリ及びインタフェースを備える計算機システムによって実現可能である。
素性ベクトルの要素となる単語の組の類似度は、種々の方法で求めることができる。一例としては、テキストから単語(処理対象単語)とその文脈となる単語(文脈単語)の組を抽出し、抽出した結果を集約して得られる文脈行列を用いて文脈ベース類似度を計算する方法である。他の例は、テキスト中の任意の単語の組の文字の重複度合いに基づいて文字重複度を計算し、それを基に単語の組の類似度を計算する方法である。あるいは、テキスト中の任意の単語の組の文字の類似度合いに基づいて単語の組の類似度を計算してもよい。更に別の例は、テキスト中の任意の単語の組について、同時に出現した頻度を示す共起頻度を抽出し、抽出した結果に基づいて共起類似度を計算する方法である。
本発明の代表的な形態によれば、人手作成による同義語辞書・シソーラス辞書・対訳辞書などの付加的な情報源を教師データとして用いると同時に、複数アプローチによって得られる異なるタイプの類似度を統合することにより、従来と比較して高精度な単語意味関係抽出を行うことが可能となる。
本発明による計算機システムの構成例を示すブロック図である。 単語意味関係抽出プログラム、辞書、各種テーブルやファイルの間の関係を示した図である。 本発明の計算機システムにおける処理の流れを示したシーケンス図である。 類似度行列の説明図である。 単語意味関係抽出処理のフローチャートである。 同義語辞書の説明図である。 シソーラス辞書の説明図である。 同義語識別の概念的な説明図である。 ユーザに提示される画面の説明図である。 文脈行列の説明図である。 文脈行列の説明図である。 文脈抽出処理のフローチャートである。 形態素解析結果の説明図である。 文脈パターンの説明図である。 文字重複度計算処理のフローチャートである。 文字類似度計算処理のフローチャートである。 文字類似度テーブルの説明図である。 共起頻度テーブルの説明図である。 単語頻度テーブルの説明図である。 共起類似度テーブルの説明図である。 本発明の単語意味関係抽出装置の効果を示す実験結果の説明図である。 類似度行列の説明図である。 ユーザに提示される画面の説明図である。 対訳辞書の説明図である。 類似度行列の説明図である。 文脈行列の説明図である。 文脈行列の説明図である。
以下、図面を参照して本発明の実施の形態を説明する。
[第1の実施の形態]
第1の実施の形態として、単語意味関係として同義語関係にある単語ペアを抽出するための同義語抽出装置について説明する。図1は、本発明を実現する計算機システムの構成例を示すブロック図である。図1に示した計算機システムは、本発明の第1の実施の形態に用いられると共に、本発明の第2及び第3の実施の形態にも共通して用いられる。なお、実施の形態によっては使用されない機能も含んでいる。
単語意味関係抽出装置100は、CPU101、主メモリ102、入出力装置103及びディスク装置110を備える。CPU101は、主メモリ102に記憶されるプログラムを実行することによって各種処理を行う。具体的には、CPU101は、ディスク装置110に記憶されるプログラムを、主メモリ102上に呼び出して実行する。主メモリ102は、CPU101によって実行されるプログラム及びCPU101によって必要とされる情報等を記憶する。入出力装置103には、ユーザから情報が入力される。また、入出力装置103は、CPU101の指示に応じて、情報を出力する。例えば、入出力装置103は、キーボード、マウス及びディスプレイのうち少なくとも一つを含む。
ディスク装置110は、各種情報を記憶する。具体的には、ディスク装置110は、OS111、単語意味関係抽出プログラム112、テキスト113、人手作成辞書114、類似度行列115、文脈行列116、品詞パターン117、共起類似度テーブル118、識別モデル119、文字類似度テーブル120を記憶する。
OS111は、単語意味関係抽出装置100の処理の全体を制御する。人手作成辞書114は、人手によって作成された各種辞書であり、同義語辞書1141、シソーラス辞書1142、対訳辞書1143を含む。同義語辞書114は、人手によって作成された同義語が格納された辞書である。シソーラス辞書115は、人手によって作成された同義語及び上位・下位語が格納された辞書である。
単語意味関係抽出プログラム112は、テキスト113及び同義語辞書1141あるいはシソーラス辞書1142から単語意味関係を抽出するプログラムであり、素性ベクトル抽出サブプログラム1121、正解ラベル設定サブプログラム1122、識別モデル学習サブプログラム1123、識別モデル適用サブプログラム1124からなる。
テキスト113は、単語意味関係抽出プログラム112への入力となるテキストであり、特別な形式である必要はない。HTML文書、XML文書等のタグを含む文書の場合は、タグを除去する前処理を施すことが望ましいが、タグが含まれた状態でも処理は可能である。
類似度行列115は、テキスト及び同義語辞書から抽出された単語ペアに関する素性ベクトル、同義語かどうかを示すラベル等を格納した行列である。文脈行列116は、文脈ベース類似度を計算するために必要な単語の文脈情報を格納した行列である。品詞パターン117は、文脈ベース類似度を計算するために必要な単語の文脈情報をテキストから抽出するために用いられるデータである。共起類似度テーブル118は、単語の共起に基づいて計算された共起ベース類似度を格納したテーブルである。識別モデル119は、類似度行列から学習された、単語ペアが同義語であるかどうかを識別するためのモデルである。文字類似度テーブル120は、意味が類似した文字間の関係を格納するテーブルである。
図2Aは、図1に示した単語意味関係抽出プログラム、辞書、各種テーブルやファイルの間の関係を示した図である。素性ベクトル抽出サブプログラム1121は、テキスト113を読み込んでテキスト中の全ての単語を抽出し、任意の単語の組に対して各種の類似度を計算し、類似度行列115として出力する。その際に必要な情報である文脈行列116、共起類似度テーブル118等の情報を事前に作成しておく。なお、第1の実施の形態では、テキストは同一の言語の文書、例えば日本語の文書からなることを想定している。ただし、一部に英語の文書が含まれていたとしても、無駄な処理が発生する以外の問題はない。品詞パターン117は、文脈行列116の作成に用いられる。正解ラベル設定サブプログラム1122は、同義語辞書1141やシソーラス辞書1142、対訳辞書1143を正解データとして読み込み、類似度行列115中の各単語ペアに正解、すなわち同義語であるかどうかを示すラベルを設定する。識別モデル学習サブプログラム1123は、類似度行列115を読み込み、単語ペアが同義語かどうかを識別するための識別モデル119を学習する。識別モデル適用サブプログラム1124は、識別モデル119を読み込み、類似度行列115中の単語ペアに対し、同義語かどうかの判定結果を付与する。
図2Bは、本発明の計算機システムにおける処理の流れを示したシーケンス図である。まずOSがディスク装置から主メモリにロードされ、ユーザの入力等を待つ状態になる。ユーザによる単語意味関係抽出プログラムの実行の指示によって処理が開始される。まず、素性ベクトル抽出サブプログラムが主メモリにロードされ、素性ベクトル抽出サブプログラムは、テキストを読み込んでテキスト中の全ての単語を抽出し、品詞パターンを用いて、文脈行列作成を作成する。次に、形態素解析結果から得られる単語と人手作成辞書によって文字類似度テーブルを作成する。次に、形態素解析結果から共起類似度テーブルを作成する。そして、各種類似度からなる類似度行列を作成する。なお、第1の実施例では、テキストは同一の言語の文書、例えば日本語の文書からなることを想定している。ただし、一部に英語の文書が含まれていたとしても、無駄な処理が発生する以外の問題はない。
正解ラベル設定サブプログラムは、人手作成辞書を正解データとして読み込み、類似度行列中の各単語ペアに正解、すなわち同義語であるかどうかを示すラベルを設定する。識別モデル学習サブプログラムは、類似度行列を読み込み、単語ペアかどうかを識別するための識別モデルを学習する。識別モデル適用サブプログラムは、識別モデルを読み込み、類似度行列中の単語ペアに対し、同義語かどうかの判定結果を付与する。
以下では、図3に示す類似度行列の例を用いて本発明の基本的な考え方を説明する。
テキストデータ中に含まれる、任意の単語のペアを考える。例えば、単語のペアを<計算機,コンピュータ>とする。このとき、単語ペアが同義語であるかどうかを判定するための様々な尺度を想定することができる。
例えば、非特許文献1に開示されているような、単語の出現文脈間の類似度(以下、文脈ベース類似度と呼ぶ)を用いる方法がある。また、非特許文献2に開示されているような、重複する文字数に着目するなど表記に基づいた類似度(以下、表記ベース類似度と呼ぶ)が考えられる。さらに、非特許文献3に開示されているような、単語ペアが共起する頻度に基づく類似度(以下、共起ベース類似度と呼ぶ)用いることも可能である。さらに、各手法において、様々なバリエーションが存在する。例えば、文脈ベース類似度において、単語の出現文脈をどのように定義するか、あるいは距離の計算方法をどのように定義するかによってバリエーションが存在する。また、共起ベース類似度においても、共起頻度から計算される類似度として、相互情報量、Dice係数などの異なる統計量を用いることが可能である。本発明では、このような様々な類似度を、単語ペアの素性であると考え、単語ペアを素性毎の値からなる素性ベクトルで表現する。図3の例では、例えば、<コンピュータ,コンピューター>という単語ペアは、素性1の次元の値が0.3、素性2の次元の値が0.2、素性Nの次元の値が0.8であるベクトルで表現されている。
さらに、この単語ペアが同義語であるかどうかを、同義語辞書やシソーラス辞書等の人手作成辞書を用いて判断し、ラベル付けを行う。すなわち、<計算機、コンピュータ>が同義語辞書に含まれていれば、<計算機、コンピュータ>は正解であるというラベルを付与する。正解を表す行、すなわち単語ペアを正例と呼ぶ。図3の例では、<計算機、コンピュータ>、<コンピュータ,コンピューター>が同義語であるため、ラベルとして正解を表す「1」が付与されている。もし、単語ペアが同義語辞書に含まれていない場合には、不正解であるというラベルを付与する。不正解を表す行を負例と呼ぶ。図3の例では、<プログラム、コンピュータ>が同義語でないため、ラベルとして不正解を表す「−1」が付与されている。このように、単語ペアを素性の値のベクトルで表現し、さらに正解データを付与することにより、サポートベクターマシンのような教師あり学習による分類器を適用することが可能となる。以上が本発明の基本的な考え方である。
ここで、ラベルを付与する際に、単語ペアが人手作成辞書に含まれていない場合には、注意が必要である。人手による辞書は完全ではないため、同義語辞書に含まれていない場合でも、同義語である場合が存在する。この問題への対応方法については後述する。
図4は、本発明の第1の実施の形態の同義語抽出装置によって実行される単語意味関係抽出処理のフローチャートである。
ステップ11において、全ての単語ペアの処理を終了したかどうか判定する。終了していたら、ステップ17に進む。処理していない単語ペアが存在すれば、ステップ12に進む。ステップ12では、全ての種類の素性について処理を終了したかどうかを判定する。終了していたらステップ16に進む。処理していない素性が存在すれば、ステップ13に進む。
ステップ13では、i番目の単語ペアを取得する。単語ペアの取得は、例えば、テキストを形態素解析して全単語リストを予め作成しておき、その中から任意の2個の単語の組み合わせを取得すれば良い。ステップ14では、取得したi番目の単語ペアについて、j番目の素性の計算を行う。ステップ14の処理の詳細は後述する。次に、ステップ15に進み、素性の計算結果を類似度行列に格納する。類似度行列の例は、図3で説明した通りである。
ステップ16では、類似度行列にラベルを設定する。ラベルは同義語辞書、あるいはシソーラス辞書を参照することによって設定する。第1の実施の形態では、同一言語の文書を想定しているため、通常では対訳辞書を用いないが、技術文書の場合には、日本語文書の中に英単語が含まれる場合も存在する。このような場合に対応するため、対訳辞書を使用しても良い。
同義語辞書の例を図5に、シソーラス辞書の例を図6に示す。同義語辞書は、同義語である単語ペアに対し、一方を見出し語欄、他方を同義語欄に格納したデータである。辞書引きの都合上、冗長にデータを保持しているものとする。すなわち、<コンピュータ、コンピューター>という同義ペアに対し、「コンピュータ」を見出し語とした行と「コンピューター」を見出し語とした行の両方を保持しているものとする。これにより、見出し語欄のみを確認することで全ての同義語ペアを取得することができる。
シソーラス辞書は、同義語である単語ペア、及び上位・下位語関係にある単語ペアに対し、一方を見出し語欄、他方を関連語欄に格納し、タイプ欄に見出し語に対する関連語のタイプを格納したデータである。例えば、図6の例の場合、<コンピュータ、機器>のような上位・下位語関係にある単語ペアに対し、「コンピュータ」が見出し、「機器」が関連語であり、「機器」が「コンピュータ」の「上位語」(より抽象的な語)であることが格納されている。シソーラス辞書についても辞書引きの都合上、冗長にデータを保持しているものとする。すなわち、<コンピューター、機器>という単語ペアに対し、「コンピューター」を見出し語とした行と、「機器」を見出し語とした行の両方を保持しているものとする。ここで、特に単語ペアが上位・下位語関係にある場合には、順序を逆にしたペアのタイプは同様に逆になることに注意が必要である。例えば、「コンピュータ」は「機器」の下位語となる。
類似度行列へのラベルの設定において、単語ペアが同義語辞書のある行と一致している、すなわち同義語である場合には、正解のラベルとして「1」を付与する。それ以外の場合は、以下のように処理する。単語ペアが同義語ではない、すなわち同義語辞書中でこの単語ペアを含む行はないが、単語それぞれは同義語辞書の別の行に含まれている場合には、不正解のラベルとして「−1」を付与する。単語の組の少なくとも一方の単語が同義語辞書に含まれていない場合には、不明のラベルとして「0」を付与する。
図3の例の場合、<コンピュータ,コンピューター>及び<計算機,コンピュータ>は同義語であることから、ラベルとして「1」が付与される。また、<プログラム,コンピュータ>は同義語ではない、すなわち「プログラム」と「コンピュータ」それぞれは、同義語辞書中に含まれるが、両方を含む行が存在しないという想定のもと、ラベルとして「−1」が付与される。また、<計算機,仮想化技術>については、「仮想化技術」が同義語辞書に含まれなかったという想定のもと、ラベルとして「0」が付与される。シソーラス辞書を参照する場合には、タイプ欄を参照し、タイプが同義語である行のみを対象に同様の処理を行う。
図4に戻り、ステップ17では識別モデルを学習する。類似度行列中から、ラベルが「正解」あるいは「不正解」である行のみを対象に、2値の識別モデルを学習する。識別モデルとしては、任意のモデルを使用することができるが、例えば、C.J.C.Burges, “A Tutorial on Support Vector Machines for Pattern Recognition” Data Mining and Knowledge Discovery, vol.2, pp.121-168 (1998).に開示されているサポートベクターマシンを用いることができる。
図7に、同義語識別の概念図を示す。各単語ペアの素性ベクトルは、素性1〜Nで表現されるN次元空間上のある点に相当し、図7では黒塗りの四角で表現されている。このとき、同義語である単語ペアが配置されている領域と同義語ではない単語ペアが配置されている領域の境界を発見することが識別モデルの学習である。未知の点、すなわち同義語であるかどうかが不明である単語ペアが与えられたとき、いずれの領域に所属するかによって同義語であるかどうかを判定することが識別モデルの適用である。サポートベクターマシンは、非線形の識別モデル、すなわち境界として、直線、平面、超平面(4次元以上の空間での平面)以外を使用できる点が特徴である。
ステップ18では、モデルに従って、類似度行列の値から単語意味関係抽出を行う。行列中の全ての単語ペアについて、素性ベクトルを学習済みの識別器に入力し、同義語であるかどうかを識別する。識別器の判定結果は、類似度行列の判定結果欄に格納する。これにより、ラベルが「不明」すなわち「0」であった単語ペアに対し、同義語であるかどうかの判定が行われる。また、人手による同義語辞書の誤りチェックに使用することもできる。既に「不明」以外のラベルが付与されている単語ペアに対し、ラベルと判定結果が異なるもののみを抽出し、人手によって確認することにより同義語辞書を効率的にチェックすることができる。
図8に、同義語辞書エディタの画面例を示す。ラベルが同義語であるが、判定結果は同義語ではない単語ペアが画面上部に表示されており、人手のチェック結果によってラベルが変更される。同様に、ラベルは同義語ではないが、判定結果では同義語である単語ペアが画面下部に表示されており、人手のチェック結果によってラベルが変更される。このようなエディタにより、同義語辞書のチェックを行うことができる。もちろん、同義語辞書中のデータは正解であることを前提に、「不明」の単語ペアのみを対象とすることもできる。
以下では、図4のステップ14の処理を詳細に説明する。ステップ14では、単語ペアを表現するための素性として、各種の類似度を計算する。以下、類似度のタイプ毎に説明を行う。
(1)文脈ベース類似度
以下では、文脈ベース類似度を計算する方法について説明する。ある単語の文脈とは、その単語がテキスト中に出現している箇所の「近傍」の単語、あるいは単語列等を示す。何をもって「近傍」と定義するかによって、様々な文脈が定義できる。以下では、文脈として、後続する動詞及び直前に出現する形容詞・形容動詞を出現文脈として用いる例を説明するが、これ以外の出現文脈を代替して使用する、あるいは追加・組み合わせて使用することも可能である。また、文脈同士の類似度計算式にも様々な方法が存在する。
文脈ベース類似度は、文脈行列に基づいて計算される。図9に文脈行列の一例を示す。文脈行列は、見出し欄と文脈情報欄からなり、見出し欄中の単語に対し、文脈単語列とその頻度の組の繰り返しからなる文脈情報が格納されている。図9の例は、着目した単語に後続する助詞+述語を文脈とした場合を示す。例えば、「コンピュータ」には、「が起動する」が15回、「を接続する」が4回出現していることを示している。このような文脈行列に対し、任意の2個の単語に相当する行の文脈情報を取得し、文脈単語列の頻度ベクトルに基づいて類似度を計算する。文脈ベース類似度としては、タームベクトルモデルによる文書検索に用いられている方法を用いることができ、例えば、北、津田、獅々掘「情報検索アルゴリズム」共立出版(2002年)に開示されている方法を用いることができる。本実施の形態では、一例として下式の類似度計算方法によって類似度sを計算する。
Figure 0005356197
また、式中のパラメータの説明は、文書検索に適用する場合の説明であり、同義語抽出の場合には、入力文書を同義語抽出の対象入力単語、ターゲット文書を同義語候補単語、入力文書中の単語を入力単語の文脈単語にそれぞれ読み替える。
どのような単語を文脈として抽出するかについては、様々なバリエーションが存在する。例えば、「コンピュータ」の文脈として、「高速なコンピュータ」のような表現から「高速な」を抽出することもできるし、「計算(する)」の文脈として、「平均値を計算(する)」のような表現から、「平均値を」を抽出することもできる。このような様々なバリエーションの文脈をまとめて扱っても良いし、各文脈をそれぞれ別素性として扱っても良い。本実施の形態では、2種類の異なるタイプの文脈を、別素性として扱う例について説明する。図9とは異なるタイプの文脈として、着目する単語の前に出現する形容詞、形容動詞を抽出した結果の例を図10に示す。
以下では、素性ベクトル抽出サブプログラム1121で実行される、文脈行列の作成方法について図11のフローチャートを用いて説明する。
まず、ステップ1401においてテキストを読み込み、形態素解析処理を行う。形態素解析結果の例を図12に示す。形態素解析結果は、テキストを単語に分割した結果に品詞が付与されたものである。形態素解析結果は、メモリ上に一時的に保持されることを想定しているが、一旦ファイルなどに格納しておいても良い。なお、文単位、あるいはパラグラフ、ファイルなどを単位として形態素解析を行いながら、ステップ1402以降の処理を行っても良い。
ステップ1402では、形態素解析結果中の全ての単語について処理を行ったかどうか判定する。全て処理済みであれば、全体の処理を終了する。未処理の単語があれば、ステップ1403に進む。判定は、全単語の中から1番目の単語、2番目の単語というように順次処理をしていけば良い。
ステップ1403では、i番目の単語に着目し、近傍の単語の品詞列を所定の品詞パターンと照合する。品詞パターンの例を図13に示す。パターン1は、注目している単語に対し、後続する動詞を文脈として抽出するためのパターンであり、名詞の後に助詞が続き、さらに動詞が続くという品詞の並びを抽出することを表している。パターン2は、注目している単語に対し、直前に出現する形容詞・形容動詞を文脈として抽出するためのパターンであり、形容詞あるいは形容動詞の後に名詞が続くという品詞の並びを抽出することを示している。図中、品詞の後の(T)は注目単語であることを示し、(C)は文脈単語(列)であることを示している。
パターンが形態素解析結果とマッチしたら、ステップ1404に進み、マッチング結果に基づいて、パターンの注目単語にマッチした形態素解析結果と文脈単語(列)とマッチした形態素解析結果を抽出し、文脈行列に格納する。文脈行列は、パターン毎に作成する。
図12の形態素解析結果に対しては、iが1の場合に、「コンピュータ」、「を」、「起動する」という単語列、iが6の場合に、「ウインドウ」、「が」、「現れる」という単語列がパターン1によって抽出される。また、「新しい」、「ウインドウ」という単語列がパターン2によって抽出される。またパターン中の注目単語、文脈単語の区別により、それぞれの抽出結果から、「コンピュータ」という注目単語に対し、「を起動する」が文脈として抽出される。また、「ウインドウ」という注目単語に対し、「が現れる」が文脈として抽出される。同様に、「ウインドウ」という注目単語に対し、「新しい」が文脈として抽出される。
以上の処理によって文脈行列を作成することができる。文脈行列はパターン毎に作成するため、各文脈行列から得られる類似度は異なる素性となる。また、式(1)には文書長正規化のための定数が含まれているが、この定数は自動的には決定できない。そのため、この値を0から1の間の適当な値に変動させ、類似度を計算する。例えば、定数を0.1、0.3、0.5、0.7の4種類の値で計算し、文脈行列としては、図13に示した2種類のパターンに対応する2個の文脈行列を用いて類似度を計算したとする。その場合には、4×2=8種類の素性が得られることになる。
(2)表記ベース類似度
以下では、表記ベース類似度を計算する方法について説明する。表記ベース類似度は、単語の組に対し、文字の情報に基づいて類似度を計算する。同義語が特に、「コンピュータ」と「コンピューター」のような異表記語の場合、非特許文献2に開示されているように、多くの文字が重複していることから文字の重複している割合は類似度として用いることができる。異表記語はカタカナ語の場合が多いが、漢字からなる異表記語以外でも、「分析」と「解析」、「信頼」と「信用」のように同じ文字が含まれることがある。そこで、カタカナ語に限定せず、文字の重複度によって、類似度を計算する。以下では、文字の重複割合に基づく類似度を文字重複度と呼ぶ。漢字からなる単語の場合、特に2文字単語のような文字数が短い単語の場合は、「分析」と「透析」のように同じ文字を含んでいても意味が異なる単語が多く存在する。本発明では、文脈ベース類似度のような異なる種類の類似度と組み合わせることによって、文字重複度が有効に作用する。
さらに、漢字の場合には、異なる文字であっても意味が類似している文字が存在する。例えば、「慕(う)」、「憧(れる)」のような文字は類似した意味を持っている。このような文字の類似性を教師データから学習することができれば、文字が完全に一致していない場合でも、単語間の表記ベース類似度を計算することが出来る。文字の類似性に基づく単語の類似度を類似文字重複度と呼ぶ。
(a)文字重複度
文字の重複度は、様々な方法で計算することができるが、ここでは一例として2個の単語間で共通に含まれている文字をカウントし、2個の単語のうち短い方の単語の文字列長で正規化することで計算する方法を説明する。同じ文字が複数含まれている場合には、一方にm個、他方の単語にn個含まれている場合には、m対nの対応関係となる。このような場合は、m又はnの小さい方の個数の文字が重複したものとする。
以下では、2個の単語iと単語jの表記ベース類似度の計算方法について図14を用いて説明する。
ステップ1411において、単語iの全ての文字を処理したかどうか調べる。処理していれば、ステップ1415に進む。未処理の文字があれば、ステップ1412に進む。ステップ1412では、単語jの全ての文字を処理したかどうか調べる。処理していれば、ステップ1411に進む。未処理の文字があれば、ステップ1413に進む。
ステップ1413では、単語iのm番目の文字と単語jのn番目の文字を比較し、一致するかどうか調べる。一致していれば、ステップ1414に進む。一致していなければ、ステップ1412に進む。ステップ1414では、単語iのm番目の文字と単語jのn番目の文字にそれぞれフラグを立てる。その後、ステップ1412に進む。
ステップ1415では、単語i、単語jのフラグが立った文字数をそれぞれカウントし、小さい方を一致文字数とする。例えば、「ウインドウ」と「ウィンドー」が処理対象であると仮定すると、「ウ」、「ン」、「ド」の3文字が一致する。「ウ」については、「ウインドウ」に2文字含まれているため、「ウインドウ」中でフラグが立った文字は4文字、「ウィンドー」中でフラグが立った文字は3文字となる。よって、3文字が一致したものとする。
以上の方法以外にも、2個の単語の語頭からの共通部分文字列長を重複度とする、2個の単語の語末からの共通部分文字列長を重複度とする、正規化する文字列長を両者の平均とする、長い方とするなどのバリエーションが考えられる。また、より精緻な方法として、例えば、DPマッチングなどによって2個の単語を照合し、マッチした文字数に基づいて表記ベース類似度を計算することも可能であり、利用可能な計算リソースに応じて、より多数の表記ベース類似度を計算することもできる。また、文字の頻度に基づいて、文字が一致した際の重みを変更することもできる。文書の検索において、単語の重みを計算する方法としてIDF(Inversed Document Frequency)が知られているが、同様の考え方で多くの単語に共通して含まれている文字の重要性は小さいと考えることで文字の重みを計算することができる。
(b)類似文字重複度
同義語辞書から文字の類似度を学習し、類似文字も含めて文字の重複度を計算する。文字の類似度の計算方法について、図15に示すフローチャートを用いて説明する。
ステップ1421において、同義語辞書から同義語である単語ペアを取得する。次に、ステップ1422において、単語ペアの一方の単語から取り出した文字と他方の単語から取り出した文字からなる文字ペアを全ての組み合わせについて取得する。例えば、「敬慕」、「憧憬」が同義語である単語ペアの場合、「敬」/「憧」、「敬」/「憬」、「慕」/「憧」、「慕」/「憬」という4種類の文字ペアを取得する。
次に、ステップ1423に進み、同義語辞書中の全ての単語に含まれる文字の頻度を計算する。次に、ステップ1424に進み、全ての文字ペアについて文字類似度を計算する。文字類似度は、文字ペアの頻度を、文字ペアを構成する2個の文字の頻度で割ったもの(Dice係数)を用いる。自己相互情報量等を類似度として用いても良い。
ステップ1425では、ステップ1424で計算した類似度について、同じ文字についての類似度と異なる文字についての類似度を正規化する。具体的には、同じ文字についての類似度の平均ASと異なる文字についての類似度の平均ADをそれぞれ計算する。同じ文字については、計算した類似度に関わらず、1.0を設定する。異なる文字については、ステップ1424で計算した値にAD/ASを掛け算した値を最終的な類似度とする。文字類似度テーブルの例を図16に示す。
文字類似度テーブルを利用して類似文字重複度を計算することが可能である。類似文字重複度の計算は、文字重複度の計算と同様に行えば良い。異なる部分は、文字重複度では文字が一文字一致した場合に、文字数1を加算していたのに対し、類似文字重複度の場合は、類似文字テーブルを参照し、類似文字である場合には、文字類似度を加算する点である。文字が一致する場合には、類似文字テーブルには1.0が格納されているため、文字重複度と同じである。
(3)共起ベース類似度
共起ベース類似度は、テキスト中で同時に出現する可能性の高さを示している。通常、同義語は同時に出現しにくいと言われている。例えば、「コンピュータ」と「コンピューター」のような異表記は、いずれか一方を使うことが推奨されており、同じ文書内で両方の表記が同時に出現することは稀である。しかしながら、「欧州連合」と「EU」のような略語などは、同じテキスト中に同時に使われることも多い。そのため、共起頻度は同義語を抽出するための手掛かりとなり得る。
形態素解析結果中で、i番目の単語に着目し、注目単語から予め定められたN単語以内の位置に出現した単語と注目単語との共起を全て抽出し、共起頻度テーブルに格納する。共起頻度テーブルの例を図17に示す。また、出現した個々の単語の出現頻度を同時に計算し、単語頻度テーブルに格納する。単語頻度テーブルの例を図18に示す。単語頻度テーブルと共起頻度テーブルの値から、共起ベース類似度として、例えばDice係数を計算する。Dice係数は、単語A,Bの頻度をそれぞれf(A)、f(B)、共起頻度をF(A,B)とするとき、F(A,B)/(f(A)+f(B))で計算できる。他にも、自己相互情報量など他の尺度を使うことも出来るし、複数種類を用いても構わない。図19に共起類似度テーブル118の例を示す。
以上の処理によって、同義語を従来技術と比較して高精度に抽出することが可能になる。結果の例を図20に示す。図20は、従来方式(文脈ベース類似度による教師なし学習、文脈単語を用いた教師あり学習)と本発明の方式の比較結果を示している。Webから収集した約10GB程度の日本語テキストを利用した。また、評価指標である平均適合率は、文書検索精度の評価において通常用いられる尺度であり、適合率(ノイズの少なさを示す尺度)、再現率(漏れの少なさを示す尺度)を総合的に判断するための尺度である。適合率と再現率は、通常トレードオフの関係にあり、同じ方式においてパラメータを変化させると一方が良くなり、他方が悪くなる。例えば、ある同義語抽出方式において、抽出する同義語候補数を増加させると再現率は向上する(漏れが少なくなる)が、適合率は悪化する(ノイズが増加する)。そのため、方式同士の比較においては、単純に適合率のみを比較しても意味がない。平均適合率では、再現率を10%、20%、30%のように変化させながら、各再現率における適合率を取得し、平均を取ることで方式同士の比較を正確に行うことができる。
#1は非特許文献1に開示されている方式にあたり、#2は非特許文献6に開示されている方法にあたる。教師なし方式である#1と比較して、従来方式である#2も含め教師あり方式の方が優れていることが分かる。また、教師あり方式同士の比較についても、文脈単語を素性として用いる従来方式#2と比較して、類似度を素性として用いる提案方式#3の方が、精度が良いことが分かる。また、#3で用いている文脈ベース類似度に加えて、文字重複度(#4)、類似文字重複度(#5)のような異なる素性を組み合わせて用いる方が、精度が向上することも分かる。
なお、以上の説明では、図4のステップ16の処理において、同義語辞書に含まれない単語ペアを負例として使用する方法を説明した。この方法は、同義語辞書に含まれていない単語ペアだからといって、必ずしも同義語ではないとは言えない、という問題を回避するための方法である。もう一つの方法として、識別器として1−クラスSVMを用いることで、この問題を回避することが可能である。1−クラスSVMは、正例のみから識別器を学習することができる技術であり、麻生英樹、津田宏治、村田昇「パターン認識と学習の統計学新しい概念と手法、統計科学のフロンティア」岩波書店(2003年)に開示されているので説明を省略する。1−クラスSVMを用いる場合には、図4のステップ16の処理において、ラベルとして「正解」が付与された行のみを教師データとして使用し、識別器として1−クラスSVMを用いて学習を行う。これにより、正例、すなわち同義語辞書に含まれている単語ペアに関する情報のみから、識別器を構成することが可能となる。
こうして本発明の第1の実施の形態の同義語抽出装置によると、既存の同義語辞書に含まれていない同義語を含む同義語辞書が出力される。
[第2の実施の形態]
以下、本発明の第2の実施の形態であるシソーラス抽出装置を、図面を参照して説明する。第1の実施の形態では、単語意味関係抽出の問題を同義語であるか、同義語でないかを識別する問題として解決する。しかしながら、実際の単語意味関係抽出では、より曖昧な状況が存在する。例えば、上位・下位語は、厳密な意味での同義語ではないが、意味は類似している。例えば、「企業」と「メーカ」が相当する。また、兄弟語、すなわち共通の語を上位語として持つ語の場合も同様である。例えば、「証券会社」と「銀行」が相当する。
第2の実施の形態では、このような状況を適切に扱うことができる単語意味関係抽出装置を実現できる。第2の実施の形態では、単語意味関係抽出の問題を、2値の識別問題ではなく、ランキング問題として扱うことで課題を解決する。すなわち、同義語の場合は非常に類似性が高いということでランクとして1を付与し、上位・下位語や兄弟語の場合は同義語ほどではないが、ある程度類似性が高いということでランクとして2を付与し、そのいずれでもない場合には、類似性が低いということでランクとして3を付与する問題だと考える。そして、第1の実施の形態と同様に、人手作成された辞書によってランクを正解として付与した教師データから、ランキングを行う関数を学習することによって単語意味関係抽出を行う。
第2の実施の形態では、第1の実施の形態の図4におけるステップ16、ステップ17、ステップ18を以下のように変更する。
まず、ステップ16の変更について説明する。第1の実施の形態では、同義語辞書を参照し、正例である場合には「+1」、負例である場合には「−1」という2値のラベルを設定した。ただし、ここでは不明の単語ペアは対象外とする。第2の実施の形態では、語の上位・下位関係を含むシソーラス辞書を参照することによってラベルを設定する。シソーラス辞書を参照し、単語の組が同義語であれば、ラベルとして「1」を付与する。単語の組が上位・下位語、あるいは兄弟語であればラベルとして「2」を付与する。それ以外の場合の処理の考え方は、第1の実施の形態と同様である。すなわち、単語の組はシソーラス辞書に含まれないが、単語それぞれはシソーラス辞書に含まれている場合には、不正解のラベルとして「3」を付与する。単語の組のいずれか一方の単語が同義語辞書に含まれていない場合には、不明(−1とする)のラベルを付与する。
図21に、第2の実施の形態における類似度行列の例を示す。ラベル欄に、<コンピュータ,コンピューター>のような同義語については1、<マシン,コンピュータ>のような上位・下位語については2、<計算機,仮想化技術>のような上記のいずれでもない語については3というランクが付与されている点が第1の実施の形態と異なる。
ステップ17については、2値の識別モデルの学習ではなくランキング学習を行うように変更する。ランキング学習を行う分類器としては、例えば、T. Joachims, Training Linear SVMs in Linear Time, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), 2006.に開示されているので説明を省略する。
ステップ18では、設定される値が2値ではなく、学習されたモデルにしたがって判定されたランクを示す値である点が異なる。また、設定される値が2値ではないため、辞書エディタでも画面が異なる。例えば、図22のような表示を行うことで修正を行うことができる。図22の例では、ラベルとして付与されたランクと、判定結果のランキングが一定の閾値以上に大きい単語ペアを表示し、さらに初期値としてラベルとして付与されたランクに対応する項目(図22の場合、「同義語」、「上位・下位語」、「それ以外」のいずれか)にチェックを付与する。ユーザが誤っていると判断した場合には、チェックを付け直し、チェックが変更された箇所のみを辞書に反映することで辞書を修正する。
こうして本発明の第2の実施の形態のシソーラス抽出装置によると、既存のシソーラス辞書に含まれていない同義語、上位・下位語、兄弟語を含むシソーラス辞書が出力される。
[第3の実施の形態]
以下、本発明の第3の実施の形態である対訳関係抽出装置を、図面を参照して説明する。第3の実施の形態では、単語関係として異なる言語間の対訳関係を抽出する。対訳関係は、同義語関係を異なる言語の単語間に拡張したものだと見ることができる。よって、第1の実施の形態と同様の考え方によって対訳関係抽出を行うことが可能である。第3の実施の形態では、第1の実施の形態と同様のシステム構成を用いる。ただし、第1の実施の形態と構成が異なるのは、同義語辞書の替わりに対訳辞書を用いる点である。対訳辞書1143の例を図23に示す。対訳辞書は同義語辞書と全く同じ形式であり、同義語の替わりに訳語が格納されている。
図24に対訳抽出の場合の、類似度行列の例を示す。図3の例では、単語ペアが同一言語の単語のペアからなっていたのに対し、図24の例では第1の言語の単語と第2の言語の単語からなる単語ペアが格納されている。
全体の処理の流れは、図4のフローチャートと同様である。ただし、ステップ13、ステップ14における処理の詳細が若干異なる。
ステップ13では、単語ペアを取得する際の実現方法が異なる。第1の実施の形態では、同じ言語の全ての単語の中から任意の異なる単語の組を抽出して単語ペアとするのに対し、本実施の形態では、第1言語の単語と第2言語の単語の組み合わせによって単語ペアを取得する。具体的には、第1言語のテキストを形態素解析して得られた単語のリストと第2言語のテキストを形態素解析して得られた単語のリストからそれぞれ任意の単語を取得し、単語ペアとする。
ステップ14では、単語ペアに対する類似度計算方法が異なる。以下、対訳抽出における類似度計算方法について詳細に説明する。
(1)多言語文脈ベース類似度
対訳抽出の場合、単語ペアを構成する2個の単語は異なる言語である。以下では、一方が日本語、他方が英語の場合を想定して説明する。よって、それぞれの単語の文脈も異なる言語となる。そのため、文脈単語列の一致によって類似度を計算することができない。このとき、対訳辞書を用いることで、文脈中の単語同士を対応付けることで同義語抽出の場合と同様に文脈ベースの類似度を計算することができる。
図25、図26に対訳抽出における文脈行列の例を示す。図25は、日本語テキストから抽出された文脈行列の例であり、図26は、英語テキストから抽出された文脈行列の例である。同義語抽出の場合と異なるのは、図25において、助詞を含めず動詞のみが文脈として抽出されている点である。これは、英語では助詞が存在しないこと、対訳辞書で対応付けを行うため、助詞を含めた文字列は通常辞書に含まれないことが理由である。ただし、助詞が存在しない点は、構文解析等の技術により、主格、目的格などの格解析を行い、助詞の代わりに使用することもできる。
各言語の文脈行列を準備し、対訳辞書を用いて文脈情報間の対応付けを行うことで第1の実施の形態と同様に文脈に基づいた類似度を計算することができる。例えば、対訳辞書により、「起動する」と“boot”、「停止する」と“shutdown”等が対応していることが分かるため、「コンピュータ」と“computer”の文脈情報から類似度を計算することができる。
(2)多言語表記ベース類似度
カタカナ語の外来語については、発音に基づいて、対訳関係を推定する技術が知られている。この種の技術は、Transliterationと呼ばれ、例えば、K. Knight and J. Graehl: Machine Transliteration, Computational Linguistics, 24(4), pp. 599-612, 1998.などに開示されている。単純な方法としては、“co”は「コ」と、“m”は「ン」又は「ム」、“pu”は「プ」又は「ピュ」と読むことができるという情報を準備しておき、“computer”から「コムプタ」、「コンプタ」、「コンピュタ」のような読みの候補を生成し、読みの候補と日本語単語の文字列を第1の実施の形態に述べたような方法で比較することによって類似度を計算することができる。
(3)多言語共起ベース類似度
対訳抽出の場合、文脈ベース類似度の場合と同様に、日本語の単語と英語の単語が共起するかどうかをテキストのみから得ることはできない。そのため、対訳辞書を用いて共起ベース類似度を計算する。具体的には、日本語のテキスト、英語のテキストからそれぞれ共起ベース類似度を計算し、共起類似度テーブルを作成しておく。対訳の単語ペアが与えられたら、単語ペアの一方を対訳辞書によって変換することで共起類似度テーブルと照合する。具体的には、単語ペアの日本語単語を対訳辞書によって英語に変換し、英語の共起類似度テーブルと照合し、類似度を取得する。複数の候補が存在する場合には、全てを取得する。同様に、単語ペアの英語単語を対訳辞書によって日本語に変換し、日本語の共起類似度テーブルと照合し、類似度を取得する。以上の処理によって、多言語の共起ベース類似度を計算することができる。
なお、以上の処理によって複数の類似度が得られるが、全ての類似度を計算する、日本語単語の英語変換によって得られた類似度の平均、英語単語の日本語変換によって得られた類似度の平均の2種類を用いる等、バリエーションが考えられる。対訳辞書の規模、テキストの規模によってどの方式が適しているかは変化するため、適用したいデータによって適切な方法を採用すれば良い。
こうして本発明の第3の実施の形態の対訳関係抽出装置によると、既存の対訳辞書に含まれていない対訳関係にある単語を含む対訳辞書が出力される。
100 単語意味関係抽出装置
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 単語意味関係抽出プログラム
1121 素性ベクトル抽出サブプログラム
1122 正解ラベル設定サブプログラム
1123 識別モデル学習サブプログラム
1124 識別モデル適用サブプログラム
113 テキスト
114 人手作成辞書
1141 同義語辞書
1142 シソーラス辞書
1143 対訳辞書
115 類似度行列
116 文脈行列
117 品詞パターン
118 共起類似度テーブル
119 識別モデル
120 文字類似度テーブル

Claims (9)

  1. テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、
    既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、
    前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、
    前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段と、
    を備えることを特徴とする単語意味関係抽出装置。
  2. 請求項1に記載の単語意味関係抽出装置において、
    前記素性ベクトルを生成する手段は、
    注目する単語の前記テキスト中における出現箇所の近傍の単語を当該注目する単語の文脈情報として抽出する手段と、
    前記単語の組の類似度として当該単語の組の2つの単語の文脈情報同士の類似度を計算する手段と、
    を備えることを特徴とする単語意味関係抽出装置。
  3. 請求項1に記載の単語意味関係抽出装置において、
    前記素性ベクトルを生成する手段は、
    前記単語の組の2つの単語に含まれる文字同士の対応関係を同一の文字であるかどうかに基づいて計算する手段と、
    前記文字同士の対応関係に基づいて前記単語の組の類似度を計算する手段と、
    を備えることを特徴とする単語意味関係抽出装置。
  4. 請求項1に記載の単語意味関係抽出装置において、
    前記素性ベクトルを生成する手段は、
    前記単語の組の2つの単語に含まれる文字の類似性を判定する手段と、
    前記文字の類似性に基づいて前記単語の組の類似度を計算する手段と、
    を備えることを特徴とする単語意味関係抽出装置。
  5. 請求項1に記載の単語意味関係抽出装置において、
    前記素性ベクトルを生成する手段は、
    前記テキストから一定の距離内に出現する2つの単語を共起する単語の組として抽出する手段と、
    前記単語の組の類似度として、前記共起する単語の組の頻度を用いて単語の共起し易さを示す統計量を計算する手段と、
    を備えることを特徴とする単語意味関係抽出装置。
  6. 請求項1に記載の単語意味関係抽出装置において、
    前記単語意味関係は前記単語の組の2つの単語が同義語か否かの関係であり、
    前記既知の辞書は見出し語とその同義語とを格納した同義語辞書であることを特徴とする単語意味関係抽出装置。
  7. 請求項1に記載の単語意味関係抽出装置において、
    前記単語意味関係は前記単語の組の2つの単語が同義語であるか、上位・下位関係にあるか、兄弟語関係にあるか、あるいはそのいずれでもないかであり、
    前記既知の辞書は見出し語とその同義語、上位・下位語、あるいは兄弟語を格納したシソーラス辞書であることを特徴とする単語意味関係抽出装置。
  8. 請求項1に記載の単語意味関係抽出装置において、
    前記単語意味関係は前記単語の組の2つの単語の対訳関係であり、
    前記既知の辞書は見出し語とその訳語とを格納した対訳辞書であることを特徴とする単語意味関係抽出装置。
  9. 請求項1〜8のいずれか1項に記載の単語意味関係抽出装置において、
    前記付与されたラベルと前記判定された単語意味関係の情報に基づいて、誤っている可能性が高いラベルを判定する手段、
    前記誤っている可能性が高いラベルに関する情報を表示する手段と、
    ユーザの入力を受け付けて、前記誤っているラベルに修正を施す手段と、
    を備えることを特徴とする単語意味関係抽出装置。
JP2009273560A 2009-12-01 2009-12-01 単語意味関係抽出装置 Expired - Fee Related JP5356197B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009273560A JP5356197B2 (ja) 2009-12-01 2009-12-01 単語意味関係抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009273560A JP5356197B2 (ja) 2009-12-01 2009-12-01 単語意味関係抽出装置

Publications (2)

Publication Number Publication Date
JP2011118526A JP2011118526A (ja) 2011-06-16
JP5356197B2 true JP5356197B2 (ja) 2013-12-04

Family

ID=44283801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009273560A Expired - Fee Related JP5356197B2 (ja) 2009-12-01 2009-12-01 単語意味関係抽出装置

Country Status (1)

Country Link
JP (1) JP5356197B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898464B2 (en) 2014-11-19 2018-02-20 Kabushiki Kaisha Toshiba Information extraction supporting apparatus and method
US10444742B2 (en) 2016-02-09 2019-10-15 Kabushiki Kaisha Toshiba Material recommendation apparatus
US10936806B2 (en) 2015-11-04 2021-03-02 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
US11037062B2 (en) 2016-03-16 2021-06-15 Kabushiki Kaisha Toshiba Learning apparatus, learning method, and learning program
US11481663B2 (en) 2016-11-17 2022-10-25 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5524138B2 (ja) * 2011-07-04 2014-06-18 日本電信電話株式会社 同義語辞書生成装置、その方法、及びプログラム
JP5507621B2 (ja) * 2012-06-22 2014-05-28 ヤフー株式会社 同義語推定装置、同義語推定方法および同義語推定プログラム
JP5507620B2 (ja) * 2012-06-22 2014-05-28 ヤフー株式会社 同義語推定装置、同義語推定方法および同義語推定プログラム
JP5936698B2 (ja) * 2012-08-27 2016-06-22 株式会社日立製作所 単語意味関係抽出装置
WO2017154192A1 (ja) * 2016-03-11 2017-09-14 株式会社日立製作所 テキスト分析装置及びテキスト分析方法
JP6400037B2 (ja) * 2016-03-17 2018-10-03 ヤフー株式会社 判定装置、および判定方法
JP6558863B2 (ja) * 2016-08-09 2019-08-14 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム
CN106970981B (zh) * 2017-03-28 2021-01-19 北京大学 一种基于转移矩阵构建关系抽取模型的方法
WO2019092867A1 (ja) * 2017-11-10 2019-05-16 日本電気株式会社 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
JP7168334B2 (ja) * 2018-03-20 2022-11-09 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム
JP7147439B2 (ja) * 2018-09-28 2022-10-05 株式会社リコー 言語処理方法、言語処理プログラム及び言語処理装置
CN109858012B (zh) * 2018-11-30 2023-11-28 喀斯玛汇智(无锡)科技有限公司 弹幕文本相似度计算方法、存储介质、设备及系统
JP7122795B2 (ja) 2018-12-25 2022-08-22 関西ペイント株式会社 防汚塗料組成物
WO2021049485A1 (ja) * 2019-09-10 2021-03-18 株式会社日立製作所 法律分析装置、及び法律分析方法
JP7316165B2 (ja) * 2019-09-20 2023-07-27 株式会社日立製作所 情報処理方法および情報処理装置
CN110674260B (zh) * 2019-09-27 2022-05-24 北京百度网讯科技有限公司 语义相似模型的训练方法、装置、电子设备和存储介质
EP3822841A1 (de) * 2019-11-12 2021-05-19 Robert Bosch GmbH Computerimplementiertes verfahren zum trainieren eines modells, verfahren zur bearbeitung eines datenstroms mit diesem modell sowie vorrichtungen dafür
WO2023062692A1 (ja) * 2021-10-11 2023-04-20 日本電信電話株式会社 処理装置、処理方法及び処理プログラム
JP7393772B1 (ja) 2022-11-10 2023-12-07 ThinkX株式会社 文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
JP3692399B2 (ja) * 2001-12-26 2005-09-07 独立行政法人情報通信研究機構 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム
US20050033568A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for extracting synonymous gene and protein terms from biological literature
JP2005250762A (ja) * 2004-03-03 2005-09-15 Mitsubishi Electric Corp 辞書生成装置、辞書生成方法および辞書生成プログラム
JP4252038B2 (ja) * 2005-01-07 2009-04-08 日本電信電話株式会社 言い換え表現獲得システム、言い換え表現獲得方法及び言い換え表現獲得プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898464B2 (en) 2014-11-19 2018-02-20 Kabushiki Kaisha Toshiba Information extraction supporting apparatus and method
US10936806B2 (en) 2015-11-04 2021-03-02 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
US10444742B2 (en) 2016-02-09 2019-10-15 Kabushiki Kaisha Toshiba Material recommendation apparatus
US11037062B2 (en) 2016-03-16 2021-06-15 Kabushiki Kaisha Toshiba Learning apparatus, learning method, and learning program
US11481663B2 (en) 2016-11-17 2022-10-25 Kabushiki Kaisha Toshiba Information extraction support device, information extraction support method and computer program product

Also Published As

Publication number Publication date
JP2011118526A (ja) 2011-06-16

Similar Documents

Publication Publication Date Title
JP5356197B2 (ja) 単語意味関係抽出装置
JP5936698B2 (ja) 単語意味関係抽出装置
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
JP5544602B2 (ja) 単語意味関係抽出装置及び単語意味関係抽出方法
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
Chong A study on plagiarism detection and plagiarism direction identification using natural language processing techniques
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Sharipov et al. UzbekTagger: The rule-based POS tagger for Uzbek language
JP2005181928A (ja) 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
Nehar et al. Rational kernels for Arabic root extraction and text classification
López et al. Experiments on sentence boundary detection in user-generated web content
Saralegi et al. Cross-lingual projections vs. corpora extracted subjectivity lexicons for less-resourced languages
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
Sidhu et al. Role of machine translation and word sense disambiguation in natural language processing
Uban et al. A computational approach to measuring the semantic divergence of cognates
Florea et al. Improving writing for Romanian language
Pan et al. An Unsupervised Artificial Intelligence Strategy for Recognising Multi-word Expressions in Transformed Bengali Data
Colton Text classification using Python
Masanti et al. Novel Benchmark Data Set for Automatic Error Detection and Correction
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Pandey et al. A Robust Approach to Plagiarism Detection in Handwritten Documents
Tongtep et al. Discovery of predicate-oriented relations among named entities extracted from thai texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130828

R151 Written notification of patent or utility model registration

Ref document number: 5356197

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130920

LAPS Cancellation because of no payment of annual fees