JP5356197B2 - 単語意味関係抽出装置 - Google Patents
単語意味関係抽出装置 Download PDFInfo
- Publication number
- JP5356197B2 JP5356197B2 JP2009273560A JP2009273560A JP5356197B2 JP 5356197 B2 JP5356197 B2 JP 5356197B2 JP 2009273560 A JP2009273560 A JP 2009273560A JP 2009273560 A JP2009273560 A JP 2009273560A JP 5356197 B2 JP5356197 B2 JP 5356197B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- similarity
- dictionary
- extraction device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[第1の実施の形態]
第1の実施の形態として、単語意味関係として同義語関係にある単語ペアを抽出するための同義語抽出装置について説明する。図1は、本発明を実現する計算機システムの構成例を示すブロック図である。図1に示した計算機システムは、本発明の第1の実施の形態に用いられると共に、本発明の第2及び第3の実施の形態にも共通して用いられる。なお、実施の形態によっては使用されない機能も含んでいる。
テキストデータ中に含まれる、任意の単語のペアを考える。例えば、単語のペアを<計算機,コンピュータ>とする。このとき、単語ペアが同義語であるかどうかを判定するための様々な尺度を想定することができる。
以下では、文脈ベース類似度を計算する方法について説明する。ある単語の文脈とは、その単語がテキスト中に出現している箇所の「近傍」の単語、あるいは単語列等を示す。何をもって「近傍」と定義するかによって、様々な文脈が定義できる。以下では、文脈として、後続する動詞及び直前に出現する形容詞・形容動詞を出現文脈として用いる例を説明するが、これ以外の出現文脈を代替して使用する、あるいは追加・組み合わせて使用することも可能である。また、文脈同士の類似度計算式にも様々な方法が存在する。
以下では、表記ベース類似度を計算する方法について説明する。表記ベース類似度は、単語の組に対し、文字の情報に基づいて類似度を計算する。同義語が特に、「コンピュータ」と「コンピューター」のような異表記語の場合、非特許文献2に開示されているように、多くの文字が重複していることから文字の重複している割合は類似度として用いることができる。異表記語はカタカナ語の場合が多いが、漢字からなる異表記語以外でも、「分析」と「解析」、「信頼」と「信用」のように同じ文字が含まれることがある。そこで、カタカナ語に限定せず、文字の重複度によって、類似度を計算する。以下では、文字の重複割合に基づく類似度を文字重複度と呼ぶ。漢字からなる単語の場合、特に2文字単語のような文字数が短い単語の場合は、「分析」と「透析」のように同じ文字を含んでいても意味が異なる単語が多く存在する。本発明では、文脈ベース類似度のような異なる種類の類似度と組み合わせることによって、文字重複度が有効に作用する。
文字の重複度は、様々な方法で計算することができるが、ここでは一例として2個の単語間で共通に含まれている文字をカウントし、2個の単語のうち短い方の単語の文字列長で正規化することで計算する方法を説明する。同じ文字が複数含まれている場合には、一方にm個、他方の単語にn個含まれている場合には、m対nの対応関係となる。このような場合は、m又はnの小さい方の個数の文字が重複したものとする。
同義語辞書から文字の類似度を学習し、類似文字も含めて文字の重複度を計算する。文字の類似度の計算方法について、図15に示すフローチャートを用いて説明する。
共起ベース類似度は、テキスト中で同時に出現する可能性の高さを示している。通常、同義語は同時に出現しにくいと言われている。例えば、「コンピュータ」と「コンピューター」のような異表記は、いずれか一方を使うことが推奨されており、同じ文書内で両方の表記が同時に出現することは稀である。しかしながら、「欧州連合」と「EU」のような略語などは、同じテキスト中に同時に使われることも多い。そのため、共起頻度は同義語を抽出するための手掛かりとなり得る。
以下、本発明の第2の実施の形態であるシソーラス抽出装置を、図面を参照して説明する。第1の実施の形態では、単語意味関係抽出の問題を同義語であるか、同義語でないかを識別する問題として解決する。しかしながら、実際の単語意味関係抽出では、より曖昧な状況が存在する。例えば、上位・下位語は、厳密な意味での同義語ではないが、意味は類似している。例えば、「企業」と「メーカ」が相当する。また、兄弟語、すなわち共通の語を上位語として持つ語の場合も同様である。例えば、「証券会社」と「銀行」が相当する。
以下、本発明の第3の実施の形態である対訳関係抽出装置を、図面を参照して説明する。第3の実施の形態では、単語関係として異なる言語間の対訳関係を抽出する。対訳関係は、同義語関係を異なる言語の単語間に拡張したものだと見ることができる。よって、第1の実施の形態と同様の考え方によって対訳関係抽出を行うことが可能である。第3の実施の形態では、第1の実施の形態と同様のシステム構成を用いる。ただし、第1の実施の形態と構成が異なるのは、同義語辞書の替わりに対訳辞書を用いる点である。対訳辞書1143の例を図23に示す。対訳辞書は同義語辞書と全く同じ形式であり、同義語の替わりに訳語が格納されている。
対訳抽出の場合、単語ペアを構成する2個の単語は異なる言語である。以下では、一方が日本語、他方が英語の場合を想定して説明する。よって、それぞれの単語の文脈も異なる言語となる。そのため、文脈単語列の一致によって類似度を計算することができない。このとき、対訳辞書を用いることで、文脈中の単語同士を対応付けることで同義語抽出の場合と同様に文脈ベースの類似度を計算することができる。
カタカナ語の外来語については、発音に基づいて、対訳関係を推定する技術が知られている。この種の技術は、Transliterationと呼ばれ、例えば、K. Knight and J. Graehl: Machine Transliteration, Computational Linguistics, 24(4), pp. 599-612, 1998.などに開示されている。単純な方法としては、“co”は「コ」と、“m”は「ン」又は「ム」、“pu”は「プ」又は「ピュ」と読むことができるという情報を準備しておき、“computer”から「コムプタ」、「コンプタ」、「コンピュタ」のような読みの候補を生成し、読みの候補と日本語単語の文字列を第1の実施の形態に述べたような方法で比較することによって類似度を計算することができる。
対訳抽出の場合、文脈ベース類似度の場合と同様に、日本語の単語と英語の単語が共起するかどうかをテキストのみから得ることはできない。そのため、対訳辞書を用いて共起ベース類似度を計算する。具体的には、日本語のテキスト、英語のテキストからそれぞれ共起ベース類似度を計算し、共起類似度テーブルを作成しておく。対訳の単語ペアが与えられたら、単語ペアの一方を対訳辞書によって変換することで共起類似度テーブルと照合する。具体的には、単語ペアの日本語単語を対訳辞書によって英語に変換し、英語の共起類似度テーブルと照合し、類似度を取得する。複数の候補が存在する場合には、全てを取得する。同様に、単語ペアの英語単語を対訳辞書によって日本語に変換し、日本語の共起類似度テーブルと照合し、類似度を取得する。以上の処理によって、多言語の共起ベース類似度を計算することができる。
101 CPU
102 主メモリ
103 入出力装置
110 ディスク装置
111 OS
112 単語意味関係抽出プログラム
1121 素性ベクトル抽出サブプログラム
1122 正解ラベル設定サブプログラム
1123 識別モデル学習サブプログラム
1124 識別モデル適用サブプログラム
113 テキスト
114 人手作成辞書
1141 同義語辞書
1142 シソーラス辞書
1143 対訳辞書
115 類似度行列
116 文脈行列
117 品詞パターン
118 共起類似度テーブル
119 識別モデル
120 文字類似度テーブル
Claims (9)
- テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、
既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、
前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、
前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段と、
を備えることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
注目する単語の前記テキスト中における出現箇所の近傍の単語を当該注目する単語の文脈情報として抽出する手段と、
前記単語の組の類似度として当該単語の組の2つの単語の文脈情報同士の類似度を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
前記単語の組の2つの単語に含まれる文字同士の対応関係を同一の文字であるかどうかに基づいて計算する手段と、
前記文字同士の対応関係に基づいて前記単語の組の類似度を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
前記単語の組の2つの単語に含まれる文字の類似性を判定する手段と、
前記文字の類似性に基づいて前記単語の組の類似度を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記素性ベクトルを生成する手段は、
前記テキストから一定の距離内に出現する2つの単語を共起する単語の組として抽出する手段と、
前記単語の組の類似度として、前記共起する単語の組の頻度を用いて単語の共起し易さを示す統計量を計算する手段と、
を備えることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記単語意味関係は前記単語の組の2つの単語が同義語か否かの関係であり、
前記既知の辞書は見出し語とその同義語とを格納した同義語辞書であることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記単語意味関係は前記単語の組の2つの単語が同義語であるか、上位・下位関係にあるか、兄弟語関係にあるか、あるいはそのいずれでもないかであり、
前記既知の辞書は見出し語とその同義語、上位・下位語、あるいは兄弟語を格納したシソーラス辞書であることを特徴とする単語意味関係抽出装置。 - 請求項1に記載の単語意味関係抽出装置において、
前記単語意味関係は前記単語の組の2つの単語の対訳関係であり、
前記既知の辞書は見出し語とその訳語とを格納した対訳辞書であることを特徴とする単語意味関係抽出装置。 - 請求項1〜8のいずれか1項に記載の単語意味関係抽出装置において、
前記付与されたラベルと前記判定された単語意味関係の情報に基づいて、誤っている可能性が高いラベルを判定する手段、
前記誤っている可能性が高いラベルに関する情報を表示する手段と、
ユーザの入力を受け付けて、前記誤っているラベルに修正を施す手段と、
を備えることを特徴とする単語意味関係抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009273560A JP5356197B2 (ja) | 2009-12-01 | 2009-12-01 | 単語意味関係抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009273560A JP5356197B2 (ja) | 2009-12-01 | 2009-12-01 | 単語意味関係抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011118526A JP2011118526A (ja) | 2011-06-16 |
JP5356197B2 true JP5356197B2 (ja) | 2013-12-04 |
Family
ID=44283801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009273560A Expired - Fee Related JP5356197B2 (ja) | 2009-12-01 | 2009-12-01 | 単語意味関係抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5356197B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898464B2 (en) | 2014-11-19 | 2018-02-20 | Kabushiki Kaisha Toshiba | Information extraction supporting apparatus and method |
US10444742B2 (en) | 2016-02-09 | 2019-10-15 | Kabushiki Kaisha Toshiba | Material recommendation apparatus |
US10936806B2 (en) | 2015-11-04 | 2021-03-02 | Kabushiki Kaisha Toshiba | Document processing apparatus, method, and program |
US11037062B2 (en) | 2016-03-16 | 2021-06-15 | Kabushiki Kaisha Toshiba | Learning apparatus, learning method, and learning program |
US11481663B2 (en) | 2016-11-17 | 2022-10-25 | Kabushiki Kaisha Toshiba | Information extraction support device, information extraction support method and computer program product |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5524138B2 (ja) * | 2011-07-04 | 2014-06-18 | 日本電信電話株式会社 | 同義語辞書生成装置、その方法、及びプログラム |
JP5507621B2 (ja) * | 2012-06-22 | 2014-05-28 | ヤフー株式会社 | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP5507620B2 (ja) * | 2012-06-22 | 2014-05-28 | ヤフー株式会社 | 同義語推定装置、同義語推定方法および同義語推定プログラム |
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
WO2017154192A1 (ja) * | 2016-03-11 | 2017-09-14 | 株式会社日立製作所 | テキスト分析装置及びテキスト分析方法 |
JP6400037B2 (ja) * | 2016-03-17 | 2018-10-03 | ヤフー株式会社 | 判定装置、および判定方法 |
JP6558863B2 (ja) * | 2016-08-09 | 2019-08-14 | 日本電信電話株式会社 | モデル作成装置、推定装置、方法、及びプログラム |
CN106970981B (zh) * | 2017-03-28 | 2021-01-19 | 北京大学 | 一种基于转移矩阵构建关系抽取模型的方法 |
WO2019092867A1 (ja) * | 2017-11-10 | 2019-05-16 | 日本電気株式会社 | 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体 |
JP7168334B2 (ja) * | 2018-03-20 | 2022-11-09 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7147439B2 (ja) * | 2018-09-28 | 2022-10-05 | 株式会社リコー | 言語処理方法、言語処理プログラム及び言語処理装置 |
CN109858012B (zh) * | 2018-11-30 | 2023-11-28 | 喀斯玛汇智(无锡)科技有限公司 | 弹幕文本相似度计算方法、存储介质、设备及系统 |
JP7122795B2 (ja) | 2018-12-25 | 2022-08-22 | 関西ペイント株式会社 | 防汚塗料組成物 |
WO2021049485A1 (ja) * | 2019-09-10 | 2021-03-18 | 株式会社日立製作所 | 法律分析装置、及び法律分析方法 |
JP7316165B2 (ja) * | 2019-09-20 | 2023-07-27 | 株式会社日立製作所 | 情報処理方法および情報処理装置 |
CN110674260B (zh) * | 2019-09-27 | 2022-05-24 | 北京百度网讯科技有限公司 | 语义相似模型的训练方法、装置、电子设备和存储介质 |
EP3822841A1 (de) * | 2019-11-12 | 2021-05-19 | Robert Bosch GmbH | Computerimplementiertes verfahren zum trainieren eines modells, verfahren zur bearbeitung eines datenstroms mit diesem modell sowie vorrichtungen dafür |
WO2023062692A1 (ja) * | 2021-10-11 | 2023-04-20 | 日本電信電話株式会社 | 処理装置、処理方法及び処理プログラム |
JP7393772B1 (ja) | 2022-11-10 | 2023-12-07 | ThinkX株式会社 | 文書解析アルゴリズム、レコメンドシステム、文書解析方法及び文書解析プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098033A (en) * | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
JP3692399B2 (ja) * | 2001-12-26 | 2005-09-07 | 独立行政法人情報通信研究機構 | 教師あり機械学習法を用いた表記誤り検出処理装置、その処理方法、およびその処理プログラム |
US20050033568A1 (en) * | 2003-08-08 | 2005-02-10 | Hong Yu | Methods and systems for extracting synonymous gene and protein terms from biological literature |
JP2005250762A (ja) * | 2004-03-03 | 2005-09-15 | Mitsubishi Electric Corp | 辞書生成装置、辞書生成方法および辞書生成プログラム |
JP4252038B2 (ja) * | 2005-01-07 | 2009-04-08 | 日本電信電話株式会社 | 言い換え表現獲得システム、言い換え表現獲得方法及び言い換え表現獲得プログラム |
-
2009
- 2009-12-01 JP JP2009273560A patent/JP5356197B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9898464B2 (en) | 2014-11-19 | 2018-02-20 | Kabushiki Kaisha Toshiba | Information extraction supporting apparatus and method |
US10936806B2 (en) | 2015-11-04 | 2021-03-02 | Kabushiki Kaisha Toshiba | Document processing apparatus, method, and program |
US10444742B2 (en) | 2016-02-09 | 2019-10-15 | Kabushiki Kaisha Toshiba | Material recommendation apparatus |
US11037062B2 (en) | 2016-03-16 | 2021-06-15 | Kabushiki Kaisha Toshiba | Learning apparatus, learning method, and learning program |
US11481663B2 (en) | 2016-11-17 | 2022-10-25 | Kabushiki Kaisha Toshiba | Information extraction support device, information extraction support method and computer program product |
Also Published As
Publication number | Publication date |
---|---|
JP2011118526A (ja) | 2011-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
JP5544602B2 (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
Chong | A study on plagiarism detection and plagiarism direction identification using natural language processing techniques | |
Singh et al. | A decision tree based word sense disambiguation system in Manipuri language | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
Zheng et al. | Dynamic knowledge-base alignment for coreference resolution | |
Sharipov et al. | UzbekTagger: The rule-based POS tagger for Uzbek language | |
JP2005181928A (ja) | 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
López et al. | Experiments on sentence boundary detection in user-generated web content | |
Saralegi et al. | Cross-lingual projections vs. corpora extracted subjectivity lexicons for less-resourced languages | |
Rajan et al. | Survey of nlp resources in low-resource languages nepali, sindhi and konkani | |
Sidhu et al. | Role of machine translation and word sense disambiguation in natural language processing | |
Uban et al. | A computational approach to measuring the semantic divergence of cognates | |
Florea et al. | Improving writing for Romanian language | |
Pan et al. | An Unsupervised Artificial Intelligence Strategy for Recognising Multi-word Expressions in Transformed Bengali Data | |
Colton | Text classification using Python | |
Masanti et al. | Novel Benchmark Data Set for Automatic Error Detection and Correction | |
JP4033089B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Pandey et al. | A Robust Approach to Plagiarism Detection in Handwritten Documents | |
Tongtep et al. | Discovery of predicate-oriented relations among named entities extracted from thai texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130828 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5356197 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130920 |
|
LAPS | Cancellation because of no payment of annual fees |